先对Q和K做归一化,在把缩放因子替换为可学习参数