Transformer,多头注意力机制 隐式学习子空间划分 在Transformer中,多头注意力机制天然支持隐式学习子空间划分——每个注意力头可以专注于输入的不同方面(如语义、句法、位置关系等),从而隐式形成多个子空间。 一、核心思路:将多头注意力视为隐式子空间 原理 Transformer的多头注意力公式为: MultiHead ( Q , K , V ) = Concat (