一种大模型高效训练方式(PEFT) 目标: 训练有限的ΔW(权重更新矩阵) ΔW为低秩矩阵→ΔW=AB(其中A的大小为dr, B的大小为rk,且r<<min(d,k))→ 原本要更新的dk参数量大幅度缩减成r*(d+k),训练更高效 问题: 1、矩阵的秩(rank)是什么? 矩阵行向量或列向量的极大线性无关组的向量个数,等价于: 矩阵中非零奇异值的个数。 矩阵线性变换后空间的维度(像空间的维数)。 2、为什么ΔW为低秩矩阵? 微调只需要调整少数方向 3、为什么r<<min(d,k)? 奇异值分解可以解释。