neurips 2024
1 intro
- 近年来,模型融合(model merging)技术迅速发展,使得可以将多个分别针对不同任务微调后的模型直接集成为一个统一模型,从而实现多任务处理能力,而无需重新访问原始训练数据。
然而,目前已有的融合方法普遍存在以下问题:
无法充分处理任务间的冲突与关联,特别是在参数级别上的权重竞争(parameter competition);
在多个任务之间难以实现良好的参数平衡(parameter balancing),从而影响融合模型的整体表现。
——>论文提出PCB-Merging(Parameter Competition Balancing),全新的、轻量级、无需训练(training-free)的模型融合方法
通过对每个参数分配不同的融合系数,实现对任务间参数竞争的动态平衡。
2 preliminary
2.1 问题设定
2.2 参数表示
2.3 引入任务向量
2.4 向量加权融合
3 方法
3.1 任务内平衡
3.2 任务间平衡
3.3 丢弃与重缩放(Drop and Rescale)
Drop and Rescale 这一步就是为了:
丢弃(Drop):过滤掉“低重要性”的参数,压制无用/冲突参数;
重缩放(Rescale):对保留下来的参数按照其重要性再次加权,提升其代表性。
公式3:
公式4: