【自然语言处理】大模型时代的数据标注（主动学习）

文章目录

- - A 论文出处
  - B 背景
  - - B.1 背景介绍
    - B.2 问题提出
    - B.3 创新点
  - C 模型结构
  - D 实验设计
  - E 个人总结

A 论文出处

论文题目：FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models
发表情况：2023-EMNLP
作者单位：浙江大学、网易

B 背景

B.1 背景介绍

传统的主动学习，降低了第一步的标注成本，通过迭代标注小部分数据，然后通过模型的Uncertainty（或Feature-based Diversity）进行校验，筛选剩余有价值的样本进行再标注。但仍存在两个问题，首先是少量标注其实很难训练很好的模型，影响后续筛选的步骤，其次传统AL还是需要大量的人力成本，目前的AL论文大部分都需要标注10%~50%以上的数据才能达到较好的性能。

B.2 问题提出

（1）大模型：可以用Zero/few-shot ICL解决下游任务，人力标注几乎为0，但光靠大模型部署成本较高，效果不总是尽如人意；

（2）小模型：直接用小模型需要收集很多标注数据，人力成本更高。但可以使用半监督、主动学习缓解一下标注成本，但总是需要一定的人力成本。

B.3 创新点

（1）在没有任何人为监督的情况下，提高大模型的泛化能力；

（2）大模型+小模型的协同学习方法FreeAL，大模型用来主动标注，小模型用来过滤和反馈。

C 模型结构

（1）LLM通过自生成的虚拟样本对未标注的数据进行打标，形成初始的标注数据集；

（2）SLM对于LLM的标注结果进行筛选过滤，得到clean set用于LLM进行ICL；

训练预热（Warm-up Training）
SLM使用LLM生成的初始伪标签进行少量周期的标准训练（如交叉熵损失），目的是让模型初步学习数据中的简单模式，避免过早陷入噪声样本的过拟合。
损失计算与排序（Loss Calculation and Ranking）
对每个训练样本计算交叉熵损失值 $l_i$ ，并按类别对损失值进行升序排序。损失值较低的样本表明SLM对其预测置信度较高，可能对应LLM生成的更准确的伪标签。
类别内筛选（Class-wise Selection）
对每个类别 $j$ 的样本集合 $\mathcal{D}_{train}^j$ ，选择损失值最小的前 $R\%$ （如论文中设 $R = 20$ ）的样本，构成初步的干净子集 $\mathcal{D}_{clean}^j$ ，确保每个类别都有一定比例的“高置信度”样本被保留。
聚类去冗余（Clustering for Diversity）
使用k-medoids算法对 $\mathcal{D}_{clean}^j$ 中样本的嵌入表示（如SLM的隐藏层输出）进行聚类，选择每个簇的中心样本（medoids）作为最终演示池 $\mathcal{D}_{{demo}}^j$ 。这保证了演示样本的多样性和代表性，避免冗余。
合并与反馈（Aggregation and Feedback）
将所有类别的演示池合并为 $\mathcal{D}_{{demo}}=\cup\mathcal{D}_{{demo}}^j$ ，并反馈给LLM用于后续的标签优化。未被选中的样本则交由 $\mathcal{D}_{{noisy}}$ LLM通过上下文学习重新标注。