【自然语言处理】大模型时代的数据标注(主动学习)

文章目录

      • A 论文出处
      • B 背景
        • B.1 背景介绍
        • B.2 问题提出
        • B.3 创新点
      • C 模型结构
      • D 实验设计
      • E 个人总结

A 论文出处

  • 论文题目:FreeAL: Towards Human-Free Active Learning in the Era of Large Language Models
  • 发表情况:2023-EMNLP
  • 作者单位:浙江大学、网易

B 背景

B.1 背景介绍

传统的主动学习,降低了第一步的标注成本,通过迭代标注小部分数据,然后通过模型的Uncertainty(或Feature-based Diversity)进行校验,筛选剩余有价值的样本进行再标注。但仍存在两个问题,首先是少量标注其实很难训练很好的模型,影响后续筛选的步骤,其次传统AL还是需要大量的人力成本,目前的AL论文大部分都需要标注10%~50%以上的数据才能达到较好的性能。

B.2 问题提出

(1)大模型:可以用Zero/few-shot ICL解决下游任务,人力标注几乎为0,但光靠大模型部署成本较高,效果不总是尽如人意;

(2)小模型:直接用小模型需要收集很多标注数据,人力成本更高。但可以使用半监督、主动学习缓解一下标注成本,但总是需要一定的人力成本。

B.3 创新点

(1)在没有任何人为监督的情况下,提高大模型的泛化能力;

(2)大模型+小模型的协同学习方法FreeAL,大模型用来主动标注,小模型用来过滤和反馈。

C 模型结构

(1)LLM通过自生成的虚拟样本对未标注的数据进行打标,形成初始的标注数据集;

(2)SLM对于LLM的标注结果进行筛选过滤,得到clean set用于LLM进行ICL;

  1. 训练预热(Warm-up Training)
    SLM使用LLM生成的初始伪标签进行少量周期的标准训练(如交叉熵损失),目的是让模型初步学习数据中的简单模式,避免过早陷入噪声样本的过拟合。
  2. 损失计算与排序(Loss Calculation and Ranking)
    对每个训练样本计算交叉熵损失值 l i l_i li,并按类别对损失值进行升序排序。损失值较低的样本表明SLM对其预测置信度较高,可能对应LLM生成的更准确的伪标签。
  3. 类别内筛选(Class-wise Selection)
    对每个类别 j j j 的样本集合 D t r a i n j \mathcal{D}_{train}^j Dtrainj,选择损失值最小的前 R % R\% R%(如论文中设 R = 20 R=20 R=20 )的样本,构成初步的干净子集 D c l e a n j \mathcal{D}_{clean}^j Dcleanj,确保每个类别都有一定比例的“高置信度”样本被保留。
  4. 聚类去冗余(Clustering for Diversity)
    使用k-medoids算法 D c l e a n j \mathcal{D}_{clean}^j Dcleanj 中样本的嵌入表示(如SLM的隐藏层输出)进行聚类,选择每个簇的中心样本(medoids)作为最终演示池 D d e m o j \mathcal{D}_{{demo}}^j Ddemoj 。这保证了演示样本的多样性和代表性,避免冗余。
  5. 合并与反馈(Aggregation and Feedback)
    将所有类别的演示池合并为 D d e m o = ∪ D d e m o j \mathcal{D}_{{demo}}=\cup\mathcal{D}_{{demo}}^j Ddemo=Ddemoj ,并反馈给LLM用于后续的标签优化。未被选中的样本则交由 D n o i s y \mathcal{D}_{{noisy}} Dnoisy LLM通过上下文学习重新标注。

D 实验设计

(1)多次迭代性能提升

(2)相较于ICL的性能提升

E 个人总结

(1)数据标注依然重要,完全监督、弱监督的小模型在很多场景下比(未精调)大模型强;

(2)利用LLM进行标注是完全可行的,小模型可以协同进行过滤、精炼大模型的标签;

(3) 该方法的核心在于用LLM完全替代人类进行样本选择,但LLM固有的不确定性、偏见和“幻觉”问题可能导致其选择的样本质量不稳定,甚至引入错误或次优的标注,反而损害最终模型性能;

(4)论文中展示的有效性可能高度依赖于特定的数据集、任务或使用的LLM,其提出的“完全无人”流程在更复杂、动态或领域外(OOD)的真实世界场景中的鲁棒性和泛化能力尚未得到充分验证。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908522.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【论文解读】DeepSeek-R1

文章目录 概览一、DeepSeek-R1-Zero:在 Base Model 上直接进行 RL(一)强化学习算法(二)奖励模型(三)数据构造(四)DeepSeek-R1-Zero 的性能、自我进化过程和 Aha Moment1.…

巴西医疗巨头尤迈Kafka数据泄露事件的全过程分析与AI安防策略分析

一、事件背景与主体信息 涉事主体:Unimed,全球最大医疗合作社,巴西医疗行业龙头企业,拥有约1500万客户。技术背景:泄露源于其未保护的Kafka实例(开源实时数据传输平台),用于客户与聊天机器人“Sara”及医生的实时通信。二、时间线梳理 时间节点关键事件描述2025年3月24…

软信天成:数据驱动型背后的人工智能,基于机器学习的数据管理

在数字化转型浪潮中,当代企业如同逆水行舟,不进则退。无数企业希望通过数字化转型捕获全新的市场机遇,改善财政状况,在未来市场竞争中占据一席之地。要想获得成功的数字化转型,关键因素在于具备可靠、及时的数据用以支…

如何理解 IP 数据报中的 TTL?

目录 前言理解 前言 面试灵魂一问:说说对 IP 数据报中 TTL 的理解?我们都知道,IP 数据报由首部和数据两部分组成,首部又分为两部分:固定部分和可变部分,共占 20 字节,而即将讨论的 TTL 就位于首…

【Java学习笔记】StringBuilder类(重点)

StringBuilder(重点) 1. 基本介绍 是一个可变的字符串序列。该类提供一个与 StringBuffer 兼容的 API,但不保证同步(StringBuilder 不是线程安全的) 该类被设计用作 StringBuffer 的一个简易替换,用在字符…

计算机网络 | 1.2 计算机网络体系结构与参考模型

计算机网络体系结构与参考模型 目录 计算机网络体系结构与参考模型 【思维导图】 1、计算机的分层结构 1、为什么要分层? 2、什么是计算机网络体系结构 2、计算机网络协议、接口和服务 1)协议: 2)接口: 3…

微软的新系统Windows12未来有哪些新特性

在今年即将到来的重大设计升级中,苹果计划对其全线操作系统统一按年份命名,作为另一巨头微软的win12还远吗?win11和win10是微软现在正在用的主流版本,win11系统发布于2021年6月24日,win10系统发布于2015年7月29日。预计win12尝鲜版可能在2025年下半年或明年。 尽管win12还…

制造业数智化卡在知识断层?R²AIN SUITE AI知识管理打通关键经络

在一家工厂里,工程师正面临棘手难题——某机器异常振动的处理方案。他的笔记本记录着三年前类似案例的解决方案,但翻查半小时仍未找到关键参数。与此同时,工厂的碳排放监控系统显示,因设备停机导致的额外能源损耗已使产线碳强度有…

构造数列中的常见变形总结

前情概要 针对高考中构造数列的常见变形做一总结,便于梳理思路,提升思维。 类型Ⅰ: 形如 a n + 1 = p ⋅ a n + q a_{n+1}=p\cdot a_n+q an+1​=p⋅an​+q, p , q p,q p,q为常数,即 a n + 1 = f ( a n ) a_{n+1}=f(a_n) an+1​=f(an​),构造变形方向: 其一: a n…

全国县域统计年鉴PDF-Excel电子版-2022年

全国县域统计年鉴PDF-Excel电子版-2022年.ziphttps://download.csdn.net/download/2401_84585615/89784662 https://download.csdn.net/download/2401_84585615/89784662 《中国县域统计年鉴》是一部全面反映中国县域社会经济发展状况的资料性年鉴。自2014年起,该年…

81 实战一:给root目录扩容

添加一块100G硬盘 vgextend centos /dev/sdb1 /dev/sdc lvextend -L +120G /dev/centos/root xfs_growfs /dev/centos/root df -h 看是否扩容成功 82 实战二:给swap空间扩容 添加一块20G硬盘 fdisk -l 可以看到新添加的硬盘 vgextend centos /dev/sdd …

实现购物车微信小程序

实现一个微信小程序购物车页面,包含以下功能: 需求说明: 商品列表:显示商品名称、价格、数量加减按钮,支持修改商品数量(数量≥1)。 全选 / 反选功能:顶部 “全选” 复选框&#…

R语言使用随机过采样(Random Oversampling)平衡数据集

随机过采样(Random Oversampling)是一种用于平衡数据集的技术,常用于机器学习中处理类别不平衡问题。当某个类别的样本数量远少于其他类别时(例如二分类中的正负样本比例悬殊),模型可能会偏向多数类&#x…

【力扣】2434.使用机器人打印字典序最小的字符串

1、题目描述: 2、测试用例: 3、解题思路 每次删除字符串s的第一个字符,可以将s看做队列,每次从头部出。在t的尾端插入或删除,可以将t看做栈栈顶元素出栈条件:①比即将入栈的元素小并且比s中剩下的还没有入…

业务材料——半导体行业MES系统核心功能工业协议AI赋能

一、前置概念 半导体行业 半导体行业主要生产基于半导体材料(如硅、锗、化合物半导体等)的电子元器件及相关产品,广泛应用于计算、通信、能源、医疗等领域。 MES系统 MES系统(Manufacturing Execution System,制造…

视频的分片上传,断点上传

​ 上传功能的实现,点击上传按钮,判断添加的文件是否符合要求,如果符合把他放入文件列表中,并把他的状态设置为等待中,对于每个文件,把他们切分为chunksize大小的文件片段,再检查他的状态是否为…

指针的定义与使用

1.指针的定义和使用 int point1(){//定义指针int a 10;//指针定义语法&#xff1a; 数据类型 * 指针变量名int * p;cout << "sizeof (int(*)) --> " << sizeof(p) << endl;//让指针记录变量a的地址 & 取址符p &a ;cout << &qu…

Git开发实战

本文对开发中git的常用概念和操作做一个总结。参考绿毛鸭子的部分内容。 git分布式的体现 1.本地完整的版本库&#xff1a; 每个克隆下来的 Git 仓库都包含了项目的所有历史记录、提交、分支等信息。这意味着每个开发者的本地仓库是一个完整的版本控制系统&#xff0c;包括…

ingress-nginx 开启 Prometheus 监控 + Grafana 查看指标

环境已经部署了 ingress-nginx&#xff08;DaemonSet 方式&#xff09;&#xff0c;并且 Prometheus Grafana 也已经运行。但之前 /metrics 端点没有暴露 Nginx 核心指标&#xff08;如 nginx_ingress_controller_requests_total&#xff09;&#xff0c;经过调整后现在可以正…

ThinkPHP 5.1 中的 error 和 success 方法详解

1、success() 方法 public function someAction() {// 操作成功逻辑...return $this->success(操作成功, 跳转地址, 额外数据); } 参数说明 参数类型说明默认值msgstring成功提示信息空字符串urlstring跳转URLnull (不跳转)datamixed返回的额外数据nullwaitinteger跳转等…