大语言模型训练中的自监督学习和其他训练方式

大语言模型训练中的自监督学习和其他训练方式。

自监督学习(Self-Supervised Learning)

1. 什么是自监督学习?

自监督学习是一种不需要人工标注数据的训练方式,模型从数据本身学习特征和模式。

在语言模型中的具体实现:

# 示例:掩码语言模型(Masked Language Model, MLM)
原始文本: "北京是中国的首都"
↓
训练输入: "北京是[MASK]的首都"
训练目标: 预测 [MASK] = "中国"# 示例:自回归语言模型(Autoregressive LM)
原始文本: "今天天气很好"
↓
训练输入: "今天"      → 预测: "天气"
训练输入: "今天天气"   → 预测: "很"
训练输入: "今天天气很" → 预测: "好"

2. 主要的自监督学习方式

a) 自回归预训练(GPT系列)
# Next Token Prediction
# 给定前文,预测下一个词
输入: "The capital of China is"
目标: "Beijing"# 这是目前最主流的方式!
b) 掩码语言建模(BERT系列)
# Masked Language Modeling
# 随机遮盖部分词,预测被遮盖的词
输入: "The [MASK] of China is [MASK]"
目标: [MASK1] = "capital", [MASK2] = "Beijing"
c) 去噪自编码(T5系列)
# Denoising Autoencoding
# 对文本添加噪声,然后恢复原文
原始: "北京是中国的首都"
加噪: "北京[X]中国[Y]首都"
目标: 还原成原始文本

其他训练方式对比

1. 监督学习(Supervised Learning)

需要人工标注的数据:

# 情感分析任务
输入: "这部电影太棒了!"
标签: "正面"  # 人工标注# 问答任务
问题: "中国的首都是哪里?"
答案: "北京"  # 人工标注

缺点

  • 标注成本高
  • 数据量有限
  • 难以扩展到大规模

2. 强化学习(Reinforcement Learning)

通过奖励信号学习:

# RLHF (Reinforcement Learning from Human Feedback)
模型输出: "这是一个很好的回答..."
人类反馈: 👍 (奖励) 或 👎 (惩罚)
模型调整: 根据反馈优化

3. 半监督学习(Semi-Supervised Learning)

结合少量标注数据和大量无标注数据:

# 先自监督预训练
大量无标注文本 → 预训练模型# 再监督微调
少量标注数据 → 微调模型

目前主流的训练范式

现代大模型训练的标准流程:

阶段1: 预训练
自监督学习
阶段2: 监督微调
SFT
阶段3: 强化学习
RLHF/DPO
海量无标注文本
几TB数据
高质量指令数据
几万到几十万条
人类偏好数据
几万条对比

具体实现:

1. 预训练阶段(自监督)
# 使用数万亿 tokens 的文本
# 目标:Next Token Prediction
model = GPT(config)
for batch in massive_text_data:loss = model.compute_loss(batch)  # 预测下一个词optimizer.step()
2. 指令微调阶段(监督)
# 使用高质量的问答对
instruction_data = [{"instruction": "解释什么是机器学习", "response": "机器学习是..."},{"instruction": "写一首关于春天的诗", "response": "春风送暖..."}
]
3. 偏好对齐阶段(强化学习)
# 使用人类偏好数据
preference_data = [{"prompt": "如何学习编程?","chosen": "循序渐进的好答案...","rejected": "敷衍的差答案..."}
]

为什么自监督学习是基础?

1. 数据规模优势

监督学习:需要人工标注 → 最多百万级样本
自监督学习:自动从文本学习 → 可达万亿级 tokens

2. 成本效益

  • 无需人工标注
  • 可以利用互联网上所有文本
  • 训练数据几乎无限

3. 通用性强

  • 学到通用的语言理解能力
  • 可迁移到各种下游任务

实际案例

GPT-3 训练数据规模:

- Common Crawl: 410B tokens (60%)
- WebText2: 19B tokens (22%)
- Books: 12B tokens (8%)
- Wikipedia: 3B tokens (3%)
总计: 约 500B tokens

LLaMA-2 训练过程:

1. 预训练: 2万亿 tokens,自监督学习
2. SFT: 约10万条高质量指令
3. RLHF: 约100万条人类偏好比较

总结

  1. 自监督学习是基座模型训练的核心,因为它能利用海量无标注数据
  2. 目前主流是三阶段训练:
    • 自监督预训练(基础能力)
    • 监督微调(任务能力)
    • 强化学习对齐(符合人类偏好)
  3. 未来趋势
    • 更大规模的自监督预训练
    • 更高质量的监督数据
    • 更高效的对齐方法(如 DPO)

这种组合训练方式让模型既有广泛的知识基础,又能很好地完成特定任务!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/88774.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/88774.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[mcp-servers] 工具与资源 | 模型上下文协议MCP | 锚点分类

第三章:工具与资源 欢迎回来! 在之前的旅程中,我们认识了客户端(第一章:客户端)——AI的信使组件 以及MCP服务器(第二章:MCP服务器)——接收请求并具备执行能力的智能助…

2025年06月27日Github流行趋势

项目名称:edit 项目地址 url:https://github.com/microsoft/edit项目语言:Rust历史 star 数:10807今日 star 数:411项目维护者:lhecker, DHowett, b6k-dev, rhysd, MingcongBai项目简介:我们都编…

Camera Api 2 和 OPEN GL ES 使用(显示滤镜效果)

Camera Api 2 和 OPEN GL ES 使用&#xff08;显示滤镜效果&#xff09; 相机预览和open GL 使用实现滤镜效果 代码 https://github.com/loggerBill/camera 相机预览 1.相机动态权限 <uses-permission android:name"android.permission.CAMERA" /><uses-f…

CAS教务系统单点登录分析

1. 核心 URL 结构 GET /authserver/login?servicehttp%3A%2F%2F192.168.254.188%2Fjsxsd%2Fframework%2FxsMainV.htmlx认证服务器&#xff1a;authserver.XXXX.edu.cn&#xff08;典型 CAS 系统&#xff09;目标服务&#xff1a;http://192.168.254.188/jsxsd/framework/xsMa…

利用云雾自动化在智能无人水面航行器中实现自主碰撞检测和分类

大家觉得有读完觉得有帮助记得关注和点赞&#xff01;&#xff01;&#xff01; 抽象 工业信息物理系统 &#xff08;ICPS&#xff09; 技术是推动海上自主化的基础&#xff0c;尤其是对于无人水面航行器 &#xff08;USV&#xff09;。然而&#xff0c;船上计算限制和通信延迟…

AI+物联网:从万物互联到万物智联

AI物联网&#xff1a;从万物互联到万物智联的范式革命 当农田传感器自主决策灌溉时机&#xff0c;当咖啡机根据睡眠数据调节浓度&#xff0c;当城市交通系统在拥堵发生前主动干预——这些场景不再是科幻想象&#xff0c;而是2025年AIoT&#xff08;人工智能物联网&#xff09;…

Python爬虫实战:研究Levenshtein库相关技术

1. 引言 1.1 研究背景与意义 随着电子商务的快速发展,网络上积累了海量的产品数据。这些数据来自不同的电商平台、卖家,存在着产品名称不统一、规格描述差异大等问题,给数据整合、价格比较、竞品分析等应用带来了极大挑战。传统的精确匹配方法无法处理产品名称中的拼写错误…

MySQL 总是差八个小时,如何破?

MySQL 总是差八个小时&#xff0c;如何破&#xff1f;_mysql__江南一点雨-Byzer 白泽 解决 SpringBoot 应用中 MySQL 时区配置引起的时间不一致问题 - 路有所思 - 博客园

iOS 为图片添加水印

(instancetype)waterMarkWithImage:(UIImage *)image andMarkImageName:(NSString *)markName{ UIImage *watermarkImage [UIImage imageNamed:markName]; if (!watermarkImage) { NSLog("水印图片加载失败: %", markName); return image; } // 获取原图尺寸和方向 …

蓝牙工作频段与跳频扩频技术(FHSS)详解:面试高频考点与真题解析

蓝牙技术凭借其低功耗、短距离通信的特性,已成为物联网、智能穿戴等领域的核心技术之一。其核心竞争力在于对 2.4GHz ISM 频段的高效利用与跳频扩频技术(FHSS)的创新应用。本文将系统梳理蓝牙工作频段与 FHSS 的高频考点,并结合历年真题与解析,快速掌握核心知识,轻松应对…

ArkTS与仓颉开发语言:鸿蒙编程的双子星

前言 鸿蒙是多语言生态&#xff0c;ArkTS、仓颉和 C/C充分互补。ArkTS 是动态类型编程语言&#xff0c;主打易学易用、生态丰富、极简开发、持续创新四大特征&#xff1b;仓颉是静态类型编程语言&#xff0c;主打高性能、强安全、跨平台、智能化等特性。为满足不同业务场景诉求…

怎么把本地仓库push 到gitlab 上

1. 首先 我们需要再gitlab 上建立一个group &#xff0c; &#xff08;group 可也设定是public 还是private&#xff09;&#xff0c;public 可以不用用户密码用 https 下载 2. 再gitlab 的group 下 建立一个仓库 &#xff08;pulbic/private) 如何删除 一个仓库&#xff08;…

论文笔记(八十六)V-HOP: Visuo-Haptic 6D Object Pose Tracking

V-HOP: Visuo-Haptic 6D Object Pose Tracking 文章概括摘要1. 引言2.背景A. 问题定义B. 触觉表示基于单元阵列的传感器基于视觉的传感器 3. 方法学A. 手爪表示B. 物体表示C. 网络设计D. 训练范式 IV. 实验A. 多形态数据集B. 位姿跟踪比较C. 模态消融D. 融合策略消融E. 遮挡对性…

[论文阅读] (40)CCS24 PowerPeeler:一种通用的PowerShell脚本动态去混淆方法

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座&#xff0c;并分享给大家&#xff0c;希望您喜欢。由于作者的英文水平和学术能力不高&#xff0c;需要不断提升&#xff0c;所以还请大家批评指正&#xff0c;非常欢迎大家给我留言评论&#xff0c;学术路上期…

DeepSeek工具对AI编程帮助

一、技术架构&#xff1a;混合专家模型&#xff08;MoE&#xff09;的颠覆性优势 DeepSeek的核心竞争力源于其混合专家模型架构&#xff08;Mixture of Experts&#xff09;&#xff1a; 参数规模&#xff1a;6710亿参数&#xff0c;每个token仅激活37亿参数&#xff0c;实现超…

链表题解——两数相加【LeetCode】

方法一&#xff1a;递归 写法一&#xff1a;创建新节点 算法思路解析 该实现采用 递归方式 逐位处理两个链表&#xff0c;并考虑进位 carry&#xff1a; ✨ 步骤拆解 递归终止条件&#xff1a;当 l1, l2 都为空且没有进位&#xff08;carry 0&#xff09;&#xff0c;说明…

AutoGen框架的ReAct推理模式的多跳测试

问题&#xff1a;特斯拉公司 CEO 的出生地是哪个国家&#xff1f; 答案&#xff1a;南非。 推理过程&#xff1a; 第一跳&#xff1a;确定特斯拉&#xff08;Tesla, Inc.&#xff09;的 CEO。特斯拉的 CEO 是埃隆马斯克&#xff08;Elon Musk&#xff09;。 第二跳&#xff1a;…

MCP-安全(entra)

保护 AI 工作流程&#xff1a;模型上下文协议服务器的 Entra ID 身份验证 介绍 保护模型上下文协议 (MCP) 服务器的安全与锁好家门一样重要。保持 MCP 服务器开放会导致您的工具和数据遭受未经授权的访问&#xff0c;从而导致安全漏洞。Microsoft Entra ID 提供强大的基于云的身…

Node.js特训专栏-实战进阶:8. Express RESTful API设计规范与实现

🔥 欢迎来到 Node.js 实战专栏!在这里,每一行代码都是解锁高性能应用的钥匙,让我们一起开启 Node.js 的奇妙开发之旅! Node.js 特训专栏主页 专栏内容规划详情 Express RESTful API设计规范与实现:构建标准化、可维护的接口服务 在前后端分离架构盛行的今天,RESTful A…

2025企业数字化转型之道

进入2025年&#xff0c;企业的数字化转型已经不再是选择题&#xff0c;而是生存和发展的关键。如何抓住技术的浪潮&#xff0c;提高效率、提升客户体验、加强创新&#xff0c;成了企业亟需解决的问题。 1.自动化&#xff1a;释放人力潜力 自动化是数字化转型的起点。通过RPA&a…