监督微调-指令微调-偏好微调

有监督微调

有监督微调是使用输入及其标签对的典型情况。例如,判断邮件是垃圾邮件还是非垃圾邮件,判断情感是积极还是消极。根据文档的主要主题对其进行分类也是一种常见应用。模型会将输入文本的相应表示(隐藏状态或嵌入向量)作为一组特征,来执行分类任务——这正是模型头部的作用。

在自监督的情况下,标签与输入相同,模型的任务同样是执行分类。但它并非将输入分类到少数几个类别中,而是存在与整个词汇表中标记数量一样多的类别:每个输入标记都可能是预测输出。

大型语言模型(LLMs)可以用于典型的分类任务,但这可能有些大材小用。像BERT这样的基于编码器的模型,在这些任务上已经被证明非常有效,而且它们的规模只是大型语言模型的一小部分(这意味着将它们投入生产的成本也更低)。

有些人可能会认为,使用“提示词”和“补全内容”对来微调大型语言模型不属于自监督,而是基本的有监督学习。在我看来,如果补全内容本身也是用自然语言编写的(而非像“积极”或“消极”这样的单个词语),那么这显然属于自监督学习的情况。唯一的区别是,我们只是在教模型如何生成“补全内容”部分的文本,并且假设“提示词”部分不会为其增添任何价值。

指令微调

指令微调是自监督微调中一种非常特殊的情况,模型通过这种微调学习如何遵循指令或直接回答问题。通过提供数千个问答对示例,模型会了解到答案更有可能跟随在问题之后,而不是像在测试或考试中那样将多个问题堆砌在一起。以往,终端用户不得不将问题重新表述为未完成的陈述以待补全,而指令微调则让模型认识到这两种形式是等效的,从而减轻了用户的负担。

从指令微调后的模型角度来看,以下两个提示词应该会引出相同的补全内容(“布宜诺斯艾利斯”):

  • “阿根廷的首都是”
  • “阿根廷的首都是什么?”

仅经过预训练的基础模型,其训练目的只是学习语言结构,它能正确补全第一个提示词,但对于第二个,可能会生成类似“秘鲁的首都是什么?”这样的内容。

指令模型以及聊天模型通常会与其基础版本(纯粹的下一个标记预测器)一同发布,因此你几乎不太可能需要自己对基础模型进行指令微调。即便你想通过在某些内部公司数据上进行微调来融入一些相当特定的知识,或许更好的做法是使用一个已经过指令微调的模型,并调整你的数据集以适应相应的模板,而不是先在你的数据上进行微调,之后再自己进行指令微调。

偏好微调

最后一种微调类型是偏好微调,其目的是使模型的响应与一组偏好保持一致。这些偏好通常通过一组响应对数据集来体现,其中一个响应被认为是可接受的,另一个则是需要避免的。其目标是降低模型生成包含有毒、有偏见、非法、有害或总体上不安全内容的可能性。偏好微调涉及多种技术,如基于人类反馈的强化学习(RLHF)和直接偏好优化(DPO)等,但这些都超出了本实践实验系列的范围。

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/917831.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/917831.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

楼宇自控系统对建筑碳中和目标的实现具重要价值

随着全球气候变化问题日益严峻,建筑行业作为碳排放的重要来源之一,其节能减排工作备受关注。楼宇自控系统(Building Automation System,BAS)作为智能建筑的核心组成部分,通过集成控制、监测和管理建筑内的各…

【YOLO学习笔记】YOLOv5详解

一、数据增强 mosaic仿射变换与透视变换Mixup mosaic代码位置仿射变换 与 透视变换​代码片段位置 二、网络结构 1. 网络不同尺寸 nsmlx与网络深宽度 yolov5 官方提供了5个目标检测的网络版本:yolov5n、yolov5s、yolov5m、yolov5l、yolov5x ,早年是…

WebRTC前处理模块技术详解:音频3A处理与视频优化实践

一、WebRTC前处理模块概述 WebRTC(Web Real-Time Communication)作为实时音视频通信的核心技术,其前处理模块是提升媒体质量的关键环节。该模块位于媒体采集与编码之间,通过对原始音频/视频数据进行优化处理,解决实时…

ssm复习

Spring Framework系统架构核心容器的学习IOC/DIIOC容器IOC使用对象时,由主动new产生的对象转换为由外部提供对象,此过程中对象的创建的控制权交由外部,此思想称为控制反转, (实现了自己new的解耦) 对象创建的控制权Spring提供一个容器,称为IOC容器 用来充当IOC思想的外部Bea…

ESP32:2.搭建UDP服务器

硬件:ESP32-Devkit-V4 MODEL:ESP32-32U 库:ESP-IDF v5.4.1 系统:windows中的虚拟机 ubuntu 22.04 实现STA,主动连接AP后,打印IP地址,获取IP后,创建socket,搭建UDP 服务器&#xff0…

【Linux】动静态库制作

🐼故事背景假设今天你有一位舍友。你需要帮助他完成老师的作业。而他写的代码依赖两个文件(mymath.h,mystdio.h)。但是这两个文件的功能他不会写,他只会调用。他的调用代码:#include"mystdio.h" #include"mymath.h…

使用Database Navigator插件进行连接sqlite报错invalid or incomplete database

解决方案 ,将这个db.sqlite3文件拷贝到盘的文件中 ,修改文件夹名字,重新使用绝对路径访问 db.sqlite3,将路径名字的中文去掉 ,不能有中文

【Linux】重生之从零开始学习运维之主从MGR高可用

MGR集群部署12、15、18主机环境准备ssh免密码登录\rm -rf .ssh/* ssh-keygen ssh-copy-id 127.1 scp -r .ssh 10.0.0.12:/root/ ssh root10.0.0.12还原基础环境systemctl stop mysqld \rm -rf /var/lib/mysql/* id mysqlvim /etc/my.cnf.d/mysql-server.cnf [mysqld] datadir/v…

如何在虚拟机(Linux)安装Qt5.15.2

1.进入到阿里的网站下载在线安装包 qt-official_releases-online_installers安装包下载_开源镜像站-阿里云 https://mirrors.aliyun.com/qt/official_releases/online_installers/?spma2c6h.13651104.d-5201.2.60ad4773ZZNPNm 2.下载完毕后,进入到下载地址&…

【运维进阶】DHCP服务配置和DNS域名解析

DHCP服务配置和DNS域名解析 DHCP 服务介绍 在大型网络中,系统静态分配IP地址面临问题: 确保不要同时在多个系统上使用同一个地址。部署新系统通常需要手动分配其IP地址。在云环境中,实例的网络是自动化配置的。 动态主机配置协议(…

VisionPro MR环境下虚拟物体与现实的透明度混合

display.rgb (virtualcontent.rgb*1)(passthrough.rgb*(1 - vistualcontent.a) viirtualcontent预乘过a值了,跟透明度混合公式一致 人头检测挖孔不清晰问题,这个a值变成设备层动态检测人头的a值,当面前的渲染压力过大时,会导致…

css怪异模式(Quirks Mode)和标准模式(Standards Mode)最明显的区别

文章目录css怪异模式(Quirks Mode)和标准模式(Standards Mode)最明显的区别详细对比示例对比(盒模型)标准模式(Standards Mode)怪异模式(Quirks Mode)如何触发…

一种简单的3dnr去噪算法介绍

一段未经过插补的视频图像可以分解为若干帧,为了能正确地找到并去除图像帧中的噪声污染,由于视频图像各帧的连续性,在去噪的过程中就必须考虑帧图像的空间性和时间性,一个简单的例子,在去噪算法中就必须考虑&#xff0…

【数据结构初阶】--排序(四):归并排序

🔥个人主页:草莓熊Lotso 🎬作者简介:C研发方向学习者 📖个人专栏: 《C语言》 《数据结构与算法》《C语言刷题集》《Leetcode刷题指南》 ⭐️人生格言:生活是默默的坚持,毅力是永久的…

GaussDB 并行创建索引

1 背景当业务数据在单表存储达到一定的数量级时,此时对表创建索引是要花费时间的。GaussDB为了解决这个问题采用并行创建索引技术,以提高创建索引的效率。2 示例步骤1:根据实际情况调整maintenance_work_mem参数该大小。[Rubydtest1 ~]$ gsq…

LOOP Finance:一场 Web3 共和国中的金融制度实验

LOOP Finance 是建构于币安智能链(BNB Chain)上的定投型DEFI理财协议。 它以凯因斯经济学为启发,设计出一套长期、安全、稳定收益的全新DEFI玩法,兼顾稳健利息回报与DEFI高速成长的潜力。 通过生态机制,LOOP要求每位参…

【golang面试题】Golang递归函数完全指南:从入门到性能优化

引言:递归的本质与挑战 在Golang中,递归函数是一把锋利的双刃剑。它通过函数自身调用实现问题分解,让代码变得简洁优雅,但也容易因无限递归、栈溢出或性能问题让开发者陷入困境。本文将从基础到高级,全面解析Golang递归…

功能安全和网络安全的综合保障流程

摘要网络物理系统是控制机械部件的计算机化系统。这些系统必须既功能安全又网络安全。因此,已建立的功能安全与网络安全标准需求创建网络安全档案(ACs),以论证系统是功能安全与网络安全的,即所有功能安全与网络安全目标…

数据科学首战:用机器学习预测世界杯冠军

数据科学首战:用机器学习预测世界杯冠军Scikit-learn实战:从数据清洗到冠军预测的完整指南一、足球预测:数据科学的终极挑战​​世界杯数据价值​​:历史比赛数据:44,000场球队特征指标:200球员数据点&…

一个php 连sqlserver 目标计算机积极拒绝,无法连接问题的解决

一个接口查询数据耗时15秒,还没数据,经查报错日志:SQLSTATE[08001]: [Microsoft][ODBC Driver 17 for SQL Server]TCP 提供程序: 由于目标计算机积极拒绝,无法连接。 命令行执行:netstat -ano | findstr :1433发现结…