Self-supervised Learning(BERT/GPT/T5)

李宏毅老师《Pre-train Model》

什么是:Self-supervised Learning
在这里插入图片描述

BERT

BERT 能做什么

Mask Input

在这里插入图片描述

Next Sentence Prediction(not helpful)

在这里插入图片描述

BERT其它的能力

上述的能力,可以认为是一种填空的能力,那么除了这些,还有哪些有用的能力呢?
在这里插入图片描述

BERT能力模型评估

GLUE(General Language Understanding Evaluation)

GLUE是一个自然语言理解(NLU)任务的评测基准,由华盛顿大学 & Google Brain 联合发布(2018 年)。

就像给 NLP 模型搞期末考试一样,通过一系列标准化任务,看模型对语言理解能力到底行不行。

GLUE 里都考什么?

GLUE 是一个任务集合(benchmark suite),包含了 9 个子任务,主要考:

  • 句子关系判断
  • 情感分类
  • 语义相似度
  • 推理能力
  • 语言蕴含关系

核心任务表:

任务名任务类型简介
MNLI句子蕴含 (NLI)判断两句话是否蕴含、矛盾或无关
QNLI问答 NLI判断一句话是否回答了问题
QQP句子相似度判断两个问题是否等价
SST-2情感分类判断句子是积极还是消极
CoLA语言学可接受性判断句子是否语法正确
MRPC句子对等判断判断两句话是否语义等价
STS-B语义相似度打分给两个句子相似度打分 (0~5)

BERT and its Family GLUE scores

在这里插入图片描述

TraIning BERT

在这里插入图片描述

How to use BERT

Use Case1: 情感分析

在这里插入图片描述

Use Case2: 词性标注

在这里插入图片描述

Use Case3: 自然语言蕴含推理

NLI(Natural Language Inference): 给定两句话,第二句是不是能从第一句推理出来、相矛盾,还是无关?

** NLI 任务通常分类**

标签含义举例
Entailment蕴含(能推导出来)A: “所有狗都会叫。” B: “我家狗会叫。”
Contradiction矛盾A: “所有狗都会叫。” B: “我家狗从不叫。”
Neutral无关或无法确定A: “所有狗都会叫。” B: “我家狗喜欢吃骨头。”

在这里插入图片描述

Use Case4: 抽取式问答

Extraction-based QA(抽取式问答) 是一种 从给定文本中直接抽取答案片段的问答方法。
特点:

  • 给定一段上下文 + 一个问题
  • 系统在上下文里找出一段或一句话,作为答案
  • 答案必须是原文里的内容(抽取出来,不是生成出来)

举个例子

上下文:“OpenAI 是一家人工智能研究机构,成立于 2015 年,总部位于旧金山。”
问题: “OpenAI 成立于哪一年?”
抽取式答案: “2015 年”

在这里插入图片描述

Why does BERT work?

Contextualized word embedding

在这里插入图片描述

Apply BERT to protein,DNA, music classification

在这里插入图片描述

Multi-lingual BERT

:用英文的QA问题训练,用中文做QA问答
在这里插入图片描述

why

这些相同语意的词,中、英文词 的词向量很近.
在这里插入图片描述

零样本阅读理解

Zero-shot Reading Comprehension(零样本阅读理解 )指的是: 不给模型提供任何相似示例,直接让模型基于上下文和问题,理解语义、判断答案或生成回答。

例:

  • 上下文:“OpenAI 成立于 2015 年,总部在旧金山,专注于 AI 技术研究。”

  • 问题: “OpenAI 的总部在哪?”

  • Zero-shot 模型行为:
    • 没有事先见过类似「总部在哪」的训练样本
    • 依靠语言理解能力,定位上下文中的「总部在旧金山」,直接输出

它和 Few-shot / Fine-tuning 的区别
类型定义示例
Zero-shot完全不给示例,直接回答只给上下文和问题
Few-shot给几条类似示例,再回答给 2~5 个 QA 示例
Fine-tuning预先用大量类似数据微调,提升特定任务能力用大量阅读理解任务微调好的模型


GPT(Generative Pre-trained Transformer)

生成式预训练 Transformer 模型

Predict Next Token

<BOS>: begin-of-sentence

在这里插入图片描述

How to use GPT

在这里插入图片描述

Few-shot/One-shot/Zero-shot Learning

在这里插入图片描述


T5

T5全称: Text-To-Text Transfer Transformer
由 Google AI 团队 2019 年发布,发表在论文《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

它和 GPT 最大不同

  • GPT 是文本 → 文本生成偏生成式
  • T5 是·“所有 NLP 任务都统一成 Text-to-Text 格式”

不管是翻译、分类、问答、摘要,全部都按照这个套路来做:

输入:一句文本(带任务提示)
输出:一句文本(任务结果)

本质上就是一个编码器-解码器结构的 Transformer。

T5 典型应用场景

应用场景举例
机器翻译translate English to French: How are you? → Comment ça va ?
问答系统question: Who founded OpenAI? context: OpenAI was founded in 2015 by Elon Musk and Sam Altman. → Elon Musk and Sam Altman
文本摘要summarize: OpenAI is an AI company founded in 2015... → An AI company founded in 2015.
文本分类classify sentiment: I love this product. → positive
语义相似度sts: Sentence A. Sentence B. → 4.5(打分形式)

#T5、BERT、GPT 各自区别

模型架构类型输入-输出形式典型用途能否生成文本
BERT编码器-only,双向编码文本 → 分类/判断分类、问答、NER、相似度匹配
GPT解码器-only,自回归生成文本 → 续写文本对话、文章续写、代码生成
T5编码器-解码器(双向+自回归)文本 → 文本(统一文本形式)翻译、摘要、问答、分类等多任务

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/87785.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/87785.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

《NuGet:.NET开发的魔法包管理器》

一、NuGet 初相识 在软件开发的广袤天地中&#xff0c;依赖管理始终是一个核心议题。想象一下&#xff0c;在没有高效包管理工具的年代&#xff0c;开发者如同在黑暗中摸索前行。当项目逐渐庞大&#xff0c;所需的外部库和组件日益增多&#xff0c;手动管理这些依赖就如同一场噩…

Vulkan 学习笔记12—深度缓冲

一、3D几何体与深度问题 Z坐标引入 将2D几何体扩展为3D时&#xff0c;需在Vertex结构体中添加glm::vec3 pos表示三维位置&#xff0c;并更新顶点输入描述符格式为VK_FORMAT_R32G32B32_SFLOAT。顶点着色器需接收3D坐标并通过模型-视图-投影矩阵转换为裁剪坐标。 深度冲突问题 当…

AWS EC2使用SSM会话管理器连接

&#x1f9e9; 前提条件 已创建并运行中的 Amazon EC2 实例&#xff08;Amazon Linux 2023&#xff09; 拥有管理员权限的 AWS 账户 已连接到实例&#xff08;例如通过 EC2 Instance Connect&#xff09; 第一步&#xff1a;手动安装 SSM Agent Amazon Linux 2023 默认未安…

Llama 4 模型卡及提示格式介绍

以下是Llama 4支持的特殊标记和标签的完整列表: 通用标记 <|begin_of_text|>:指定提示符的开始。 <|end_of_text|>:模型将停止生成更多标记。此标记仅由预训练的模型生成。 <|header_start|>…<|header_end|>:这些标记包含特定消息的角色。可能的…

flutter bloc 使用详细解析

源码地址 flutter_bloc 是基于 BLoC&#xff08;Business Logic Component&#xff09;模式的 Flutter 状态管理库&#xff0c;它封装了 bloc package&#xff0c;帮助我们更清晰地组织业务逻辑与 UI 的分离。核心思想是 事件驱动 和 状态响应。 &#x1f9e0; 原理简介 1. 核…

c++ 语言在无人机应用开发中的应用

C 语言在无人机应用开发中扮演着核心角色&#xff0c;特别是在对性能、实时性、资源利用效率和底层硬件控制有严格要求的领域。以下是其主要应用领域&#xff1a; 飞控系统 (Flight Control System - FCS) 核心功能&#xff1a; 这是无人机的大脑。C 用于实现核心的导航、制导与…

Uniapp本地存储(uni.setStorage)全面解析与实践指南

在移动应用开发中&#xff0c;本地存储是不可或缺的核心功能之一。作为跨平台开发框架&#xff0c;Uniapp提供了一套完善的本地存储解决方案&#xff0c;使开发者能够轻松实现数据的持久化存储。本文将深入探讨Uniapp本地存储的方方面面&#xff0c;从基础使用到高级技巧&#…

n8n教程:5分钟部署+自动生AI日报并写入飞书多维表格

哈喽&#xff0c;大家好&#x1f44f; 我是阿星&#xff01; 最近n8n太火了。什么是n8n&#xff1f;有点像扣子和dify的综合体。 简单来说就是替你打工的「自动化工作流」 我们今天就从部署&#x1f449;搭建第一个工作流。用它实现自动抓取新闻并分类。 教程有点长&#x…

禾纳 AET3152AP 电源MOS IC完全替代TDM3307 替代TDM2307泰德电子料 国产芯片

禾纳半导体的电源管理芯片AET3152AP不含卤素和锑&#xff0c;符合Rohs标准&#xff0c;应用在交换机切换&#xff0c;便携式/台式机中的电源管理等&#xff0c;可pin to pin替代TDM3307或TDM2307. AET3152AP 封装为PDFN3030 &#xff0c;最小包装数为5000pcs AET3152AP工作温…

专题:2025信创产业新发展+AI趋势数字化研究报告|附30+份报告PDF汇总下载

原文链接&#xff1a;https://tecdat.cn/?p42711 本报告汇总解读聚焦信创产业核心发展脉络&#xff0c;以数据驱动视角剖析技术演进与市场变革。信创产业作为国家数字安全与技术自主可控的核心载体&#xff0c;正经历从“可用”到“好用”的关键跃迁。 本报告洞察基于《亿欧智…

电子电气架构 --- 分区电子电气架构如何支持软件定义汽车

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

【简单】344.反转字符串

题目描述 编写一个函数&#xff0c;其作用是将输入的字符串反转过来。输入字符串以字符数组 s 的形式给出。 不要给另外的数组分配额外的空间&#xff0c;你必须原地修改输入数组、使用 O(1) 的额外空间解决这一问题。 示例 1&#xff1a; 输入&#xff1a;s ["h&quo…

CVE-2025-24813源码分析与漏洞复现(Tomcat 路径等效漏洞与反序列化RCE)

漏洞概述 漏洞名称&#xff1a;Tomcat 路径等效漏洞反序列化远程代码执行&#xff08;RCE&#xff09; CVE 编号&#xff1a;CVE-2025-24813 CVSS 评分&#xff1a;9.8 影响版本&#xff1a; 9.0.0.M1 ≤ Tomcat ≤ 9.0.9810.1.0-M1 ≤ Tomcat ≤ 10.1.3411.0.0-M1 ≤ Tomcat…

深入解析:如何实时获取Socket接收缓冲区的数据量

在网络编程中&#xff0c;精确掌握接收缓冲区的数据状态是优化性能的关键。本文将揭秘如何跨平台获取socket接收缓冲区的可读数据量&#xff0c;并分析实际应用中的注意事项。 一、核心API&#xff1a;操作系统级数据探针 1. Windows平台方案 #include <winsock2.h>// …

Edge卸载应用

Edge安装应用后&#xff0c;出现在开始菜单&#xff0c;不能卸载。

Cursor Rules 的核心定位与作用

Cursor Rules 是 AI 编程工具 Cursor IDE 中的核心功能&#xff0c;用于约束 AI 生成代码的行为&#xff0c;确保其符合项目规范、编码风格或特定技术需求。它本质上是一套持久化、可复用的指令集&#xff0c;会动态插入到 AI 模型的上下文提示中&#xff0c;指导其生成代码的逻…

多线程爬虫优化:快速爬取并写入CSV

在数据驱动的时代&#xff0c;爬虫技术已成为获取网络数据的重要手段。然而&#xff0c;随着数据量的不断增加&#xff0c;单线程爬虫的效率逐渐难以满足需求。多线程爬虫通过并行处理&#xff0c;能够显著提升爬取速度&#xff0c;同时将数据快速写入CSV文件&#xff0c;为后续…

Deepseek+墨刀,1min快速生成流程图!

想要了解快速了解产品逻辑&#xff0c;可以用ds墨刀快速生成流程图~ deepseek链接&#xff1a;https://www.deepseek.com/ 墨刀在线&#xff1a;https://modao.cc/brand 如何操作呢&#xff1f; 1.打开deepseek&#xff0c;输入以下咒语&#xff0c;让AI用Mermaid语法绘制流…

LangChain4j流式调用、消息注解与会话记忆

我们先用AiService工具类把调用ai大语言模型的代码写出来。因为AiService工具类中整合有记忆、Rag知识库、tools工具等&#xff0c;我们直接配置调用即可。 我用的是qwen-plus模型。 引入依赖&#xff1a; <dependency><groupId>dev.langchain4j</groupId>…

NtfsWriteLog函数分析之OpenAttributeTableDump

第一部分&#xff1a; NtfsWriteLog( IrpContext, Vcb->MftScb, //注意&#xff1a;Vcb->MftScb NULL, OpenAttributeTableDump, …