【4】Transformers快速入门:自然语言模型 vs 统计语言模型


一句话关系总结

统计语言模型 = 自然语言模型的“数学基础”
(就像加减乘除是数学的基础,统计模型是AI学说话的基础工具)


区别对比表(小白版)

维度统计语言模型自然语言模型
本质用数学公式算句子概率用神经网络模仿人脑理解语言
工作方式数词频、算概率(像计算器)学习词之间的关系(像人脑联想)
代表技术N-gram(数前N个词的概率)Word2Vec、BERT、GPT(深度学习)
能力上限只能处理短句,不懂上下文含义能理解长文、多义词、甚至写小说
举个栗子🌰判断“我吃苹果”比“苹果吃我”概率高知道“苹果”在“吃”后是水果,在“买”后是手机

关系详解(父子进化史)

1. 统计语言模型:爷爷辈的数学派
  • 核心任务:计算一句话 “像不像人话”
    (比如“狗追猫”概率高 ✅,“猫追狗”概率低 ❌)
  • 怎么算
    N-gram 数词频(例:统计100万句话里“狗追”后出现“猫”的次数)
  • 缺点
    • 像金鱼记忆,只能看附近2-3个词
    • 不懂“狗追猫”和“猫被狗追”其实是同一个意思
2. 自然语言模型:孙辈的学霸派
  • 核心技术神经网络(模拟人脑的算法)
  • 升级点
    • 词向量:给每个词发“智能身份证”(例:苹果 = [0.3, -2.1, 5.4])
    • 上下文理解
      • Word2Vec 看周围词定含义(静态)
      • BERT/GPT 看整句话动态调含义(比如“苹果”在不同句子中向量不同)
  • 超能力
    • 写文章、编代码、陪你聊天(ChatGPT)
    • 理解“我上周买的苹果坏了”指手机还是水果(靠上下文推理)

关键进化里程碑

统计模型(数概率)  
↓  
Word2Vec(给词发身份证)  
↓  
BERT/GPT(动态身份证 + 整段话联想)  

越新的模型越像真人
死记硬背学会举一反三


举个栗子🌰 秒懂区别

任务:判断“银行”指金融机构还是河边

模型类型处理方式结果
统计语言模型数“银行”和“存款”一起出现的概率只能猜一个意思
自然语言模型看整句:“我去银行存钱” → 金融机构
“河边的银行很滑” → 河边
动态理解正确 ✅

总结一句话

  • 统计语言模型:AI学说话的 1.0版本(数学公式派)
  • 自然语言模型:AI学说话的 3.0版本(神经网络学霸派),包含并超越了统计模型的能力!

💡 小白记忆法
统计模型 = 算盘(只能加减)
自然语言模型 = 智能手机(能聊天打游戏)
现在你听到的ChatGPT,全是自然语言模型! 🚀

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/92768.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/92768.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[激光原理与应用-252]:理论 - 几何光学 - 传统透镜焦距固定,但近年出现的可变形透镜(如液态透镜、弹性膜透镜)可通过改变自身形状动态调整焦距。

一、液态透镜:电润湿效应驱动曲率变化基本结构液态透镜由两种互不相溶的液体(如导电水溶液与绝缘硅油)封装在透明圆筒形容器中构成。容器壁经疏水处理,使水溶液呈圆顶型聚集在中心,与硅油形成凸状曲面。工作原理电润湿…

wordpress数据库导入时的#1044错误

在wordpress网站数据库文件.sql导入到数据库时,发生错误,错误提示如下:#1044 – Access denied for user ‘wodepress_com’’localhost’ to database ‘wodepress’。 这个错误表明用户wodepress_com没有权限访问数据库wodepress。以下是解…

微服务ETCD服务注册和发现

1.什么是注册中心 注册中心主要有三种角色: 服务提供者(RPC Server):在启动时,向 Registry 注册自身服务,并向 Registry 定期发送心跳汇报存活状态。 服务消费者(RPC Client)&…

计算机网络---默认网关(Default Gateway)

一、默认网关的定义 默认网关(Default Gateway)是一个网络设备(通常是路由器、防火墙或三层交换机)的IP地址,它是本地网络中的设备访问其他网络(如外网、其他子网)时,数据报文的“第…

OpenBMC中libgpio架构与驱动交互全解析:从硬件映射到应用控制

1. libgpio概述与核心定位 libgpio作为OpenBMC中GPIO管理的核心库,扮演着连接硬件驱动与上层应用的桥梁角色。它通过标准化的接口抽象了不同硬件平台的GPIO操作细节,使得电源控制、传感器监控等关键功能能够以统一的方式访问GPIO资源。 1.1 libgpio在Ope…

开放原子开源生态大会:麒麟信安加入openEuler社区AI联合工作组,聚焦操作系统开源实践与行业赋能

7月23日,由开放原子开源基金会主办的2025开放原子开源生态大会在京开幕,大会以“开源赋能产业,生态共筑未来”为主题。工业和信息化部副部长熊继军、北京市人民政府副秘书长许心超出席大会并致辞。作为开放原子开源基金会黄金捐赠人和开源重要…

Lyapunov与SAC算法的数学结构对比:从二次漂移到TD损失

一、李雅普诺夫优化中二次漂移函数的推导 李雅普诺夫优化的核心是通过设计 “李雅普诺夫函数” 和 “漂移项”,保证系统状态收敛到稳定点。以下以线性时不变系统为例(非线性系统推导逻辑类似,仅动力学方程更复杂),推导…

WireShark:非常好用的网络抓包工具

文章目录一、写在前面二、安装三、使用1、入门使用(1)打开软件(2)右键网卡,Start Capture(开始捕获)2、界面详细介绍3、过滤器设置一、写在前面 Wireshark是使用最广泛的一款「开源抓包软件」,常用来检测网…

WEB技术演进史:从C/S到微服务架构

WEB技术 HTTP协议和B/S 结构 操作系统有进程子系统,使用多进程就可以充分利用硬件资源。进程中可以多个线程,每一个线程可以被CPU调度执行,这样就可以让程序并行的执行。这样一台主机就可以作为一个服务器为多个客户端提供计算服务。 客户端…

win11中Qt5.14.0+msvc2019+opencv4.9配置

本文主要研究由msvc编译的opencv在QT中的配置,opencv可以是官网直接下载的版本,也可以是msvc(例如vs2019)通过cmake编译 contrib功能的opencv版本,这2种版本对qt版本没有严格要求,但是若在cmake中选择了with_qt功能,那…

【listlist模拟】

list&list模拟1.list使用2、list模拟附录1.list使用 list常见接口不做介绍,跟前面vector有相似之处,跟数据结构list基本一样。  因为list使用带头的双向循环链表实现的,不能用小标访问,只能用迭代器或范围for访问 list有成…

在CentOS 7上将PostgreSQL数据库从默认路径迁移到自定义目录

在CentOS 7上将PostgreSQL数据库从默认路径迁移到自定义目录,需遵循以下步骤。假设原数据目录为“/var/lib/pgsql/12/data”,目标目录为“/new/path/pgdata”。 1、步骤概览 停止PostgreSQL服务创建新目录并设置权限复制数据文件(保留权限&am…

C语言基础06——结构体(struct)

一、结构体的概念结构体(struct)是 C 语言中一种自定义数据类型,它允许你将不同类型的数据项组合在一起,形成一个新的复合数据类型。想象一下:如果要表示一个 "学生",需要包含姓名(字…

小白入门指南:Edge SCDN 轻松上手

在互联网飞速发展的当下,网站性能与安全至关重要。对于小白而言,Edge SCDN 可能是个陌生概念,但它却能极大助力网站运营。本文将用简单易懂的语言,带大家了解 Edge SCDN,探讨其运用方法。​一、Edge SCDN 是什么&#…

探秘酵母单杂交技术:解锁基因调控的密码

在生命科学研究领域,基因的表达调控机制一直是科学家们关注的焦点。为了深入探究这一复杂过程,众多先进技术应运而生,酵母单杂交技术便是其中极具价值的一项,它为研究 DNA 与蛋白质之间的相互作用提供了独特视角与有效手段。酵母单…

大模型备案要点一次过【附材料清单详解】

最近,广东省公布了最新一批的大模型备案(登记)名单,很多准备要做大模型备案的企业都在纷纷咨询:“大模型备案的周期是多久?”“做大模型备案有什么要求?”“做大模型备案一共需要准备多少材料&a…

启保停-----------单相照明灯的接法

一.单相照明灯-K21使用的器材,单相电能表,空开,插座,开关,灯泡二.启 保 停1.需要用到的器材1.空开2.三相电机3.接触器4.熔断器5.按钮2.电路的作用按按钮 运转 在按按钮 停止运转3.电动4.加上辅助触点 控制电路5.在加上按钮 停止电路

TF-IDF:信息检索与文本挖掘的统计权重基石

本文由「大千AI助手」原创发布,专注用真话讲AI,回归技术本质。拒绝神话或妖魔化。搜索「大千AI助手」关注我,一起撕掉过度包装,学习真实的AI技术! 1. 背景与定义 TF-IDF 是一种统计加权方法,用于衡量词语在…

[论文阅读] (41)JISA24 物联网环境下基于少样本学习的攻击流量分类

《娜璋带你读论文》系列主要是督促自己阅读优秀论文及听取学术讲座,并分享给大家,希望您喜欢。由于作者的英文水平和学术能力不高,需要不断提升,所以还请大家批评指正,非常欢迎大家给我留言评论,学术路上期…

react中父子数据流动和事件互相调用(和vue做比较)

前言:react中父子数据流动和事件互相调用,父组件给子组件数据,父组件调用子组件的事件,同理,子也可以调用父的数据和传值。react是单向数据流,具体使用跟vue是不同的。1、父组件的数据传给子组件&#xff0…