【DataWhale】快乐学习大模型 | 202507,Task01笔记

引言

我从2016年开始接触matlab看别人做语音识别,再接触tensorflow的神经网络,2017年接触语音合成,2020年做落地的医院手写数字识别。到2020年接触pytorch做了计算机视觉图像分类,到2021年做了目标检测,2022年做了文本实体抽取,2023年做了Agent。收获了很多奖项,感觉一直在人工智能新技术上探索,但总是浮于表面,要借这次机会好好学一学LLM,不能再让Transformer还只停留在Attention和QKV上,争取从底层实现一把。
说起来,到底多大才算大语言模型最开始挺有争议的,现在0.3B的模型也开始出现了(如文心开源的 ERNIE-4.5-0.3B-PT),我的感觉是用了一定参数量的语言模型就能叫LLM,有用效果好就行。

人工智能发展历程

感觉主要是这么一个发展流程,RNN主要走文本类,CNN主要走图像类。(还有一些GAN、扩散模型等和图片生成有关的,3D卷积等和视频有关的,RL等游戏智能体相关的,ViT等Transformer和视觉结合的,图里先不表现)

统计模型
RNN
LSTM
Transformer
Encoder-Only
BERT
Encoder-Decoder
T1
Decoder-Only
GPT
CNN
ResNet
YOLO

0.3B: 0.3 Bilion, 参数量为3亿的模型
LLM: Large Language Model, 大语言模型
RNN: Recurrent Neural Network, 循环神经网络,用于文本或语音
CNN: Convolutional Neural Network, 卷积神经网络,用于视觉
GAN: Generative AdversarialNetwork, 生成对抗网络,用于图片生成
Vit: Vision Transformer, 用于视觉的Transformer
RL: Reinforcement Learning, 强化学习
LSTM: Long Short-Term Memory, 长短期记忆网络
ResNet: 残差网络, 用于层数加深时信息的传递
YOLO: You Only Look Once, 用于目标检测
Transformer: 用于增加注意力机制
BERT: Bidirectional Encoder Representations from Transformers, 用于文本分类、实体抽取
T5: Text-to-Text Transfer Transformer, 用于翻译
GPT: Generative Pre-trained Transformer, 用于对话

章节概览

Happy-LLM
基础知识
NLP 基础概念
Transformer架构
预训练语言模型
大语言模型
实战应用
动手搭建大模型
大模型训练实践
大模型应用

参考资料

1、happy-llm/docs/前言.md

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/91054.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/91054.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

机器学习中的朴素贝叶斯(Naive Bayes)模型

1. 用实例来理解朴素贝叶斯 下面用具体的数据来演示垃圾邮件 vs 正常邮件的概率计算假设我们有一个小型邮件数据集邮件内容类别(垃圾/正常)“免费 赢取 大奖”垃圾“免费 参加会议”正常“中奖 点击 链接”垃圾“明天 开会”正常“赢取 免费 礼品”垃圾 …

document.documentElement详解

核心概念定义 它始终指向当前文档的根元素&#xff0c;在 HTML 文档中对应 <html> 标签。与 document.body&#xff08;对应 <body>&#xff09;和 document.head&#xff08;对应 <head>&#xff09;形成层级关系。与 document.body 的区别 <html> &l…

c#进阶之数据结构(动态数组篇)----Queue

1、简介这个是c#封装的队列类型&#xff0c;同栈相反&#xff0c;这个是先进先出&#xff0c;一般用于事件注册&#xff0c;或者数据的按顺序处理&#xff0c;理解为需要排队处理的可以用队列来处理。注意&#xff0c;队列一定是有顺序的&#xff0c;先进确实是会先出&#xff…

使用 keytool 在服务器上导入证书操作指南(SSL 证书验证错误处理)

使用 keytool 在服务器上导入证书操作指南(SSL 证书验证错误处理) 一、概述 本文档用于指导如何在运行 Java 应用程序的服务器上,通过keytool工具将证书导入 Java 信任库,解决因证书未被信任导致的 SSL/TLS 通信问题(如PKIX path building failed错误)。 二、操作步骤…

VUE export import

目录 命名导出 导出变量 导出函数 总结 默认导出 导出变量 导出函数 总结 因为总是搞不懂export和Import什么时候需要加{}&#xff0c;什么时候不用&#xff0c;所以自己测试了一下&#xff0c;以下是总结。 需不需要加{}取决于命名导出还是默认导出&#xff0c;命名导…

端侧宠物识别+拍摄控制智能化:解决设备识别频次识别率双低问题

随着宠物成为家庭重要成员&#xff0c;宠物影像创作需求激增&#xff0c;传统相机系统 “人脸优先” 的调度逻辑已难以应对宠物拍摄的复杂场景。毛发边缘模糊、动态姿态多变、光照反差剧烈等问题&#xff0c;推动着智能拍摄技术向 “宠物优先” 范式转型。本文基于端侧 AI 部署…

Popover API 实战指南:前端弹层体验的原生重构

&#x1fa84; Popover API 实战指南&#xff1a;前端弹层体验的原生重构 还在用 position: absolute JS 定位做 tooltip&#xff1f;还在引入大型 UI 库只为做个浮层&#xff1f;现在浏览器已经支持了真正原生的「弹出层 API」&#xff0c;一行 HTMLCSS 就能构建可交互、无障…

CCS-MSPM0G3507-6-模块篇-OLED的移植

前言基础篇结束&#xff0c;接下来我们来开始进行模块驱动如果懂把江科大的OLED移植成HAL库&#xff0c;那其实也没什么难首先配置OLED的引脚这里我配置PA16和17为推挽输出&#xff0c;PA0和1不要用&#xff0c;因为只有那两个引脚能使用MPU6050 根据配置出来的引脚&#xff0c…

意识边界的算法战争—脑机接口技术重构人类认知的颠覆性挑战

一、神经解码的技术奇点当瘫痪患者通过脑电波操控机械臂饮水&#xff0c;当失语者借由皮层电极合成语音&#xff0c;脑机接口&#xff08;BCI&#xff09;正从医疗辅助工具演变为认知增强的潘多拉魔盒。这场革命的核心突破在于神经信号解析精度的指数跃迁&#xff1a;传统脑电图…

详解彩信 SMIL规范

以下内容将系统地讲解彩信 MMS&#xff08;Multimedia Messaging Service&#xff09;中使用的 SMIL&#xff08;Synchronized Multimedia Integration Language&#xff09;规范&#xff0c;涵盖历史、语法结构、在彩信中的裁剪与扩展、常见实现细节以及最佳实践。末尾附示例代…

《红蓝攻防:构建实战化网络安全防御体系》

《红蓝攻防&#xff1a;构建实战化网络安全防御体系》文章目录第一部分&#xff1a;网络安全的攻防全景 1、攻防演练的基础——红队、蓝队、紫队 1.1 红队&#xff08;攻击方&#xff09; 1.2 蓝队&#xff08;防守方&#xff09; 1.3 紫队&#xff08;协调方&#xff09; 2、5…

MFC UI大小改变与自适应

文章目录窗口最大化库EasySize控件自适应大小窗口最大化 资源视图中开放最大化按钮&#xff0c;添加窗口样式WS_MAXIMIZEBOX。发送大小改变消息ON_WM_SIZE()。响应大小改变。 void CDlg::OnSize(UINT nType, int cx, int cy) {CDialog::OnSize(nType, cx, cy);//获取改变后窗…

【Linux网络】:HTTP(应用层协议)

目录 一、HTTP 1、URL 2、协议格式 3、请求方法 4、状态码 5、Header信息 6、会话保持Cookie 7、长连接 8、简易版HTTP服务器代码 一、HTTP 我们在编写网络通信代码时&#xff0c;我们可以自己进行协议的定制&#xff0c;但实际有很多优秀的工程师早就写出了许多非常…

C++-linux 7.文件IO(三)文件元数据与 C 标准库文件操作

文件 IO 进阶&#xff1a;文件元数据与 C 标准库文件操作 在 Linux 系统中&#xff0c;文件操作不仅涉及数据的读写&#xff0c;还包括对文件元数据的管理和高层库函数的使用。本文将从文件系统的底层存储机制&#xff08;inode 与 dentry&#xff09;讲起&#xff0c;详细解析…

WordPress Ads Pro Plugin本地文件包含漏洞(CVE-2025-4380)

免责声明 本文档所述漏洞详情及复现方法仅限用于合法授权的安全研究和学术教育用途。任何个人或组织不得利用本文内容从事未经许可的渗透测试、网络攻击或其他违法行为。 前言:我们建立了一个更多,更全的知识库。每日追踪最新的安全漏洞,追中25HW情报。 更多详情: http…

从爆红到跑路:AI明星Manus为何仅用四个月就“抛弃”了中国?

目录 前言 一、资本的“无形之手”&#xff1a;7500万美元融资背后的“投名状” 二、技术的双重困境&#xff1a;算力封锁与“应用层”的原罪 三、战略的错判&#xff1a;一场与中国市场的“双向奔赴”失败 四、事件的启示&#xff1a;当“出海”变成“出走” &#x1f3a…

CCF-GESP 等级考试 2025年6月认证Python三级真题解析

1 单选题&#xff08;每题 2 分&#xff0c;共 30 分&#xff09;第1题 2025年4月19日在北京举行了一场颇为瞩目的人形机器人半程马拉松赛。比赛期间&#xff0c;跑动着的机器人会利用 身上安装的多个传感器所反馈的数据来调整姿态、保持平衡等&#xff0c;那么这类传感器类似于…

16.使用ResNet网络进行Fashion-Mnist分类

16.1 ResNet网络结构设计################################################################################################################ #ResNet ################################################################################################################…

C# 结构体 和 类 的区别

✅ 结构体&#xff08;struct&#xff09;是值类型&#xff08;Value Type&#xff09;和类&#xff08;class&#xff09;不同&#xff0c;结构体在赋值和传参时是复制值本身&#xff0c;而不是引用地址。✅ 一、结构体的基本使用示例&#xff1a;using System;struct Point {…