从0开始学习语言模型--Day01--亲自构筑语言模型的重要性

在如今这个时代,人工智能俨然已经成了一个大家耳熟能详的词汇。随着技术的发展,它在不断地降低计算机领域一些工作的门槛,甚至有时候我们能看到一个可能六年前还需要从头开始学习的职业,现在只需要能掌握一个专属的小模型就可以拥有不俗的工作能力了。

但实际上,一旦所研究的数据的规模到达增长到一定程度后,很多小语言模型都不再能够支撑这些学习强度了。鉴于此,从基础开始学大语言课程是很有必要的,正所谓要了解一个事物,最好的方式就是自己亲手构筑一个事物。

前瞻

在课程中,一共分为三种类型的知识:

  • 有关于事物如何运作的机制:什么是transformer,如何实现一个transformer,模型并行是如何高效使用GPU的。

  • 思维模式:怎么尽可能地让硬件发挥出其全部的性能,并认真地对待扩展

  • 直觉:哪些数据和决策能够产生好的模型,但是只能学到一部分,因为那些在大多数规模上有效的数据集和决策,可能并不适用于更大规模。

在学习的过程中,有时候会不可避免的产生一种误解,就是很多时候会发现,只要适当地扩大规模,很容易就会把模型的准确率提升上去,这容易让我们误入把规模扩大后建立模型后就万事大吉了的理解。实际上,模型的准确率等于我们所构建的算法的效率乘以投入规模的乘积,忽视效率只看准确率,会让我们在使用的过程中浪费很多资源,有时候涉及到规模很大的模型时,这甚至会反过来成为我们的负担。

所以我们要树立一种正确的心态,即时常思考在给定的计算和数据预算下,一个人所能构建的最佳模型是什么样的,不管在什么样的场景下这种思维都能给予我们帮助,因为这意味着我们是在计算每单位资源的准确率,能保证我们尽量不迷失方向。

课程中一共有五个作业,每次作业都不提供代码框架,也就是说需要我们自己去了解代码的框架构筑应该是什么样的,虽然有类似于我们在github引用文件时的readme文件去引导,但是相关的设计决策以及命名函数和代码需要我们自己独立完成。这些作业所涉及到的资源都比较小,是可以直接用笔记本电脑在本地跑的,这其实是在传达另一种思想,就是在运行大型任务前,应该尽可能地用小的数据集和较小的资源去完成代码的原型设计,一方面能够节省资源的浪费,毕竟有很多错误是可以在本地测试出来的,另一方面则可以让我们发散自己的思维,思考一下该怎么构筑可能出现的问题。

对于每个作业来说,最基础的目标就是让一个完整流水线的基础目标运作起来,也就是说要实现一个分词器、模型架构和训练。分词器是一个可以在字符串和整数序列之间转换的东西,简单来说,它可以把字符串分解成若干片段并将整个片段映射到一个整数,起到一个解构器的作用。比较常见的是BPE分词器。

至于架构的方法有很多,这取决于你希望模型侧重于什么,比较常见的是注意力机制,通过动态分配不同权重来聚焦输入数据的关键部分,从而提升模型对重要信息的处理能力,这能提高模型的效率,毕竟人工智能最初的思想就是往人类的思维去靠近,那么注意力机制也是让模型学会抓住重点。

最后是我们熟悉的训练部分,我们需要用到优化器,调整学习率以及一系列超参数,再进行训练,也就是说需要我们去对待很多细节,这也是直接使用基础架构和使用精心设计的架构效率完全不一样的原因所在(我们很多时候在看文献时,会看到作者也很难去解释为什么这样的参数是好的,给不出有效的实验去证明,因为有时候我们也不知道为什么参数仅仅只是变了一点点整个模型的效率就可以提升许多)。

学习课程链接来自于B站教程:https://www.bilibili.com/video/BV1pAjUzYEaK/?spm_id_from=333.1007.top_right_bar_window_custom_collection.content.click&vd_source=867b8ecbd62561f6cb9b4a83a368f691

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/84888.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【量化】策略交易之动量策略(Momentum)

【量化】策略交易之动量策略(Momentum) 一、动量策略(Momentum Strategy)原理 👉🏻 核心思想: 强者恒强,弱者恒弱。 动量策略认为,过去一段时间涨得多的资产&#xff0c…

Cesium快速入门到精通系列教程九:Cesium 中高效添加和管理图标/标记的标准方式​​

Cesium中通过 ​​Primitive 高效添加 ​​点、线、多边形、圆、椭圆、球、模型​​ 等地理要素,以下是各类地理要素的高效添加方式: 一、公告板 1. 创建 BillboardCollection 并添加到场景​ const billboards viewer.scene.primitives.add(new Ces…

volka烹饪常用英语

1. 视频开场与主题介绍 Today, we are going to learn English while cooking. Fire. In this video, I’m going to continue to teach you the 3,000 most common English words that will allow you to understand 95% of spoken English. And we are going to be preparin…

同旺科技 USB TO SPI / I2C适配器(专业版)--EEPROM读写——B

所需设备: 1、USB 转 SPI I2C 适配器;内附链接 2、24C64芯片; 适应于同旺科技 USB TO SPI / I2C适配器专业版; 烧写EEPROM数据、读取EEPROM数据、拷贝EEPROM数据、复制产品固件,一切将变得如此简单! 1…

Linux下成功编译CPU版Caffe的保姆级教程(基于Anaconda Python3.8 包含完整可用Makefile.config文件)

目录 前言 一、环境准备 1. 系统要求 2. 安装必要依赖 二、Anaconda环境配置 1. 安装Anaconda 2. 创建专用Python环境 3. 安装必要的Python包 三、获取Caffe源代码 四、配置编译选项 1. 修改Makefile.config 2. 修改Makefile 3. 修改CMakeLists.txt(如…

shell三剑客

了解三剑客 三剑客指的是: grep、sed和awk这三个在linux系统中常用的命令行工具 shell三剑客 grep: 主要用于查找和过滤特定文本 sed:是一个流编辑器,可以对文本进行增删改查 awk:是一个文本处理工具,适合对列进行处…

创客匠人视角:知识IP变现的主流模式与创新路径

知识IP变现赛道正从“野蛮生长”走向“精细化运营”,如何在流量红利消退期实现可持续变现?创客匠人基于服务数万职业教育IP的实践经验,总结出一套兼顾效率与长尾价值的变现逻辑,为行业提供了可参考的路径。 主流变现模式&#x…

【嵌入式人工智能产品开发实战】(二十三)—— 政安晨:将小智AI代码中的display与ota部分移除

政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正! 目录 本篇目标 第一步 ✅ 修改说明 🔧 修改后的代码节选 📌 总…

从sdp开始到webrtc的通信过程

1. SDP 1.1 SDP的关键点 SDP(Session Description Protocol)通过分层、分类的属性字段,结构化描述实时通信会话的 会话基础、网络连接、媒体能力、安全策略、传输优化 等核心信息,每个模块承担特定功能: 1. 会话级别…

PHP、Apache环境中部署sqli-labs

初始化数据库的时候,连接不上 检查配置文件里面的数据库IP、用户名、密码是否正确 mysqli_connect函数报错 注意要下载兼容PHP7的sqli-labs版本 1、下载sqli-labs工程 从预习资料中下载。 文件名:sqli_labs_sqli-for7.zip 2、配置数据库 把下载好的…

Spring AI Alibaba Graph 实践

本文中将阐述下 AI 流程编排框架和 Spring AI Alibaba Graph 以及如何使用。 1. Agent 智能体 结合 Google 和 Authropic 对 Agent 的定义:Agent 的定义为:智能体(Agent)是能够独立运行,感知和理解现实世界并使用工具…

Server 11 ,⭐通过脚本在全新 Ubuntu 系统中安装 Nginx 环境,安装到指定目录( 脚本安装Nginx )

目录 前言 一、准备工作 1.1 系统要求 1.2 创建目录 1.3 创建粘贴 1.4 授权脚本 1.5 执行脚本 1.6 安装完成 二、实际部署 2.1 赋予权限 2.2 粘贴文件 2.3 重启服务 三、脚本解析 步骤 1: 安装编译依赖 步骤 2: 创建安装目录 步骤 3: 下载解压源码 步骤 4: 配置…

层压板选择、信号完整性和其他权衡

关于印刷电路材料,我有很多话要说,我觉得这非常有趣,而且所有候选人都带有“材料”这个词。无论出现在顶部的东西都是我最终选择的。我实际上会描述决策过程,因为我认为这很有趣,但首先要强调将我带到这里的职业旅程。…

几种经典排序算法的C++实现

以下是几种经典排序算法的C实现&#xff0c;包含冒泡排序、选择排序、插入排序、快速排序和归并排序&#xff1a; #include <iostream> #include <vector> using namespace std;// 1. 冒泡排序 void bubbleSort(vector<int>& arr) {int n arr.size();f…

[学习] 多项滤波器在信号插值和抽取中的应用:原理、实现与仿真(完整仿真代码)

多项滤波器在信号插值和抽取中的应用&#xff1a;原理、实现与仿真 文章目录 多项滤波器在信号插值和抽取中的应用&#xff1a;原理、实现与仿真引言 第一部分&#xff1a;原理详解1.1 信号插值中的原理1.2 信号抽取中的原理1.3 多项滤波器的通用原理 第二部分&#xff1a;实现…

Linux中source和bash的区别

在Linux中&#xff0c;source和bash&#xff08;或sh&#xff09;都是用于执行Shell脚本的命令&#xff0c;但它们在执行方式和作用域上有显著区别&#xff1a; 1. 执行方式 bash script.sh&#xff08;或sh script.sh&#xff09; 启动一个新的子Shell进程来执行脚本。脚本中的…

解决文明6 内存相关内容报错EXCEPTION_ACCESS_VIOLATION

我装了很多Mod&#xff0c;大约五六十个&#xff0c;经常出现内存读写异常的报错。为了这个问题&#xff0c;我非常痛苦&#xff0c;已经在全球各大论坛查询了好几周&#xff0c;终于在下方的steam评论区发现了靠谱的解答讨论区。 https://steamcommunity.com/app/289070/dis…

IIS 实现 HTTPS:OpenSSL证书生成与配置完整指南

参考 IIS7使用自签名证书搭建https站点(内网外网都可用) windows利用OpenSSL生成证书,并加入IIS 亲测有效 !!! IIS 配置自签名证书 参考:IIS7使用自签名证书搭建https站点(内网外网都可用) 亲测可行性,不成功。 IIS 配置OpenSSL 证书 √ OpenSSL 下载 https://slp…

Spark DAG、Stage 划分与 Task 调度底层原理深度剖析

Spark DAG、Stage 划分与 Task 调度底层原理深度剖析 核心知识点详解 1. DAG (Directed Acyclic Graph) 的构建过程回顾 Spark 应用程序的执行始于 RDD 的创建和一系列的转换操作 (Transformations)。这些转换操作&#xff08;如 map(), filter(), reduceByKey() 等&#xff…

关于阿里云-云消息队列MQTT的连接和使用,以及SpringBoot的集成使用

一、目的 本文主要记录物联网设备接入MQTT以及对接服务端SpringBoot整个的交互流程和使用。 二、概念 2.1什么是MQTT? MQTT是基于TCP/IP协议栈构建的异步通信消息协议&#xff0c;是一种轻量级的发布、订阅信息传输协议。可以在不可靠的网络环境中进行扩展&#xff0c;适用…