【笔记ing】大模型算法架构

前言

随着人工智能技术的飞速发展,大模型算法及其架构已成为推动科技前沿的重要力量。它们不仅能够处理海量的数据,还具备强大的表征学习能力,能够应对日益复杂的场景需求。本章节将介绍大模型算法及其架构,带您了解其背后的原理、技术创新以及在实际应用中的广阔前景。

目标

学完本课程后,您将能够:

掌握transformer架构和计算流程

了解transformer优化点

掌握FlashAttention、PagedAttention

了解GLM、LLaMA模型结构

目录

1.深度学习算法发展及瓶颈

2.Transformer详解

3.Transformer中的问题及优化方式

4.大语言模型架构介绍

5.多模态大模型架构介绍

6.MoE结构介绍

1.深度学习算法发展及瓶颈

深度学习发展历程

1957年感知器的出现到ILSVRC中诞生的一系列网络,深度学习从简单的二分类到部分领域超越人类。

stage1

感知器

通过线性加权和阈值判断来实现二分类任务

stage2

MLP和反向传播

MLP,网络能够处理更加复杂的非线性问题。

反向传播,为训练多层神经网络提供了有效的手段

stage3

CNN和RNN

CNN卷积神经网络,引入卷积核和池化操作,在计算机视觉领域应用广泛

RNN循环神经网络,引入循环连接,使得网络能够处理序列数据,在自然语言处理领域应用广泛。

stage4

快速发展

视觉方面,ILSVRC中诞生了一系列优异的网络,如AlexNet、GoogleNet、VGG、ResNet等

NLP领域,基于RNN系列网络和Seq2Seq结构的学习算法,在一些领域超越人类

典型神经网络单元

DNN

CNN

卷积神经网络 Convolutional Neural Network

是一种专门用于图像处理的神经网络,它可以自动提取图像中的特征,从而实现图像分类、目标检测等任务。

GNN

图神经网络 Graph Neuron Network

是一种用于处理图形数据的神经网络模型。它可以对图形数据进行分类、聚类、预测等任务。图神经网络在社交网络分析、化学分析分析、推荐系统等领域有广泛的应用。

RNN

循环神经网络 Recurrent Neural Network

循环神经网络是一种可以处理序列数据的神经网络,它可以自动学习序列中的规律和模式,从而实现语音识别、自然语言处理等任务。

典型网络结构

基于CNN、RNN等基础结构诞生的诸多学习算法,如FCN、VGG、GoogleNet等在一些特定领域效果极佳,甚至可以超越人类。

批注:

传统深度学习诞生了很多效果很好的模型结构,如:VGG、Unet、GAN、ResNet等。

大模型阶段

随着计算能力的提升和数据量的增长,训练更大更深的神经网络成为了可能。以GPT系列、LLaMA、GLM等为代表的TRM架构大模型,通过海量的数据和计算资源,训练出了具有强大生成能力和泛化能力的模型。

这些模型不仅能够在单一任务上取得优异性能,还能够通过微调的方式,快速适应新的任务和数据。

stage5

Transformer

Transformer的出现终结了RNN和CNN的时代,基于transformer的优势诞生了Bert、GPT、ViT等效果极佳的算法。

stage6

得益于transformer的可扩展性和算力的发展,模型体积进一步扩大,诞生了GPT4、GLM、stablediffusion等参数量以十亿为单位的模型

思考

基于CNN、RNN的传统深度学习算法在某些(语音识别、图像分类、文本理解等)领域已经超过了人类,为何还要给予Transformer设计更大的模型?

为什么目前大模型都是TRM架构而不是CNN和RNN?

传统深度学习算法的问题

传统深度学习算法在某些领域已经超过了人类,但是依然存在诸多问题。

扩展性差

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/94618.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/94618.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ConcurrentHashMap的原理

1.底层数据结构JDK1.7底层采用分段的数组链表实现JDK1.8 采用的数据结构跟HashMap1.8的结构一样,数组链表/红黑二叉树2.加锁的方式JDK1.7采用Segment分段锁,底层使用的是ReentrantLockJDK1.8采用CAS添加新节点,采用synchronized锁定链表或红黑二叉树的首节点,相对Segment分段锁…

【论文阅读】健全个体无辅助运动期间可穿戴传感器双侧下肢神经机械信号的基准数据集

Benchmark Datasets for Bilateral Lower-Limb Neuromechanical Signals from Wearable Sensors during Unassisted Locomotion in Able-Bodied Individuals 原文:DOI: 10.3389/frobt.2018.00014 2018年 翻译:靠岸学术 目录 1引言 2仪器设…

反向海淘系统搭建:从架构设计到合规运营的全方位指南

一、系统架构设计1.1 分层架构设计反向海淘系统通常采用四层架构设计:‌接入层‌:负责与淘宝开放平台、1688海外接口通信,处理接口认证、请求转发与响应解析。‌业务层‌:包含商品检索、订单管理、支付处理、物流追踪等核心模块。…

20.22 QLoRA微调实战:中文语音识别数据准备全流程解密

QLoRA微调实战:中文语音识别数据准备全流程解密 实战项目:QLoRA 微调数据准备详解 本环节我们将以中文语音识别任务为场景,详细拆解 QLoRA 微调前的数据准备流程。以下流程图展示了完整的数据处理路径: #mermaid-svg-A3ZpWn1ysZUg6jg4 {font-family:"trebuchet ms&q…

工业电子看板赋能线缆工厂生产高效运转

在制造业智能化转型的浪潮中,工业电子看板已不再只是“显示数据的屏幕”,而是成为连接设备层、控制层与管理层的实时信息枢纽。尤其在线缆制造这类对工艺参数敏感、生产连续性要求高的行业中,电子看板通过对关键数据的透明化、实时化与交互化…

Java爬虫是什么,如何获取API接口

一、Java爬虫的定义Java爬虫是一种基于Java编程语言开发的网络爬虫程序。它通过模拟浏览器行为,向目标网站发送HTTP请求,获取网页内容并解析出所需数据。Java爬虫技术广泛应用于数据采集、市场分析、竞争情报等领域。二、Java爬虫获取API接口的方法&…

Python篇---返回类型

基础返回类型:在 Python 中,函数的返回类型就像函数 “产出” 的不同 “物品”,理解它们能帮你更好地控制代码的输出。下面用通俗的方式介绍常见的返回类型及用法:一、最基础的返回类型1. 无返回值(None)特…

ArkTS 与 TypeScript 的关系及鸿蒙开发常见错误案例

随着 HarmonyOS NEXT(纯血鸿蒙) 的到来,开发者在学习鸿蒙应用开发时会遇到一个新的语言 —— ArkTS。很多人会疑惑:它和 TypeScript(TS)是什么关系?又有哪些新的特性?在实际开发中&a…

初识socket编程(实现一个简单的TCPServer)

监听套接字的创建流程 在网络编程中,listen 套接字(通常称为“监听套接字”)是服务器端用于接收客户端连接请求的特殊套接字,是 TCP 服务器建立连接过程中的核心组件。下面我们就来简单看一下监听套接字创建的过程创建流程&#x…

开发者如何在 Gitee 上开源一个自己的项目

文章目录一、为什么要在 Gitee 上开源?1. 开源的价值2. 为什么是 Gitee?二、前期准备:让项目“可开源”1. 项目代码整理2. 添加必要文件3. 确定开源许可证三、在 Gitee 上创建仓库四、推送本地代码到 Gitee五、完善项目展示(吸引力…

卷积神经网络实现mnist手写数字集识别案例

手写数字识别是计算机视觉领域的“Hello World”,也是深度学习入门的经典案例。它通过训练模型识别0-9的手写数字图像(如MNIST数据集),帮助我们快速掌握神经网络的核心流程。本文将以PyTorch框架为基础,带你从数据加载…

实战笔记——构建智能Agent:SpreadJS代码助手

目录 前言 解决思路 需求理解 MCP Server LangGraph 本教程目标 技术栈 第一部分:构建 MCP Server - 工具服务化的基础架构 第二部分:Tools 实现 第三部分:基于 LangGraph 构建智能 Agent 第四部分:服务器和前端搭建 前…

【Word】用 Python 轻松实现 Word 文档对比并生成可视化 HTML 报告

在日常工作和学习中,我们经常需要对两个版本的文档进行比对,比如合同修改、论文修订、报告更新等。手动逐字检查不仅耗时费力,还容易遗漏细节。 今天,我将带你使用 Python python-docx difflib 实现一个自动化 Word 文档对比工具…

从0开始搭建一个前端项目(vue + vite + typescript)

版本 node:v22.17.1 pnpm:v10.13.1 vue:^3.5.18 vite:^7.0.6 typescipt:~5.8.0脚手架初始化vue pnpm create vuelatest只选择: TypeScript, JSX 3. 用vscode打开创建的项目,并删除多余的代码esl…

1.ImGui-环境安装

免责声明:内容仅供学习参考,请合法利用知识,禁止进行违法犯罪活动! 本次游戏没法给 内容参考于:微尘网络安全 IMGUI是一个被广泛应用到逆向里面的,它可以用来做外部的绘制,比如登录界面&…

基于springboot的二手车交易系统

博主介绍:java高级开发,从事互联网行业六年,熟悉各种主流语言,精通java、python、php、爬虫、web开发,已经做了六年的毕业设计程序开发,开发过上千套毕业设计程序,没有什么华丽的语言&#xff0…

修改win11任务栏时间字体和小图标颜色

1 打开运行提示框 在桌面按快捷键winR,然后如下图所示输入regedit2 查找路径 1、在路径处粘贴路径计算机\HKEY_CURRENT_USER\Software\Microsoft\Windows\CurrentVersion\Themes\Personalize 2、如下图所示,双击打开ColorPrevalence,将里面的…

第13集 当您的USB设备不在已实测支持列表,如何让TOS-WLink支持您的USB设备--答案Wireshark USB抓包

问:当您的USB设备不在已实测支持列表,如何让TOS-WLink支持您的USB设备? 答案:使用Wireshark USB抓包,日志发给我 为什么要抓包: USB设备种类繁多;TOS-WLink是单片机,内存紧张&#…

[灵动微电子 MM32BIN560CN MM32SPIN0280]读懂电机MCU之比较器

作为刚接触微控制器的初学者,在看到MM32SPIN0280用户手册中“比较器”相关内容时,是不是会感到困惑?比如“5个通用比较器”“轮询功能”“迟滞电压”这些术语,好像都和电机控制有关,但又不知道具体怎么用。别担心&…

⸢ 贰 ⸥ ⤳ 安全架构:数字银行安全体系规划

👍点「赞」📌收「藏」👀关「注」💬评「论」 🔥更多文章戳👉Whoami!-CSDN博客🚀 在金融科技深度融合的背景下,信息安全已从单纯的技术攻防扩展至架构、合规、流程与创新的…