【NLP 71、常见大模型的模型结构对比】

三到五年的深耕,足够让你成为一个你想成为的人

                                                                                —— 25.5.8 

模型名称位置编码Transformer结构多头机制Feed Forward层设计归一化层设计线性层偏置项激活函数训练数据规模及来源参数量应用场景侧重
GPT-5 (OpenAI)RoPE动态相对编码混合专家架构(MoE)128头MoE专家路由RMSNormGeGLU超10万亿token(互联网+专有数据)1.8万亿金融风控、医疗诊断、多媒体生成
DeepSeek-V3ALiBi稀疏MoE架构64头稀疏激活LayerNormSwiGLU5万亿token(学术论文+代码库)6710亿STEM科研、代码开发、教育题库
Google Gemini Ultra绝对位置编码时空注意力架构256头多模态跨模态融合GroupNormReLU8万亿token(视频+文本多模态数据)1.2万亿工业质检、实验室自动化、视频分析
百度文心一言4.0绝对位置编码搜索增强架构96头动态知识注入RMSNormGELU4万亿token(百度搜索+古籍数据库)2600亿舆情分析、古籍处理、金融投研
华为盘古3.0ALiBi分层架构(L0-L2)128头行业知识蒸馏LayerNormGeGLU行业专有数据(气象、矿山、制药)1.1万亿气象预测、矿山安全、药物研发
Anthropic Claude 3RoPE分步验证架构64头道德对齐模块RMSNormSwish3万亿token(伦理对齐数据集)5200亿法律文书、心理咨询、学术辅助
阿里通义千问旋转位置编码MoE+3D生成架构128头多模态融合LayerNormSwiGLU6万亿token(电商数据+3D模型库)1.1万亿电商客服、供应链优化、3D建模
星火大模型(科大讯飞)相对位置编码端云协同架构96头语音增强模块RMSNormGELU2.5万亿token(教育+医疗专有数据)890亿教育辅导、医疗慢病管理、方言交互
豆包大模型(字节)动态窗口编码稀疏MoE+轻量化32头情感交互模块LayerNormReLU3万亿token(短视频+社交语料)420亿短视频生成、移动端实时推理
悟道大模型双向相对编码中英双语预训练架构256头多模态生成GroupNormGeGLU7万亿token(多语言+文化遗产数据)1.75万亿文化遗产数字化、工业设计

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/906799.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[250521] DBeaver 25.0.5 发布:SQL 编辑器、导航器全面升级,新增 Kingbase 支持!

目录 DBeaver 25.0.5 发布:SQL 编辑器、导航器全面升级,新增 Kingbase 支持! DBeaver 25.0.5 发布:SQL 编辑器、导航器全面升级,新增 Kingbase 支持! 近日,DBeaver 发布了 25.0.5 版本&#xf…

服务器硬盘虚拟卷的处理

目前的情况是需要删除逻辑卷,然后再重新来弄一遍。 数据已经备份好了,所以不用担心数据会丢失。 查看服务器的具体情况 使用 vgdisplay 操作查看服务器的卷组情况: --- Volume group ---VG Name vg01System IDFormat …

Flutter 中 build 方法为何写在 StatefulWidget 的 State 类中

Flutter 中 build 方法为何写在 StatefulWidget 的 State 类中 在 Flutter 中,build 方法被设计在 StatefulWidget 的 State 类中而非 StatefulWidget 类本身,这种设计基于几个重要的架构原则和实际考量: 1. 核心设计原因 1.1 生命周期管理…

传统医疗系统文档集中标准化存储和AI智能化更新路径分析

引言 随着医疗数智化建设的深入推进,传统医疗系统如医院信息系统(HIS)、临床信息系统(CIS)、护理信息系统(NIS)、影像归档与通信系统(PACS)和实验室信息系统(LIS)已经成为了现代医疗机构不可或缺的技术基础设施。这些系统各自承担着不同的功能,共同支撑…

探索常识性概念图谱:构建智能生活的知识桥梁

目录 一、知识图谱背景介绍 (一)基本背景 (二)与NLP的关系 (三)常识性概念图谱的引入对比 二、常识性概念图谱介绍 (一)常识性概念图谱关系图示例 (二&#xff09…

Linux/aarch64架构下安装Python的Orekit开发环境

1.背景 国产化趋势越来越强,从软件到硬件,从操作系统到CPU,甚至显卡,就产生了在国产ARM CPU和Kylin系统下部署Orekit的需求,且之前的开发是基于Python的,需要做适配。 2.X86架构下安装Python/Orekit开发环…

Ctrl+鼠标滚动阻止页面放大/缩小

项目场景: 提示:这里简述项目相关背景: 一般在我们做大屏的时候,不希望Ctrl鼠标上下滚动的时候页面会放大/缩小,那么在有时候,又不希望影响到别的页面,比如说这个大屏是在另一个管理后台中&am…

MySQL——复合查询表的内外连

目录 复合查询 回顾基本查询 多表查询 自连接 子查询 where 字句中使用子查询 单行子查询 多行子查询 多列子查询 from 字句中使用子查询 合并查询 实战OJ 查找所有员工入职时候的薪水情况 获取所有非manager的员工emp_no 获取所有员工当前的manager 表的内外…

聊一下CSS中的标准流,浮动流,文本流,文档流

在网络上关于CSS的文章中,有时候能听到“标准流”,“浮动流”,“定位流”等等词语,还有像“文档流”,“文本流”等词,这些流是什么意思?它们是CSS中的一些布局方案和特性。今天我们就来聊一下CS…

python训练营第33天

MLP神经网络的训练 知识点回顾: PyTorch和cuda的安装查看显卡信息的命令行命令(cmd中使用)cuda的检查简单神经网络的流程 数据预处理(归一化、转换成张量)模型的定义 继承nn.Module类定义每一个层定义前向传播流程 定义…

JDK21深度解密 Day 1:JDK21全景图:关键特性与升级价值

【JDK21深度解密 Day 1】JDK21全景图:关键特性与升级价值 引言 欢迎来到《JDK21深度解密:从新特性到生产实践的全栈指南》系列的第一天。今天我们将探讨JDK21的关键特性和升级价值。作为近5年最重要的LTS版本,JDK21不仅带来了性能上的巨大突…

[docker]更新容器中镜像版本

从peccore-dev仓库拉取镜像 docker pull 10.12.135.238:8060/peccore-dev/configserver:v1.13.45如果报错,请参考docker拉取镜像失败,添加仓库地址 修改/etc/CET/Common/peccore-docker-compose.yml文件中容器的版本,为刚刚拉取的版本 # 配置中心confi…

LVS原理详解及LVS负载均衡工作模式

什么是虚拟服务器(LVS) 虚拟服务器是高度可扩展且高度可用的服务器 构建在真实服务器集群上。服务器集群的架构 对最终用户完全透明,并且用户与 cluster 系统,就好像它只是一个高性能的虚拟 服务器。请考虑下图。 真实服务器和负…

上位机知识篇---keil IDE操作

文章目录 前言文件操作按键新建打开保存保存所有编辑操作按键撤销恢复复制粘贴剪切全选查找书签操作按键添加书签跳转到上一个书签跳转到下一个书签清空所有书签编译操作按键编译当前文件构建目标文件重新构建调试操作按键进入调试模式复位全速运行停止运行单步调试逐行调试跳出…

前端大文件上传性能优化实战:分片上传分析与实战

前端文件分片是大文件上传场景中的重要优化手段,其必要性和优势主要体现在以下几个方面: 一、必要性分析 1. 突破浏览器/服务器限制 浏览器限制:部分浏览器对单次上传文件大小有限制(如早期IE限制4GB) 服务器限制&a…

解决react-router-dom没有支持name命名使用的问题

1. 前言 react-router-dom 并不能像 vue 的route 那样给每个路由命名 name ,导致代码不能解耦路由路径与导航逻辑。 2. react-router 为什么没有支持? 很早之前官方 issue 中就有过很多讨论: 翻译过来,就是由于以下几个重要原…

Spring AI 之结构化输出转换器

截至 2024 年 2 月 5 日,旧的 OutputParser、BeanOutputParser、ListOutputParser 和 MapOutputParser 类已被弃用,取而代之的是新的 StructuredOutputConverter、BeanOutputConverter、ListOutputConverter 和 MapOutputConverter 实现类。后者可直接替换前者,并提供相同的…

MCP与AI模型的多语言支持:让人工智能更懂世界

MCP与AI模型的多语言支持:让人工智能更懂世界 在人工智能(AI)的时代,我们追求的不仅是强大的计算能力,更是让AI能够理解并使用不同语言,真正服务全球用户。而这背后,一个至关重要的技术就是 MCP(Multi-Context Processing,多上下文处理) ——一种旨在优化 AI 模型理…

【MySQL】 数据库基础数据类型

一、数据库简介 1.什么是数据库 数据库(Database)是一种用于存储、管理和检索数据的系统化集合。它允许用户以结构化的方式存储大量数据,并通过高效的方式访问和操作这些数据。数据库通常由数据库管理系统(DBMS)管理&…

NRM:快速切换 npm 镜像源的管理工具指南

🚀 NRM:快速切换 npm 镜像源的管理工具指南 🔍 什么是 NRM? NRM(Npm Registry Manager) 是一个用于管理 npm 镜像源的命令行工具。 它能帮助开发者 ⚡快速切换 不同的 npm 源(如官方源、淘宝源…