百度文心一言开源ERNIE-4.5深度测评报告：技术架构解读与性能对比

目录
一、技术架构解读
1.1、ERNIE 4.5 系列模型概览
1.2、模型架构解读
1.2.1、异构MoE（Heterogeneous MoE）
1.2.2、视觉编码器（Vision Encoder）
1.2.3、适配器（Adapter）
1.2.4、多模态位置嵌入（Multimodal Positional Embedding）
二、模型性能测评对比
2.1、通用能力
2.2、知识能力
2.3、指令遵循能力
2.4、数学能力
2.5、推理能力
2.6、编程能力
2.7、多模态能力
2.8、总结
三、产业观察对比
3.1、技术选型与架构
3.2、生态建设与应用场景
3.3、合规性和安全性
总结

一、技术架构解读

2025年6月30日，百度正式宣布开源即文心一言大模型ERNIE 4.5系列，涵盖了47B和3B激活参数的MoE（混合专家）模型，以及0.3B参数的稠密模型，并实现了预训练权重与推理代码的完全开源。这一举措不仅彰显了百度在大模型领域的深厚积累，也为业界提供了宝贵的参考和实践基础。

1.1、ERNIE 4.5 系列模型概览

本次开源的 ERNIE 4.5 系列模型可以大致分为两类：主要处理文本的语言模型（LLMs）和能够处理多种模态数据的视觉-语言模型（VLMs）。这些模型的主要特点和区别体现在几个方面：

多模态（Multimodal）能力：普通模型主要专注于文本，带有“VL”标识的模型具备多模态处理能力，能够理解和生成文本、图像等多种形式的数据。
专家混合（MoE）架构：除了最小的0.3B稠密模型外，ERNIE 4.5系列的大多数模型都采用了MoE架构。MoE模型通过动态选择性地激活不同的专家网络来处理输入，这在保持高性能的同时，也提高了训练和推理的效率。
后训练（Post-Trained）：模型名称中不带“-Base”后缀的通常表示这些模型在预训练的基础上，经过了进一步的后训练或微调，以优化其在特定应用场景下的性能。而带有“-Base”后缀的模型则是基础的预训练模型。
思考/非思考模式（Thinking / Non-Thinking Mode）：在“non-thinking”模式下，模型可以直接给出答案，无需复杂的推理过程。而“both”模式（主要出现在VL模型中）则意味着模型可以根据任务需求，在直接响应和进行更深层次的“思考”（即复杂的推理和分析）之间切换。

在这里插入图片描述

1.2、模型架构解读

ERNIE 4.5 的架构基于 Transformer，支持图像、视频和文本作为输入，并生成文本作为输出。其核心设计理念在于通过精巧的组件协同工作，实现高效的多模态信息处理。以下将从异构MoE（Heterogeneous MoE）、视觉编码器（Vision Encoder）、**适配器（Adapter）和多模态位置编码（Multimodal Positional Embedding）**四个方面进行深入解读。

在这里插入图片描述

1.2.1、异构MoE（Heterogeneous MoE）

ERNIE 4.5的核心架构创新在于其提出的"异构模态MoE"设计，这一设计巧妙地解决了多模态模型训练中的关键矛盾：如何在共享知识的同时保持各模态的特性。

传统多模态模型往往面临"模态干扰"问题——视觉信息的引入可能会损害模型原有的语言理解能力，反之亦然。ERNIE 4.5通过分层级的专家路由机制和参数分配策略，实现了模态间的有机融合。

在这里插入图片描述
与传统的统一MoE不同，ERNIE 4.5将专家(Experts)明确划分为三类：文本专家、视觉专家和共享专家。文本token被路由到文本专家，视觉token被路由到视觉专家，而所有token都会经过共享专家处理。这种设计既保留了模态特异性，又促进了跨模态知识转移。值得注意的是，视觉专家的参数量仅为文本专家的三分之一，这反映了视觉token的冗余特性以及计算效率的考量。

在这里插入图片描述

在实际应用中，例如处理一张含有文字说明的图片时，文本专家能够精准解析文字内容，提取文字的语义信息，如文字所表达的概念、情感等；视觉专家则专注于图像特征提取，如颜色、形状、纹理等视觉元素。二者共同作用于共享专家，使得模型不仅能理解图片中的文字语义，还能结合图像的视觉信息，更准确地把握整体内容。

1.2.2、视觉编码器（Vision Encoder）

视觉编码器的设计同样体现了ERNIE 4.5对多模态特性的深入思考。与传统的固定分辨率ViT不同，ERNIE 4.5采用了自适应分辨率机制，将图像高度和宽度分别调整至ViT patch大小的最近倍数，从而保持原始长宽比，避免了固定尺寸调整导致的失真。对于视频输入，模型提出了动态帧采样策略，根据视频时长和可用序列长度同时调整帧数和分辨率，实现了有限上下文长度下的最优时空覆盖。

在这里插入图片描述

在实际应用中，当处理不同分辨率的图片时，自适应分辨率机制能够确保模型在不损失关键信息的前提下，高效地对图像进行编码。例如，对于一幅长宽比特殊的图像，该机制可以将其调整为适合 ViT 处理的尺寸，同时保留图像的原始比例，避免因强制变形而导致的视觉信息扭曲。对于视频，动态帧采样策略则使得模型能够根据视频的时长和复杂程度，合理分配计算资源。

1.2.3、适配器（Adapter）

适配器(Adapter)模块在多模态对齐中扮演关键角色。ERNIE 4.5的适配器不仅执行空间和时间维度的token压缩，更重要的是通过训练将多模态特征空间对齐到文本嵌入空间。具体实现上，静态图像被处理为合成的两帧"视频"，确保跨模态的时间建模一致性。像素重排(pixel shuffle)操作被用于高效的特征重组，将相邻的token特征重新排列为更紧凑的形式。

在这里插入图片描述
以一张包含多个物体的图片为例，适配器能够将图像的空间信息进行压缩整合，提取出物体的关键特征，并将其映射到文本嵌入空间。这样，模型就能像处理文本一样处理图像特征，使得图像与文本之间的交互更加自然流畅。同时，通过将静态图像转化为 “视频” 格式，模型在处理图像时也能利用时间维度的建模优势，更好地理解图像中的动态信息或序列关系。例如，在处理一系列相关图片或图像序列时，这种时间建模能力可以帮助模型捕捉物体的运动轨迹或场景的变化过程，从而更准确地理解和生成符合逻辑的内容。

1.2.4、多模态位置嵌入（Multimodal Positional Embedding）

与常规的1D(文本)和2D(图像)位置编码不同，ERNIE 4.5为视觉语言模型设计了统一的多模态位置编码方案，独立编码时间、宽度和高度维度。低频被分配给变化最慢的时间轴，剩余频率在空间轴间交错分配，实现了对称的空间建模和强大的长期时序建模能力。这种方法在长视频理解任务中表现出色，支持序列长度外推。

在这里插入图片描述
在多模态环境下，精准的位置信息对于理解内容的语义和关系至关重要。通过独立编码时间、宽度和高度维度，ERNIE 4.5 的多模态位置嵌入能够为模型提供更丰富的空间和时间线索。

二、模型性能测评对比

本次对 ERNIE 4.5 模型的性能测评基于其技术报告及相关参考文献展开。在测评过程中，我们重点关注了以下几个方面的性能指标：

语言理解任务 ：包括对文本的一般理解、知识掌握程度、推理能力以及代码生成与理解等。
多模态任务 ：主要涵盖视觉知识理解、文档和图表理解、多模态推理、视觉感知以及视频理解等。
测评数据主要来源于以下渠道：
技术报告 ：深入分析 ERNIE 4.5 技术报告中提供的各类实验结果和性能数据，这是本次测评的基础数据来源。
参考文献 ：参考了多篇大模型的研究文献、技术报告，以获取更多实际应用场景下的性能表现数据。
实测数据 ：针对少部分指标，进行了简单的实测，确保数据的可靠性和可比性。

参与测评的模型主要包括ERNIE-4.5系列（ERNIE-4.5-0.3B-Base, ERNIE-4.5-21B-A3B-Base, ERNIE-4.5-300B-A47B, ERNIE-4.5-VL-28B-A3B, ERNIE-4.5-VL-424B-A47B）以及其他主流模型，如Qwen3系列、Qwen2.5系列、DeepSeek系列、OpenAI-o1和GPT-4.1。

复现的ERNIE-4.5系列模型均来自于GitCode：https://ai.gitcode.com/theme/1939325484087291906

2.1、通用能力

在通用能力方面，ERNIE系列模型自诞生之初就对中文语境有着深刻的理解和优化。ERNIE-4.5系列模型不仅继承了这一核心优势，更在中文及多语言通用能力上实现了显著跃升。这种优势源于模型在规模庞大的高质量中文语料库上进行的深度预训练，以及对中文特有的词法结构、句法规则和语义内涵进行的精细算法优化。

ERNIE-4.5-300B-A47B在C-Eval、CMMLU和MMCU等中文和多语言基准测试中表现出色，多数情况下得分最高，显示出其在通用语言理解和生成方面的强大实力。例如，在MMCU上，ERNIE-4.5-300B-A47B达到了95.9分，显著高于其他模型。

而且，即使是参数规模相对较小的ERNIE-4.5-0.3B-Base模型，在其参数级别上也展现出了可观的通用能力基础。

在这里插入图片描述

2.2、知识能力

在衡量模型知识储备与问答准确性的关键任务上，ERNIE-4.5系列同样表现优异。ERNIE-4.5-300B-A47B在ChineseSimpleQA和SimpleQA等知识问答任务中展现出领先优势，尤其是在ChineseSimpleQA上，得分高达77.1，表明其拥有丰富的中文知识储备和问答能力。这清晰反映了模型经过海量知识学习后所具备的丰富中文知识库和精准问答能力。

ERNIE-4.5-21B-A3B-Base在SimpleQA任务上的表现也相当亮眼，超越了同等量级的Qwen3-30B-A3B-Base模型。

在这里插入图片描述

2.3、指令遵循能力

模型对复杂指令的理解与执行能力是评估其实用性的重要维度。在指令遵循方面，ERNIE-4.5-300B-A47B在IFEval和Multi-IF上表现突出，得分分别为88.0和76.6，显示出其对复杂指令的理解和执行能力较强。虽然在Sysbench基准上GPT-4.1表现最佳，但ERNIE-4.5-300B-A47B依然保持了极具竞争力的表现。

在这里插入图片描述

2.4、数学能力

数学解题和逻辑推理能力是衡量大模型核心智能水平的关键指标。ERNIE-4.5-300B-A47B在MATH-500、GSM8K和CMath等多个数学基准测试中均取得最高分，例如GSM8K达到96.6分，这表明了其在逻辑思维、问题分解和逐步推理方面的显著提升。

这种能力的增强，可能源于其在训练过程中引入了更多的逻辑推理任务、数学问题集，以及对思维链（Chain-of-Thought）等推理范式的有效学习。Qwen3和DeepSeek系列模型在部分数学任务上也表现良好，但ERNIE-4.5的整体表现更为均衡和领先。

在这里插入图片描述

2.5、推理能力

在更广泛的推理能力评估方面，ERNIE-4.5-300B-A47B在BBH（Big-Bench Hard）、ARC-Challenge和HellaSwag等具有挑战性的常识推理与复杂推理基准上也表现优异。其在BBH上94.3的高分，进一步验证了其处理复杂、多步骤推理问题的强大能力。

在这里插入图片描述

2.6、编程能力

随着人工智能在软件开发领域的深入应用，模型的代码生成与理解能力成为衡量其实用价值的重要标尺。ERNIE-4.5在HumanEval+和MBPP+等代码生成和理解任务中表现出色，与顶尖模型并驾齐驱，其在HumanEval+上与GPT-4.1并列第一，得分92.1，充分证明了其生成高质量、功能正确代码以及深刻理解编程逻辑的卓越能力。

在这里插入图片描述

2.7、多模态能力

ERNIE-4.5-VL系列模型在多模态理解领域展现了强大的综合实力，测评覆盖了视觉知识问答、文档图表解析、多模态推理、基础视觉感知以及视频理解等多个关键维度。

视觉知识：ERNIE-4.5-VL-424B-A47B在MMBench-cn和MMBench-en等视觉知识基准测试中表现突出，得分分别为90.9和92.0，表明其在图像理解和视觉问答方面具有优势。Qwen2.5-VL-72B则在SimpleVQA基准上表现最佳。
文档与图表：ERNIE-4.5-VL-424B-A47B在OCRBench、AI2D和DocVQA等文档与图表理解任务中均取得最高分，例如AI2D达到96.0分，显示出其在处理复杂视觉信息（如文档和图表）方面的卓越能力。
多模态推理：ERNIE-4.5-VL-424B-A47B在MathVista上表现最佳，得分78.9，表明其在结合视觉和文本信息进行复杂推理方面具有优势。Qwen2.5-VL-72B在VisualPuzzle和ZeroBench(sub)上表现突出。
视觉感知：ERNIE-4.5-VL-424B-A47B在CV-Bench和CountBench上表现最佳，得分分别为85.5和93.3，显示出其在视觉感知任务中的高精度。
视频理解：ERNIE-4.5-VL-424B-A47B在VideoMME w/ subs和LongVideoBench上表现最佳，得分分别为79.7和66.2，表明其在视频内容理解和分析方面的能力。

在这里插入图片描述

2.8、总结

综合评估ERNIE-4.5系列模型在各项核心能力基准测试中的表现，其在通用语言能力、数学计算、逻辑推理、代码生成以及多模态理解方面均展现出业界领先的性能水平。该系列模型的核心优势体现在：

中文领域深耕： ERNIE-4.5在中文通用能力和知识问答方面表现卓越，尤其在中文基准测试中持续领先，这使其在中文应用场景中具有天然优势。
多模态融合： ERNIE-4.5-VL系列在视觉和视频理解方面取得了显著突破，展现了其在处理复杂多模态信息方面的强大实力，为未来多模态应用的创新奠定了基础。
综合能力均衡：无论是在逻辑严谨的数学和推理任务，还是在实用性强的编程任务中，ERNIE-4.5均表现出顶尖水平，显示出其全面而均衡的综合能力。

三、产业观察对比

3.1、技术选型与架构

在这里插入图片描述
从技术选型来看，各家大模型都在Transformer架构的基础上进行创新，如文心大模型的知识增强ERNIE架构、Gemini的原生多模态和超长上下文、Llama的MoE架构。多模态和Agent架构是未来的重要发展方向，各模型都在积极布局。上下文长度的提升也极大地扩展了模型的应用边界。

3.2、生态建设与应用场景

大模型的生态建设是其长期发展的关键。闭源模型通过API和云服务构建商业生态，而开源模型则通过社区协作和免费模型权重推动技术普及。

在这里插入图片描述
在大模型生态建设与应用场景的对比中，各模型在不同维度上各有千秋。得益于与百度生态的深度整合，ERNIE 4.5 系列开源模型凭借百度强大的生态系统，其在中文应用场景中具有独特优势，在中文应用适配和生态融合度上表现突出。ChatGPT则在开发者社区活跃度和API开放程度上领先，展现出其强大的开发者生态和开放性。Gemini与Google产品集成良好，适合企业级部署。其他开源模型则在定制化开发方面具有灵活性，适合学术研究。

在这里插入图片描述

3.3、合规性和安全性

在这里插入图片描述

通过调研分析，国外大模型（如ChatGPT、Gemini、Claude等）服务商通常遵循其所在国家和地区的数据隐私法规，如欧盟的GDPR、美国的CCPA等。国内大模型服务商则比较严格遵守了中国的《数据安全法》、《个人信息保护法》等法律法规。重要的数据存储和处理均在中国境内进行，有效避免了数据出境的合规风险。这对于涉及敏感数据或个人信息的国内企业而言，是优先选择的重要因素。

在这里插入图片描述

本次开源的 ERNIE 4.5 系列模型作为百度旗下的产品，严格遵守中国的数据安全和内容合规要求，其数据处理和存储也均在中国境内完成。百度在内容审核方面拥有丰富的经验和技术积累，在生成内容时会进行严格的过滤和审查，确保符合国家相关规定。这使得 ERNIE 4.5 系列模型在金融、政务、医疗等对数据安全和内容合规性要求极高的行业中具有显著优势。对于希望避免数据出境风险、确保内容合规的国内企业，是一个理想的选择。