蚂蚁集团 CTO 何征宇：AGI时代，海量数据带来的质变

5 月 17 日，“第三届 OceanBase 开发者大会”在广州举办，会中，蚂蚁集团 CTO 何征宇，进行了题为《AGI时代，海量数据带来的质变》的主题分享。他深度剖析了AI 时代下，数据应用范式的变革，以及生成式AI技术为数据基础设施带来的发展机遇与技术挑战。

何征宇在演讲中提出，当前大模型的成就源于互联网海量数据，但其存在的"幻觉问题"本质上也是数据问题。他强调数据质量直接决定大模型的能力天花板，并系统阐述了面临的四大主要挑战：第一，数据获取成本不断攀升；第二，严谨行业存在数据稀缺且流通难的困境；第三，多模态数据处理对数据处理能力提出更高要求；最后，数据质量评估体系尚不完善。

何征宇表示，蚂蚁集团将支持 OceanBase 在金融、医疗、生活等 AI 核心场景的突破，支持 OceanBase 实践 Data × AI 的理念和架构创新。同时继续支持 OceanBase 开源开放，将 Data × AI 的能力逐渐开放给行业，为 AGI 的梦想添砖加瓦。

以下是他的分享全文：

蚂蚁集团 CTO 何征宇在 OceanBase 第三届开发者大会现场

各位 OceanBase 的开发者大家好！非常荣幸能够有这次机会和大家聊一聊通用人工智能（AGI）。我今天想分享的题目是《AGI 时代，海量数据带来的质变》。

为什么我会来这次会议，我其实觉得首先要讲一句话，没有数据肯定就没有今天的 AI 和大模型；没有开发者的兴起和爆发，也就不会有 AI 应用的爆发。正是数据的力量铸就了今日的 AI 与大模型，而开发者生态的蓬勃发展和持续创新，是真正推动 AI 应用爆发的核心引擎。

AI 的发展其实并不是一帆风顺，甚至它不是线性的。这已经是 AI 的第四次爆发式发展了，AI 终于变得通用，这里蕴藏着巨大的市场机会和商业机会。当 ChatGPT 发布的时候，你会看到很多原有需要做专用模型的任务，包括翻译、写作、对话等等都只是需要这一个智能模型，从我们的视角看过来，这是符合“长尾理论”的。知名科技杂志《连线》前主编 Chris Anderson 在早年著作中提出的经典案例：在书中，他以亚马逊书店为例指出，其成功关键在于将稀缺难寻的长尾书籍悉数纳入销售体系，也就是它把所有难找、长尾的书本全部上架了。这背后遵循的幂律法则对技术从业者而言并不陌生——当海量长尾需求聚合时，其总和将超越任何单一主流市场的规模。

今天 AGI 意味着什么？当前 AGI 的突破在于单个模型或解决方案能够完成多个细分 AI 任务。随着这些基础功能的实现，我们预见将涌现出指数级增长的长尾应用需求。这些需求的叠加效应极有可能超越现有 AI 市场的总和，预示着一场由技术革命驱动的商业爆发即将来临。更多的人会享受到更大更好的 AI 服务。对于基础设施开发者和技术团队则面临三重挑战——构建足以支撑海量需求的服务架构，持续降低计算成本，以及不断突破智能系统的性能极限。唯有在规模效应、成本控制和技术突破三个维度同步推进，方能把握这场智能革命的战略机遇。

对数据意味着什么？“数据的边界决定着智能的上限”—这句话很多人都有共识。物理学家费曼的名言“我无法创造的即我无法理解”也尤为深刻，成为生成式人工智能的指引。在此启示下，我们可以说：无法数字化即无法智能化。一方面，数字化的过程即是创造智能的过程：模型本身需要数据，将物理世界转化为数字形态，不论是文字还是影像，都是人类智能的结晶。从另外一方面说，当前大模型面临的大多数幻觉问题，其本质源于特定领域的数据缺失或质量缺陷——当模型遭遇数据空白区域时，由于模型训练目标是流畅表达，基于概率的生成会导致预测失准。这一认知反向印证了基础逻辑：优化数据质量与完善数据体系，才是解决幻觉最源头应该去做的事情。

今天，我们认为 AGI 在数据领域依然面临很多的挑战，这里简单跟大家分享一下我们的看法：

一是数据的获取成本显著增加。OpenAI 前首席科学家 Ilya Sutskever 曾用"数据是人工智能的化石原料"的隐喻揭示行业困境：作为大模型训练基石的互联网公开数据资源已接近枯竭。这种枯竭并非物理意义上的耗尽，而是指唾手可得的、廉价的数据资源已被用完。因为互联网上的数据，大家都可以 Free Access。廉价数据用完了，就只剩真正昂贵的数据。未来一个企业成功与否，我们判断不是看它如何消费数据、应用数据，而是看它如何能够高效率地产生高质量的数据，这将成为未来任何一个数字化企业的成功标准。

二是行业数据流通难。我们观察到一个本质的问题，行业严谨性与数据可得性呈反向关系，越严谨的行业数据越稀缺。高严谨性行业（如法律、医疗）存在三重特征：数字化进程滞后、数据质量要求严苛、核心数字化知识沉淀不足，这共同导致了高质量数据的结构性缺失。而生成式 AI 在专业领域的有效应用，既需要高密度的垂直领域知识（包括形式逻辑、因果推理等认知范式），又依赖跨行业知识迁移能力。以 DeepSeek-R1 为例，其通过代码逻辑向文本创作迁移已验证技术可行性，但专业领域的智能化突破仍面临关键瓶颈——如何系统性地将行业特有的思维范式、专业规则等隐性知识转化为可计算模型？该瓶颈若无法突破，将严重制约专业领域的智能化进程。

三是多模态数据处理难。我认为不可忽视的核心一点是，我们身处的世界是三维的，并不像语言一样是线性的。未来的数据不仅仅包括文本，也包含大量的视觉、触觉信息，包括机器人领域的本体感觉等一系列维度。可以预见，即便当前大模型已经能够处理数十亿量级文本单元（Token），未来数据规模仍将呈指数级增长。面对未来更海量的数据，我们将如何处理，这也是另外一个非常大的挑战。

四是质量评估难。大家知道大模型最难的一个问题是怎么评估，评估的质量又决定模型的质量。评估到底是什么？评估本身也是数据，它需要大量的评估数据，需要大量具备人类思维，或者人类知识数据。这些数据如何获取也是一个很大的挑战，不然我们训练大模型永远就像“炼丹”一样，只有出炉了之后才知道好不好。

以上问题是目前我们观察到的挑战。应该如何攻克它，这是个 Open Question，很多公司都在尝试攻克，能够解决任何一个问题都有可能成为一个伟大的商业公司。我们有一句话可以分享给大家：未来所有数据公司都将成为 AI 公司。

OceanBase 是为理想而生，更是为场景而生。过去 OceanBase 自研海量交易数据的技术创新，应用到蚂蚁集团的内部场景，我们针对当年所面临的 IOE 架构的挑战，率先应用了全分布式的数据库架构。在这个之上，我们构建了包括容灾、海量数据服务能力等技术体系。可以毫不谦逊的说，OceanBase 是蚂蚁集团持续创新，突破行业技术难题的代表。面向未来，我坚信 OceanBase 将为实现 AGI 梦想继续绽放。在上述的问题里，我相信 OceanBase 将大有可为。

蚂蚁集团将支持 OceanBase 突破一些关键的 AI 场景，包括在金融、医疗、生活等蚂蚁 AI 的核心场景突破，支持 OceanBase 实践 Data × AI 的理念和架构创新。今天 AI 的竞争已经进入到深水区，AI 的竞争不仅仅只是模型的竞争，它更加是一个公司乃至行业基础设施的竞争，基础设施的效果将直接决定模型的效果。

同时，蚂蚁集团将继续支持 OceanBase 开源开放，把 Data × AI 的能力逐渐开放给行业，为整个社会提供 Data × AI 的 Infra 创新服务，我们想借助一点小小的力量，为我们的行业，为 AGI 的梦想添砖加瓦。

最后，我想以印在 50 英镑上的图灵名言结束今天的分享：“这不过是将来之事的序章，也不过是将来之事的影子。”AGI 的梦想很大，期待与各位开发者同行。谢谢！