5 月 17 日,“第三届 OceanBase 开发者大会”在广州举办,会中,蚂蚁集团 CTO 何征宇,进行了题为《AGI时代,海量数据带来的质变》的主题分享。他深度剖析了AI 时代下,数据应用范式的变革,以及生成式AI技术为数据基础设施带来的发展机遇与技术挑战。
何征宇在演讲中提出,当前大模型的成就源于互联网海量数据,但其存在的"幻觉问题"本质上也是数据问题。他强调数据质量直接决定大模型的能力天花板,并系统阐述了面临的四大主要挑战:第一,数据获取成本不断攀升;第二,严谨行业存在数据稀缺且流通难的困境;第三,多模态数据处理对数据处理能力提出更高要求;最后,数据质量评估体系尚不完善。
何征宇表示,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等 AI 核心场景的突破,支持 OceanBase 实践 Data × AI 的理念和架构创新。同时继续支持 OceanBase 开源开放,将 Data × AI 的能力逐渐开放给行业,为 AGI 的梦想添砖加瓦。
以下是他的分享全文:
蚂蚁集团 CTO 何征宇在 OceanBase 第三届开发者大会现场
各位 OceanBase 的开发者大家好!非常荣幸能够有这次机会和大家聊一聊通用人工智能(AGI)。我今天想分享的题目是《AGI 时代,海量数据带来的质变》。
为什么我会来这次会议,我其实觉得首先要讲一句话,没有数据肯定就没有今天的 AI 和大模型;没有开发者的兴起和爆发,也就不会有 AI 应用的爆发。正是数据的力量铸就了今日的 AI 与大模型,而开发者生态的蓬勃发展和持续创新,是真正推动 AI 应用爆发的核心引擎。
AI 的发展其实并不是一帆风顺,甚至它不是线性的。这已经是 AI 的第四次爆发式发展了,AI 终于变得通用,这里蕴藏着巨大的市场机会和商业机会。当 ChatGPT 发布的时候,你会看到很多原有需要做专用模型的任务,包括翻译、写作、对话等等都只是需要这一个智能模型,从我们的视角看过来,这是符合“长尾理论”的。知名科技杂志《连线》前主编 Chris Anderson 在早年著作中提出的经典案例:在书中,他以亚马逊书店为例指出,其成功关键在于将稀缺难寻的长尾书籍悉数纳入销售体系,也就是它把所有难找、长尾的书本全部上架了。这背后遵循的幂律法则对技术从业者而言并不陌生——当海量长尾需求聚合时,其总和将超越任何单一主流市场的规模。
今天 AGI 意味着什么?当前 AGI 的突破在于单个模型或解决方案能够完成多个细分 AI 任务。随着这些基础功能的实现,我们预见将涌现出指数级增长的长尾应用需求。这些需求的叠加效应极有可能超越现有 AI 市场的总和,预示着一场由技术革命驱动的商业爆发即将来临。更多的人会享受到更大更好的 AI 服务。对于基础设施开发者和技术团队则面临三重挑战——构建足以支撑海量需求的服务架构,持续降低计算成本,以及不断突破智能系统的性能极限。唯有在规模效应、成本控制和技术突破三个维度同步推进,方能把握这场智能革命的战略机遇。
对数据意味着什么?“数据的边界决定着智能的上限”—这句话很多人都有共识。物理学家费曼的名言“我无法创造的即我无法理解”也尤为深刻,成为生成式人工智能的指引。在此启示下,我们可以说:无法数字化即无法智能化。一方面,数字化的过程即是创造智能的过程:模型本身需要数据,将物理世界转化为数字形态,不论是文字还是影像,都是人类智能的结晶。从另外一方面说,当前大模型面临的大多数幻觉问题,其本质源于特定领域的数据缺失或质量缺陷——当模型遭遇数据空白区域时,由于模型训练目标是流畅表达,基于概率的生成会导致预测失准。这一认知反向印证了基础逻辑:优化数据质量与完善数据体系,才是解决幻觉最源头应该去做的事情。
今天,我们认为 AGI 在数据领域依然面临很多的挑战,这里简单跟大家分享一下我们的看法:
一是数据的获取成本显著增加。OpenAI 前首席科学家 Ilya Sutskever 曾用"数据是人工智能的化石原料"的隐喻揭示行业困境:作为大模型训练基石的互联网公开数据资源已接近枯竭。这种枯竭并非物理意义上的耗尽,而是指唾手可得的、廉价的数据资源已被用完。因为互联网上的数据,大家都可以 Free Access。廉价数据用完了,就只剩真正昂贵的数据。未来一个企业成功与否,我们判断不是看它如何消费数据、应用数据,而是看它如何能够高效率地产生高质量的数据,这将成为未来任何一个数字化企业的成功标准。
二是行业数据流通难。我们观察到一个本质的问题,行业严谨性与数据可得性呈反向关系,越严谨的行业数据越稀缺。高严谨性行业(如法律、医疗)存在三重特征:数字化进程滞后、数据质量要求严苛、核心数字化知识沉淀不足,这共同导致了高质量数据的结构性缺失。而生成式 AI 在专业领域的有效应用,既需要高密度的垂直领域知识(包括形式逻辑、因果推理等认知范式),又依赖跨行业知识迁移能力。以 DeepSeek-R1 为例,其通过代码逻辑向文本创作迁移已验证技术可行性,但专业领域的智能化突破仍面临关键瓶颈——如何系统性地将行业特有的思维范式、专业规则等隐性知识转化为可计算模型?该瓶颈若无法突破,将严重制约专业领域的智能化进程。
三是多模态数据处理难。我认为不可忽视的核心一点是,我们身处的世界是三维的,并不像语言一样是线性的。未来的数据不仅仅包括文本,也包含大量的视觉、触觉信息,包括机器人领域的本体感觉等一系列维度。可以预见,即便当前大模型已经能够处理数十亿量级文本单元(Token),未来数据规模仍将呈指数级增长。面对未来更海量的数据,我们将如何处理,这也是另外一个非常大的挑战。
四是质量评估难。大家知道大模型最难的一个问题是怎么评估,评估的质量又决定模型的质量。评估到底是什么?评估本身也是数据,它需要大量的评估数据,需要大量具备人类思维,或者人类知识数据。这些数据如何获取也是一个很大的挑战,不然我们训练大模型永远就像“炼丹”一样,只有出炉了之后才知道好不好。
以上问题是目前我们观察到的挑战。应该如何攻克它,这是个 Open Question,很多公司都在尝试攻克,能够解决任何一个问题都有可能成为一个伟大的商业公司。我们有一句话可以分享给大家:未来所有数据公司都将成为 AI 公司。
OceanBase 是为理想而生,更是为场景而生。过去 OceanBase 自研海量交易数据的技术创新,应用到蚂蚁集团的内部场景,我们针对当年所面临的 IOE 架构的挑战,率先应用了全分布式的数据库架构。在这个之上,我们构建了包括容灾、海量数据服务能力等技术体系。可以毫不谦逊的说,OceanBase 是蚂蚁集团持续创新,突破行业技术难题的代表。面向未来,我坚信 OceanBase 将为实现 AGI 梦想继续绽放。在上述的问题里,我相信 OceanBase 将大有可为。
蚂蚁集团将支持 OceanBase 突破一些关键的 AI 场景,包括在金融、医疗、生活等蚂蚁 AI 的核心场景突破,支持 OceanBase 实践 Data × AI 的理念和架构创新。今天 AI 的竞争已经进入到深水区,AI 的竞争不仅仅只是模型的竞争,它更加是一个公司乃至行业基础设施的竞争,基础设施的效果将直接决定模型的效果。
同时,蚂蚁集团将继续支持 OceanBase 开源开放,把 Data × AI 的能力逐渐开放给行业,为整个社会提供 Data × AI 的 Infra 创新服务,我们想借助一点小小的力量,为我们的行业,为 AGI 的梦想添砖加瓦。
最后,我想以印在 50 英镑上的图灵名言结束今天的分享:“这不过是将来之事的序章,也不过是将来之事的影子。”AGI 的梦想很大,期待与各位开发者同行。谢谢!