蚂蚁集团 CTO 何征宇:AGI时代,海量数据带来的质变|OceanBase 开发者大会实录

5 月 17 日,“第三届 OceanBase 开发者大会”在广州举办,会中,蚂蚁集团 CTO 何征宇,进行了题为《AGI时代,海量数据带来的质变》的主题分享。他深度剖析了AI 时代下,数据应用范式的变革,以及生成式AI技术为数据基础设施带来的发展机遇与技术挑战。

何征宇在演讲中提出,当前大模型的成就源于互联网海量数据,但其存在的"幻觉问题"本质上也是数据问题。他强调数据质量直接决定大模型的能力天花板,并系统阐述了面临的四大主要挑战:第一,数据获取成本不断攀升;第二,严谨行业存在数据稀缺且流通难的困境;第三,多模态数据处理对数据处理能力提出更高要求;最后,数据质量评估体系尚不完善。

何征宇表示,蚂蚁集团将支持 OceanBase 在金融、医疗、生活等 AI 核心场景的突破,支持 OceanBase 实践 Data × AI 的理念和架构创新。同时继续支持 OceanBase 开源开放,将 Data × AI 的能力逐渐开放给行业,为 AGI 的梦想添砖加瓦。


以下是他的分享全文:

图片

蚂蚁集团 CTO 何征宇在 OceanBase 第三届开发者大会现场

各位 OceanBase 的开发者大家好!非常荣幸能够有这次机会和大家聊一聊通用人工智能(AGI)。我今天想分享的题目是《AGI 时代,海量数据带来的质变》

为什么我会来这次会议,我其实觉得首先要讲一句话,没有数据肯定就没有今天的 AI 和大模型;没有开发者的兴起和爆发,也就不会有 AI 应用的爆发。正是数据的力量铸就了今日的 AI 与大模型,而开发者生态的蓬勃发展和持续创新,是真正推动 AI 应用爆发的核心引擎。

AI 的发展其实并不是一帆风顺,甚至它不是线性的。这已经是 AI 的第四次爆发式发展了,AI 终于变得通用,这里蕴藏着巨大的市场机会和商业机会。当 ChatGPT 发布的时候,你会看到很多原有需要做专用模型的任务,包括翻译、写作、对话等等都只是需要这一个智能模型,从我们的视角看过来,这是符合“长尾理论”的。知名科技杂志《连线》前主编 Chris Anderson 在早年著作中提出的经典案例:在书中,他以亚马逊书店为例指出,其成功关键在于将稀缺难寻的长尾书籍悉数纳入销售体系,也就是它把所有难找、长尾的书本全部上架了。这背后遵循的幂律法则对技术从业者而言并不陌生——当海量长尾需求聚合时,其总和将超越任何单一主流市场的规模。

今天 AGI 意味着什么?当前 AGI 的突破在于单个模型或解决方案能够完成多个细分 AI 任务。随着这些基础功能的实现,我们预见将涌现出指数级增长的长尾应用需求。这些需求的叠加效应极有可能超越现有 AI 市场的总和,预示着一场由技术革命驱动的商业爆发即将来临。更多的人会享受到更大更好的 AI 服务。对于基础设施开发者和技术团队则面临三重挑战——构建足以支撑海量需求的服务架构,持续降低计算成本,以及不断突破智能系统的性能极限。唯有在规模效应、成本控制和技术突破三个维度同步推进,方能把握这场智能革命的战略机遇。

对数据意味着什么?“数据的边界决定着智能的上限”—这句话很多人都有共识。物理学家费曼的名言“我无法创造的即我无法理解”也尤为深刻,成为生成式人工智能的指引。在此启示下,我们可以说:无法数字化即无法智能化。一方面,数字化的过程即是创造智能的过程:模型本身需要数据,将物理世界转化为数字形态,不论是文字还是影像,都是人类智能的结晶。从另外一方面说,当前大模型面临的大多数幻觉问题,其本质源于特定领域的数据缺失或质量缺陷——当模型遭遇数据空白区域时,由于模型训练目标是流畅表达,基于概率的生成会导致预测失准。这一认知反向印证了基础逻辑:优化数据质量与完善数据体系,才是解决幻觉最源头应该去做的事情。

今天,我们认为 AGI 在数据领域依然面临很多的挑战,这里简单跟大家分享一下我们的看法:

一是数据的获取成本显著增加。OpenAI 前首席科学家 Ilya Sutskever 曾用"数据是人工智能的化石原料"的隐喻揭示行业困境:作为大模型训练基石的互联网公开数据资源已接近枯竭。这种枯竭并非物理意义上的耗尽,而是指唾手可得的、廉价的数据资源已被用完。因为互联网上的数据,大家都可以 Free Access。廉价数据用完了,就只剩真正昂贵的数据。未来一个企业成功与否,我们判断不是看它如何消费数据、应用数据,而是看它如何能够高效率地产生高质量的数据,这将成为未来任何一个数字化企业的成功标准。

二是行业数据流通难。我们观察到一个本质的问题,行业严谨性与数据可得性呈反向关系,越严谨的行业数据越稀缺。高严谨性行业(如法律、医疗)存在三重特征:数字化进程滞后、数据质量要求严苛、核心数字化知识沉淀不足,这共同导致了高质量数据的结构性缺失。而生成式 AI 在专业领域的有效应用,既需要高密度的垂直领域知识(包括形式逻辑、因果推理等认知范式),又依赖跨行业知识迁移能力。以 DeepSeek-R1 为例,其通过代码逻辑向文本创作迁移已验证技术可行性,但专业领域的智能化突破仍面临关键瓶颈——如何系统性地将行业特有的思维范式、专业规则等隐性知识转化为可计算模型?该瓶颈若无法突破,将严重制约专业领域的智能化进程。

三是多模态数据处理难。我认为不可忽视的核心一点是,我们身处的世界是三维的,并不像语言一样是线性的。未来的数据不仅仅包括文本,也包含大量的视觉、触觉信息,包括机器人领域的本体感觉等一系列维度。可以预见,即便当前大模型已经能够处理数十亿量级文本单元(Token),未来数据规模仍将呈指数级增长。面对未来更海量的数据,我们将如何处理,这也是另外一个非常大的挑战。

四是质量评估难。大家知道大模型最难的一个问题是怎么评估,评估的质量又决定模型的质量。评估到底是什么?评估本身也是数据,它需要大量的评估数据,需要大量具备人类思维,或者人类知识数据。这些数据如何获取也是一个很大的挑战,不然我们训练大模型永远就像“炼丹”一样,只有出炉了之后才知道好不好。

以上问题是目前我们观察到的挑战。应该如何攻克它,这是个 Open Question,很多公司都在尝试攻克,能够解决任何一个问题都有可能成为一个伟大的商业公司。我们有一句话可以分享给大家:未来所有数据公司都将成为 AI 公司。

OceanBase 是为理想而生,更是为场景而生。过去 OceanBase 自研海量交易数据的技术创新,应用到蚂蚁集团的内部场景,我们针对当年所面临的 IOE 架构的挑战,率先应用了全分布式的数据库架构。在这个之上,我们构建了包括容灾、海量数据服务能力等技术体系。可以毫不谦逊的说,OceanBase 是蚂蚁集团持续创新,突破行业技术难题的代表。面向未来,我坚信 OceanBase 将为实现 AGI 梦想继续绽放。在上述的问题里,我相信 OceanBase 将大有可为。

蚂蚁集团将支持 OceanBase 突破一些关键的 AI 场景,包括在金融、医疗、生活等蚂蚁 AI 的核心场景突破,支持 OceanBase 实践 Data × AI 的理念和架构创新。今天 AI 的竞争已经进入到深水区,AI 的竞争不仅仅只是模型的竞争,它更加是一个公司乃至行业基础设施的竞争,基础设施的效果将直接决定模型的效果。

同时,蚂蚁集团将继续支持 OceanBase 开源开放,把 Data × AI 的能力逐渐开放给行业,为整个社会提供 Data × AI 的 Infra 创新服务,我们想借助一点小小的力量,为我们的行业,为 AGI 的梦想添砖加瓦。

最后,我想以印在 50 英镑上的图灵名言结束今天的分享:“这不过是将来之事的序章,也不过是将来之事的影子。”AGI 的梦想很大,期待与各位开发者同行。谢谢!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82382.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python网络爬虫的基本使用

各位帅哥美女点点关注,有关注才有动力啊 网络爬虫 引言 我们平时都说Python爬虫,其实这里可能有个误解,爬虫并不是Python独有的,可以做爬虫的语言有很多例如:PHP、JAVA、C#、C、Python。 为什么Python的爬虫技术会…

网页模板素材网站 web前端网页制作模板

在当今数字化时代,Web 前端网页制作对于企业和个人来说至关重要。无论是企业官网、个人博客还是电商网站,一个美观、功能性强且易于维护的网页设计能够有效提升用户体验和品牌形象。然而,从零开始设计一个网页往往需要耗费大量的时间和精力&a…

ROS系列(一):ROS入门指南 —— 核心解析与版本演进

引言 机器人操作系统(ROS)的诞生,不仅是一场技术革命,更是一张重新定义机器人开发范式的蓝图。从实验室的原型验证到工业场景的规模化落地,从单机智能到群体协作,ROS以开源、模块化和生态驱动的特性&#…

将 Docker 镜像推送到 GitLab Container Registry 的完整步骤

一、前提准备 GitLab 项目: 在 GitLab 上拥有一个项目,例如 your-group/your-project-name。重要: 确保项目路径(尤其是项目名称部分)全部使用小写字母。例如,如果初始是 Your-Project,请在项目设置中将其路径修改为 y…

Java-HashMap基础与扩展学习总结

​面试官​: “HashMap 是 Java 中最常用的数据结构之一,你能说说它的底层实现吗?比如哈希冲突是怎么解决的?” ​你​(结合源码与优化场景): “好的,HashMap 底层是数组链表/红黑…

嵌入式学习之系统编程(五)进程(2)

一、进程的退出 (一)僵尸进程与孤儿进程 (二)相关函数 1、exit函数 2、_exit函数 3、atexit函数 二、进程空间的回收(相关函数) 1、wait函数 2、waitpid函数 3、练习 4、exec族 5、system函数 一…

AI时代新词-Transformer架构:开启AI新时代的关键技术

一、什么是Transformer架构? Transformer架构 是一种基于自注意力机制(Self-Attention Mechanism)的深度学习模型架构,最初由Vaswani等人在2017年的论文《Attention Is All You Need》中提出。它主要用于处理序列数据&#xff08…

基于cornerstone3D的dicom影像浏览器 第二十三章 mpr预设窗值与vr preset

文章目录 前言一、mpr窗口预设窗值二、vr preset三、调用流程 前言 实现mpr窗口预设窗值,vr窗口预设配色 效果如下: 一、mpr窗口预设窗值 可参考 第十五章 预设窗值 逻辑一样的,把windowWidth, windowCenter值转换为voiRange值,…

shell之通配符及正则表达式

通配符与正则表达式 通配符(Globbing) 通配符是由 Shell 处理的特殊字符,用于路径或文件名匹配。当 Shell 在命令参数中遇到通配符时,会将其扩展为匹配的文件路径;若没有匹配项,则作为普通字符传递给命令…

继电保护与安全自动装置:电力系统安全的守护神

电力系统是现代社会赖以生存的基础设施,而继电保护和安全自动装置则是保障电力系统安全稳定运行的守护神。 它们默默无闻地工作着,在电力系统出现异常时,能够迅速准确地切除故障,防止事故扩大,保障电力供应。 那么&…

Flink流处理基础概论

文章目录 引言Flink基本概述传统数据架构的不足Dataflow中的几大基本概念Dataflow流式处理宏观流程数据并行和任务并行的区别Flink中几种数据传播策略Flink中事件的延迟和吞吐事件延迟事件的吞吐如何更好的理解事件的延迟和吞吐flink数据流的几种操作输入输出转换操作滚动聚合窗…

Tomcat 使用与配置全解

一、 Tomcat简介 Tomcat服务器是Apache的一个开源免费的Web容器。它实现了JavaEE平台下部分技术规范,属于轻量级应用服务器。 1. Tomcat版本 Tomcat版本 JDK版本 Servlet版本 JSP版本 10.0.X 8 and later 5.0 3.0 9.0.x 8 and later 4.0 2.3 8.0.x 7…

Unity3D仿星露谷物语开发52之菜单页面

1、目标 创建菜单页面,可通过Esc键开启或关闭。 当把鼠标悬停在上面时它会高亮,然后当点击按钮时标签页会被选择。 2、 创建PauseMenuCanvas (1)创建Canvas 在Hierarchy -> PersistentScene -> UI下创建新的Cavans命名为…

Spring Boot 调优的 12 个关键节点

数据库连接池调优:精准匹配系统资源 症状: 默认配置下,连接池资源使用不当,高并发时连接耗尽或排队。 常见误区: spring:datasource:hikari:maximum-pool-size: 1000 # 设置过大connection-timeout: 30000 # 设置…

前端流行框架Vue3教程:28. Vue应用

28. Vue应用 应用实例 每个 Vue 应用都是通过 createApp函数创建一个新的 应用实例 main.js import {createApp} from vue import App from ./App.vue// app:Vue的实例对象 // 在一个Vue项目中,有且只有一个Vue的实例对象 const app createApp(App)/* 根组件选项…

MongoDB 数据库迁移:完整指南与最佳实践

在现代数据驱动的应用中,数据库迁移是一项常见的任务,无论是升级 MongoDB 版本、更换服务器硬件,还是迁移到云环境(如 MongoDB Atlas),都需要一个可靠的迁移策略。错误的迁移方式可能导致数据丢失、应用停机…

MQTT-Vue整合

Vue整合 依赖环境 nodejs 版本 > 18安装 element plus npm install element-plus安装 mqtt npm install mqtt初始化Vue项目 使用 vite 创建项目 执行命令 npm create vitelatest输入项目名称 vue-mqtt-demo MQTT连接 连接组件代码 components/MqttDemo.vue <script…

IP 地址反向解析(IP反查域名)原理与应用

一、IP 地址反向解析的原理与技术细节 IP 地址反向解析&#xff08;Reverse IP Lookup&#xff09;是一种将 IP 地址映射回其关联域名或主机名的网络技术&#xff0c;与常见的正向 DNS 解析&#xff08;将域名解析为 IP 地址&#xff09;形成互补。这一过程在网络安全研究、漏…

Mermaid 文件支持的图表

Mermaid 文件后缀支持多种类型的图表&#xff0c;包括但不限于&#xff1a; 流程图&#xff1a;用于描述流程和决策的图表&#xff0c;常用于业务流程的表示和分析。 时序图&#xff1a;用于描述事件发生的顺序和时序关系的图表&#xff0c;常用于系统交互和消息传递的分析。 …

用 Python 构建自动驾驶的实时通信系统:让车辆“交流”起来!

用 Python 构建自动驾驶的实时通信系统:让车辆“交流”起来! 自动驾驶技术正加速变革全球交通体系,它不仅是机器学习与计算机视觉的胜利,更是一场 高效通信架构的革命。自动驾驶汽车需要实时交换信息,比如: 传感器数据(雷达、激光雷达、摄像头)V2V(车与车通信)V2X(…