阿里云携手MiniMax构建云原生数仓最佳实践:大模型时代的 Data + AI 数据处理平台

MiniMax简介

MiniMax是全球领先的通用人工智能科技公司。自2022年初成立以来,MiniMax以“与所有人共创智能”为使命,致力于推动人工智能科技前沿发展,实现通用人工智能(AGI)。MiniMax自主研发了一系列多模态通用大模型,包括MiniMax M1、Hailuo 02、Speech 2.5 和Music 01等,具备超长上下文处理能力,能够理解、生成并整合包括文本、音频、图像、视频和音乐在内的多种模态。自研模型的飞速进展,有力支撑了MiniMax的全球业务拓展。迄今,MiniMax的自研多模态模型及AI原生应用已累计为来自超过200个国家及地区的逾1.57亿名个人用户,以及来自超过90个国家及地区的50,000余名企业客户以及开发者提供服务。

业务大数据实践:数据驱动MiniMax业务高效迭代

业务痛点

自2024年起,MiniMax的海螺AI、MiniMax Audio和星野等业务在国内外迎来快速增长,用户数据量呈现爆发式增长,快速攀升至数十PB级别,给数据平台的建设带来了诸多技术挑战:

1、异构架构的效率瓶颈

  • 技术栈碎片化:前期MiniMax在国内和海外引入了不同云厂商,部署独立数据平台,需要开发团队同时维护多套不同引擎的开发规范
  • 开发效率低:基于开源Dolphin Scheduler二次开发自建大数据治理工具,功能迭代和维护成本高,无法高效满足快速发展的业务需求
  • 运维成本高:双系统并行导致权限治理、资源监控、故障排查等运维工作需要跨平台执行,管理成本线性增长

2、资源成本与利用率失衡

  • TCO高昂:部分云服务按量付费模式导致数据扫描、数据传输、计算节点运行时间等成本难以预测和控制
  • 资源利用率低:部分云服务成熟度不足,在大规模实时数仓等复杂场景下优化效果有限
  • 资源优化瓶颈:开源大数据组件的任务优化高度依赖人工经验,调优工作耗费大量人力成本

阿里云原生数仓解决方案

阿里云协助MiniMax构建了全球一体化云原生数仓技术架构,该架构以阿里云数据开发治理平台Dataworks作为一站式开发治理中枢,实现了异构数据源接入、流批计算融合、实时离线数据协同及数据生命周期全链路管理

1、数据源层

聚合多模异构存储,覆盖OLTP、非结构化数据及实时流数据

2、计算层

  • 数据治理:DataWorks实时数据集成提供异构数据源到数仓的一站式同步能力,具备完善的元数据管理、质量监控和权限管控功能

  • 实时计算:基于阿里云实时计算Flink版处理Kafka流式数据,支撑低延时实时处理

  • 实时数仓:Hologres支撑海量数据实时写入、更新与分析,提供亚秒级响应能力

  • 离线数仓:MaxCompute承担批量数据加工处理,支撑复杂离线分析场景

  • 数据检索:Elasticsearch承载Flink处理后的近实时数据,满足全文检索和即席查询需求

3、存储层

对象存储OSS作为冷数据存储层,无缝对接MaxCompute,实现数据智能冷热分层,优化成本与性能平衡

业务价值

基于阿里云云原生数仓解决方案,MiniMax构建了覆盖全球业务的一体化数仓技术栈,依托高性能、低延时与 Serverless 快速弹性能力,为经营分析、用户增长等关键业务场景提供了高效稳定的技术支撑。

1、数据入仓加速,决策效率提升

通过DataWorks可视化ETL实现数据源到Hologres的实时全量与增量同步,利用MaxCompute和Hologres的跨引擎数据联邦能力,构建实时存储与离线计算解耦架构,关键数据入仓时间提前约1小时,显著提升业务决策时效性。

2、架构统一,运维效率提升

全球统一技术栈基于阿里云云原生数仓的Serverless存算分离架构,大幅降低运维复杂度,提升团队交付效率。

3、稳定支撑大规模数据处理

基于DataWorks、 MaxCompute、Hologres等构建的一站式大数据平台,实现开发、调度、运维与治理全链路统一管理,当前数据总量超数十PB,日均处理量达数百TB。

4、资源利用率优化,成本显著降低

通过存算分离、算子优化等技术手段,计算资源用量降低50%,后续通过进一步优化计算资源利用率,计算资源用量整体降低75%;通过数据生命周期管理策略,存储成本降低40%,实现性能与成本的最优平衡。

基于阿里云 MaxFrame 构建云原生数据流水线:赋能AI工作流加速

在大模型技术迅猛发展的背景下,数据与人工智能的深度融合已成为企业构建核心竞争力的关键要素。大模型训练持续驱动大规模数据处理技术升级迭代,对计算弹性、预处理算子性能及统一数据治理体系提出了更高要求。基于 MiniMax 在阿里云云原生数仓解决方案上的深度业务实践,双方正持续探索更先进的大规模数据处理与AI融合解决方案,致力于通过阿里云MaxFrame等新一代计算框架,进一步提升数据处理效能,加速AI创新落地。

业务痛点

1、资源弹性瓶颈

模型训练节奏快,常需临时调用大规模弹性资源,对PB级数据进行短时高效预处理,并在任务完成后快速释放资源。传统架构难以兼顾资源弹性、处理时效与成本控制。

2、预处理算子性能不足

数据预处理过程中常出现文件大小限制、内存溢出(OOM)、全量MinHash去重任务无法完成等问题,导致作业成功率低、稳定性差,严重影响整体流程效率。

3、缺乏统一任务管理与可视化支持

原有流程依赖Python程序完成开发、调试与生产任务,缺少可视化任务开发、管理、调度和运维能力,多参数迭代效果评估困难,开发效率低下。

4、开发与运维人力投入受限

自研数据预处理(如Common Crawl数据集处理等)需投入大量人力进行开发与维护,团队难以专注于核心AI业务创新。

解决方案

MiniMax基于阿里云MaxCompute构建了全托管、一站式 Data + AI 数据处理平台,并通过MaxFrame分布式计算框架实现了对多类数据(结构化与非结构化、多模态等)的统一管理与弹性伸缩的大规模预处理能力:

1、阿里云自研分布式计算框架,统一 Python 开发生态,同时无缝对接MaxCompute 计算资源、数据;

2、提供兼容开源的分布式算子,如 Pandas、Minhash 等,大大提高数据处理效率;

3、支持分布式数据处理、离线推理等场景,构建 Data + AI 开发整体 Pipeline;

4、提供开箱即用的 Python 环境,支持用户自定义镜像,提供更便捷的开发体验。

业务价值

通过引入MaxFrame分布式计算框架,MiniMax在资源利用率、处理效率与平台架构方面实现显著提升:

1、资源利用率显著提高

  • 借助MaxCompute“包月固定资源+按需弹性资源”组合模式,MiniMax可根据业务周期灵活调配资源,高峰时段支持数十万核计算资源的快速弹性扩展;

  • 实现计算资源利用率提升30%,在资源效率与成本间取得最优平衡;

  • 通过MaxCompute原生存储冷热分层能力,对低热度大表自动实施低频/长期存储策略,历史数据存储成本降低40%。

2、分布式计算框架带来性能突破

  • 基于MaxFrame构建的分布式计算架构替代原有开源方案,其内置高性能Minhash等优化算子,缩短大模型数据预处理任务耗时;

  • 加载FastText模型完成文本分类任务,利用MaxCompute弹性CPU资源执行批量推理,显著提升处理效率。

3、数据平台完成架构升级,运维效率提升

  • 基于MaxCompute MaxFrame构建国内外一体化Data+AI数据处理平台,依托全托管云原生PaaS能力,显著降低自研与维护成本,运维资源投入减少50%;

  • 实现开发、调度、运维闭环统一管理,支持多模态数据与复杂AI工作流的高效协同。

总结与展望

MiniMax与阿里云开展深度技术协同,在大模型时代成功构建了以云原生数据仓库为核心的高效、低成本Data+AI一体化数据处理平台,有效应对业务高速迭代与弹性扩展挑战。该方案不仅实现了数据处理效能的显著提升和运营成本的大幅优化,也为大模型驱动下的AI应用研发提供了可广泛复用的工程范式。未来,双方将持续深化在大模型数据预处理、多模态数据处理等前沿场景的联合创新,共同推动Data+AI技术在全球范围内的规模化产业应用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/95520.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/95520.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一键生成PPT的AI工具排名:2025年能读懂你思路的AI演示工具

人工智能正在重塑PPT制作方式,让专业演示变得触手可及。随着人工智能技术的飞速发展,AI生成PPT工具已成为职场人士、学生和创作者提升效率的得力助手。这些工具通过智能算法,能够快速将文本、数据或创意转化为结构化、视觉化的演示文稿&#…

数据库基础知识——聚合函数、分组查询

目录 一、聚合函数 1.1 count 1.1.1 统计整张表中所有记录的总条数 1.1.2 统计单列的数据 1.1.3 统计单列记录限制条件 1.2 sum 1.3 avg 1.4 max, min 二、group by 分组查询 2.1 语法 2.2 示例 2.3 having 一、聚合函数 常用的聚合函数 函数说明count ([distinc…

改 TDengine 数据库的时间写入限制

一 sql连数据库改 改 TDengine 数据库的时间写入限制 之前默认了可写入时间为一个月,调整为10年,方便测试: SHOW DATABASES;use wi; SELECT CONCAT(ALTER TABLE , table_name, KEEP 3650;) FROM information_schema.ins_tables WHERE db_…

数码视讯TR100-OTT-G1_国科GK6323_安卓9_广东联通原机修改-TTL烧录包-可救砖

数码视讯TR100-OTT-G1_国科GK6323_安卓9_广东联通原机修改-TTL烧录包-可救砖刷机教程数码视讯 TR100-G1 TTL 烧录刷机教程固件由广东联通 TR100-G1 28 原版修改,测试一切正常1、把刷机文件解压出 备用,盒子主板接好 TTL,不会接自行查找 TTl 接…

TVS防护静电二极管选型需要注意哪些参数?-ASIM阿赛姆

TVS防护静电二极管选型关键参数详解TVS(Transient Voltage Suppressor)二极管作为电路防护的核心器件,在电子设备静电防护(ESD)、浪涌保护等领域发挥着重要作用。本文将系统性地介绍TVS二极管选型过程中需要重点关注的参数指标,帮助工程师做出合理选择。…

项目经理为什么要有一张PMP®认证?

在项目管理日益成为企业核心竞争力的今天,PMP已成为项目经理职业发展的重要“通行证”。这张由美国项目管理协会(PMI)颁发的全球公认证书,不仅是专业能力的象征,更在职业竞争力、项目成功率、团队协作等多个维度为项目…

Qt中QSettings的键值使用QDataStream进行存储

1. QDataStream介绍 数据流是编码信息的二进制流,与主机的操作系统、CPU 或字节顺序完全无关。例如,Windows 系统下 PC 写入的数据流可由运行 Solaris 的 Sun SPARC 读取。 您还可以使用数据流读/写raw unencoded binary data 。如果需要 "解析 &…

Typer 命令行工具使用示例

Typer 命令行工具使用示例 示例1:简单问候程序 代码 import typerapp typer.Typer()app.command() def greet(name: str):"""简单的问候命令"""typer.echo(f"Hello {name}!")if __name__ "__main__":app()使用…

关于CAN总线bus off 理论标准 vs 工程实践

我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 做到欲望极简,了解自己的真实欲望,不受外在潮流的影响,不盲从,不跟风。把自己的精力全部用在自己。一是去掉多余,凡事找规律,基础是诚信;二是…

CAN堆栈

PDU映射到HOH将硬件对象句柄HOH抽象成为硬件抽象层CanIf将pdu映射到硬件对象句柄上一个HOH代表一个Can控制器的一个消息缓冲区发送缓存区当所有Can硬件资源被占用时,LPDU存储在缓冲区中。发送取消为了解决优先级反转的问题,高优先级L-PDU会请求取消低优先…

sub3G和sub6G的区别和联系

Sub-3G 和 Sub-6G 的区别与联系Sub-3G 和 Sub-6G 是无线通信中频段的不同分类,尤其在4G LTE和5G网络中,定义了无线信号传输的不同频率范围。具体来说,Sub-3G 通常指的是低于3 GHz的频段,而 Sub-6G 是指低于6 GHz的频段。这些频段的…

【数据可视化-106】华为2025上半年财报分析:用Python和Pyecharts打造炫酷可视化大屏

🧑 博主简介:曾任某智慧城市类企业算法总监,目前在美国市场的物流公司从事高级算法工程师一职,深耕人工智能领域,精通python数据挖掘、可视化、机器学习等,发表过AI相关的专利并多次在AI类比赛中获奖。CSDN…

Scikit-learn Python机器学习 - 特征预处理 - 归一化 (Normalization):MinMaxScaler

锋哥原创的Scikit-learn Python机器学习视频教程: 2026版 Scikit-learn Python机器学习 视频教程(无废话版) 玩命更新中~_哔哩哔哩_bilibili 课程介绍 本课程主要讲解基于Scikit-learn的Python机器学习知识,包括机器学习概述,特征工程(数据…

LINUX_Ubunto学习《2》_shell指令学习、gitee

0、前言: 0.1、为什么学习shell脚本 学习Shell(Shell脚本编程)是提升系统管理和开发效率的重要技能,尤其在Linux/Unix环境中作用显著。Shell是用户与操作系统内核的接口,学习Shell有助于掌握系统工作原理。shell的核心…

系统安装与迁移工具,一键下载系统并制作U盘启动盘

大家好,今天想跟大家分享一款非常实用的软件——Hasleo WinToUSB 下载地址获取 点击获取:WinToUSB启动盘 打开后的界面; image Windows To Go USB 可以安装或克隆 Windows 到 USB 设备,作为便携式 Windows 使用 可以选择直接用…

日语学习-日语知识点小记-构建基础-JLPT-N3阶段(26):文法+单词第8回3 复习 +考え方6

日语学习-日语知识点小记-构建基础-JLPT-N3阶段(26):文法单词第8回3 复习1、前言(1)情况说明(2)工程师的信仰2、知识点1ー V辞書形 + ことができます。2ーこの橋、&am…

AM J BOT | 黄芪稳健骨架树构建

Astragalus(黄芪属,豆科,含约 3,400 种)是最大的被子植物属之一,其多样化在北半球多个地区的植被形成与生物多样性格局中扮演了重要角色。然而,由于属内物种数量庞大、形态复杂且演化历史可能受到网状进化的…

if __name__=‘__main__‘的用处

在 Python 中,if __name__ __main__:是一个常见的代码模式,用于控制模块的执行行为。它的核心作用是区分模块是被直接运行还是被导入到其他文件中。作用详解:​当文件被直接运行时​__name__会被自动设置为 __main__,此时 if块内…

MySQL慢查询优化策略

一、问题定位 1、慢查询日志 -- 查看当前设置 SHOW VARIABLES LIKE slow_query%; ​ -- 开启慢查询日志(my.cnf永久配置) [mysqld] slow_query_log 1 slow_query_log_file /var/log/mysql/slow.log long_query_time 1 -- 超过1秒的查询 log_querie…

如何使用 ASP.NET Core 创建基于角色的 Web API

在使用 ASP.NET Core 构建基于角色的 Web API 时,代码优先方法是一种强大而高效的方法。使用它,我们可以在代码中定义数据模型和关系,然后自动生成相应的数据库模式。这会带来什么?当然是更快的开发周期和更大的灵活性。为什么&am…