阿里云携手MiniMax构建云原生数仓最佳实践：大模型时代的 Data + AI 数据处理平台

MiniMax简介

MiniMax是全球领先的通用人工智能科技公司。自2022年初成立以来，MiniMax以“与所有人共创智能”为使命，致力于推动人工智能科技前沿发展，实现通用人工智能(AGI）。MiniMax自主研发了一系列多模态通用大模型，包括MiniMax M1、Hailuo 02、Speech 2.5 和Music 01等，具备超长上下文处理能力，能够理解、生成并整合包括文本、音频、图像、视频和音乐在内的多种模态。自研模型的飞速进展，有力支撑了MiniMax的全球业务拓展。迄今，MiniMax的自研多模态模型及AI原生应用已累计为来自超过200个国家及地区的逾1.57亿名个人用户，以及来自超过90个国家及地区的50,000余名企业客户以及开发者提供服务。

业务大数据实践：数据驱动MiniMax业务高效迭代

业务痛点

自2024年起，MiniMax的海螺AI、MiniMax Audio和星野等业务在国内外迎来快速增长，用户数据量呈现爆发式增长，快速攀升至数十PB级别，给数据平台的建设带来了诸多技术挑战：

1、异构架构的效率瓶颈

技术栈碎片化：前期MiniMax在国内和海外引入了不同云厂商，部署独立数据平台，需要开发团队同时维护多套不同引擎的开发规范
开发效率低：基于开源Dolphin Scheduler二次开发自建大数据治理工具，功能迭代和维护成本高，无法高效满足快速发展的业务需求
运维成本高：双系统并行导致权限治理、资源监控、故障排查等运维工作需要跨平台执行，管理成本线性增长

2、资源成本与利用率失衡

TCO高昂：部分云服务按量付费模式导致数据扫描、数据传输、计算节点运行时间等成本难以预测和控制
资源利用率低：部分云服务成熟度不足，在大规模实时数仓等复杂场景下优化效果有限
资源优化瓶颈：开源大数据组件的任务优化高度依赖人工经验，调优工作耗费大量人力成本

阿里云原生数仓解决方案

阿里云协助MiniMax构建了全球一体化云原生数仓技术架构，该架构以阿里云数据开发治理平台Dataworks作为一站式开发治理中枢，实现了异构数据源接入、流批计算融合、实时离线数据协同及数据生命周期全链路管理

1、数据源层

聚合多模异构存储，覆盖OLTP、非结构化数据及实时流数据

2、计算层

数据治理：DataWorks实时数据集成提供异构数据源到数仓的一站式同步能力，具备完善的元数据管理、质量监控和权限管控功能
实时计算：基于阿里云实时计算Flink版处理Kafka流式数据，支撑低延时实时处理
实时数仓：Hologres支撑海量数据实时写入、更新与分析，提供亚秒级响应能力
离线数仓：MaxCompute承担批量数据加工处理，支撑复杂离线分析场景
数据检索：Elasticsearch承载Flink处理后的近实时数据，满足全文检索和即席查询需求

3、存储层

对象存储OSS作为冷数据存储层，无缝对接MaxCompute，实现数据智能冷热分层，优化成本与性能平衡

业务价值

基于阿里云云原生数仓解决方案，MiniMax构建了覆盖全球业务的一体化数仓技术栈，依托高性能、低延时与 Serverless 快速弹性能力，为经营分析、用户增长等关键业务场景提供了高效稳定的技术支撑。

1、数据入仓加速，决策效率提升

通过DataWorks可视化ETL实现数据源到Hologres的实时全量与增量同步，利用MaxCompute和Hologres的跨引擎数据联邦能力，构建实时存储与离线计算解耦架构，关键数据入仓时间提前约1小时，显著提升业务决策时效性。

2、架构统一，运维效率提升

全球统一技术栈基于阿里云云原生数仓的Serverless存算分离架构，大幅降低运维复杂度，提升团队交付效率。

3、稳定支撑大规模数据处理

基于DataWorks、 MaxCompute、Hologres等构建的一站式大数据平台，实现开发、调度、运维与治理全链路统一管理，当前数据总量超数十PB，日均处理量达数百TB。

4、资源利用率优化，成本显著降低

通过存算分离、算子优化等技术手段，计算资源用量降低50%，后续通过进一步优化计算资源利用率，计算资源用量整体降低75%；通过数据生命周期管理策略，存储成本降低40%，实现性能与成本的最优平衡。

基于阿里云 MaxFrame 构建云原生数据流水线：赋能AI工作流加速

在大模型技术迅猛发展的背景下，数据与人工智能的深度融合已成为企业构建核心竞争力的关键要素。大模型训练持续驱动大规模数据处理技术升级迭代，对计算弹性、预处理算子性能及统一数据治理体系提出了更高要求。基于 MiniMax 在阿里云云原生数仓解决方案上的深度业务实践，双方正持续探索更先进的大规模数据处理与AI融合解决方案，致力于通过阿里云MaxFrame等新一代计算框架，进一步提升数据处理效能，加速AI创新落地。

业务痛点

1、资源弹性瓶颈

模型训练节奏快，常需临时调用大规模弹性资源，对PB级数据进行短时高效预处理，并在任务完成后快速释放资源。传统架构难以兼顾资源弹性、处理时效与成本控制。

2、预处理算子性能不足

数据预处理过程中常出现文件大小限制、内存溢出（OOM）、全量MinHash去重任务无法完成等问题，导致作业成功率低、稳定性差，严重影响整体流程效率。

3、缺乏统一任务管理与可视化支持

原有流程依赖Python程序完成开发、调试与生产任务，缺少可视化任务开发、管理、调度和运维能力，多参数迭代效果评估困难，开发效率低下。

4、开发与运维人力投入受限

自研数据预处理（如Common Crawl数据集处理等）需投入大量人力进行开发与维护，团队难以专注于核心AI业务创新。

解决方案

MiniMax基于阿里云MaxCompute构建了全托管、一站式 Data + AI 数据处理平台，并通过MaxFrame分布式计算框架实现了对多类数据（结构化与非结构化、多模态等）的统一管理与弹性伸缩的大规模预处理能力：

1、阿里云自研分布式计算框架，统一 Python 开发生态，同时无缝对接MaxCompute 计算资源、数据;

2、提供兼容开源的分布式算子，如 Pandas、Minhash 等，大大提高数据处理效率;

3、支持分布式数据处理、离线推理等场景，构建 Data + AI 开发整体 Pipeline;

4、提供开箱即用的 Python 环境，支持用户自定义镜像，提供更便捷的开发体验。

业务价值

通过引入MaxFrame分布式计算框架，MiniMax在资源利用率、处理效率与平台架构方面实现显著提升：

1、资源利用率显著提高

借助MaxCompute“包月固定资源+按需弹性资源”组合模式，MiniMax可根据业务周期灵活调配资源，高峰时段支持数十万核计算资源的快速弹性扩展；
实现计算资源利用率提升30%，在资源效率与成本间取得最优平衡；
通过MaxCompute原生存储冷热分层能力，对低热度大表自动实施低频/长期存储策略，历史数据存储成本降低40%。

2、分布式计算框架带来性能突破

基于MaxFrame构建的分布式计算架构替代原有开源方案，其内置高性能Minhash等优化算子，缩短大模型数据预处理任务耗时；
加载FastText模型完成文本分类任务，利用MaxCompute弹性CPU资源执行批量推理，显著提升处理效率。

3、数据平台完成架构升级，运维效率提升

基于MaxCompute MaxFrame构建国内外一体化Data+AI数据处理平台，依托全托管云原生PaaS能力，显著降低自研与维护成本，运维资源投入减少50%；
实现开发、调度、运维闭环统一管理，支持多模态数据与复杂AI工作流的高效协同。

总结与展望

MiniMax与阿里云开展深度技术协同，在大模型时代成功构建了以云原生数据仓库为核心的高效、低成本Data+AI一体化数据处理平台，有效应对业务高速迭代与弹性扩展挑战。该方案不仅实现了数据处理效能的显著提升和运营成本的大幅优化，也为大模型驱动下的AI应用研发提供了可广泛复用的工程范式。未来，双方将持续深化在大模型数据预处理、多模态数据处理等前沿场景的联合创新，共同推动Data+AI技术在全球范围内的规模化产业应用。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。
如若转载，请注明出处：http://www.pswp.cn/pingmian/95520.shtml
繁体地址，请注明出处：http://hk.pswp.cn/pingmian/95520.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！