云原生与 AI 驱动下的数据工程新图景——解读 DZone 2025 数据工程趋势报告【附报告下载】

在 AI 技术从“实验性”走向“企业级落地”的关键阶段,数据工程作为底层支撑的重要性愈发凸显。近日,DZone 发布的《2025 数据工程趋势报告》(Scaling Intelligence with the Modern Data Stack)通过对全球 123 位 IT 专业人士的调研,揭示了当前数据工程领域的核心趋势、技术选型偏好与实践痛点。本文将梳理报告的核心发现,并解读其对数据工程师、架构师及技术管理者的实践价值。

在这里插入图片描述

一、报告概览:调研背景与核心基调

DZone 本次调研覆盖了全球范围内的开发者、架构师等 IT 从业者,样本呈现三大特征:

  • 角色集中:32%为“开发者/工程师”,10%为“开发团队负责人”,核心受访者均深度参与数据系统构建;
  • 技术栈成熟:80%企业使用 Python 生态,50%从业者以 Python 为主要工作语言,Java(22%)位居第二;
  • 经验丰富:受访者平均 IT 从业经验达 14.65 年,中位数 13 年,反馈具备较强实践参考性。

报告核心基调明确:企业数据能力正从“技术堆砌”转向“整合优化”——不再盲目追逐新工具,而是聚焦成本控制、性能监控与流程编排,以适配 AI 原生架构、实时分析等新需求。

二、核心发现:数据工程的三大“转向”

1. 存储架构:从“混合分散”转向“云原生主导”

数据存储是本次调研的重点领域,结果显示“云原生”已成为不可逆趋势:

  • 云存储占比大幅提升:49%企业主要采用“纯云存储”,较 2024 年的 30%增长 19 个百分点;而混合存储(37%,-11%)、本地私有存储(10%,-10%)占比显著下降;
  • 迁移动机务实化:“维持高可用性”(44%)、“降低成本”(39%)、“提升数据可访问性”(34%)是云迁移的三大核心诉求,其中大企业更倾向通过云迁移实现“现代化改造”与“AI 分析支撑”;
  • 存储架构分层明显:55%企业使用数据仓库,47%使用数据湖,27%使用湖仓一体(Lakehouse);大企业(1000+员工)是“湖仓一体”的主要实践者(38%),小企业(<100 人)因规模限制,数据仓库使用率仅 37%(低于整体 55%)。

在这里插入图片描述

2. 数据安全:从“工具堆砌”转向“体系化落地”

尽管数据安全的重要性达成共识,但实践呈现“认知与落地脱节”的特点:

  • 核心策略集中:62%企业依赖“加密与安全传输”“访问控制与认证”,59%关注“合规性标准”,三者构成安全实践的“铁三角”;
  • 实践 Adoption 下降:与 2024 年相比,“灾难恢复”(-22%)、“数据脱敏”(-21%)、“安全编码”(-22%)等实践的使用率显著下滑,推测与“依赖云厂商默认安全能力”“成本压缩”有关;
  • 威胁感知聚焦:60%企业最担忧“数据泄露”,50%关注“认证与访问控制失效”,43%警惕“不安全数据处理”,中小企业对“弱加密”的担忧更突出(40%,高于大企业 17%)。

在这里插入图片描述

3. 数据管道:从“批量离线”转向“实时 AI 适配”

数据管道是支撑 AI 落地的核心环节,调研显示其正在向“实时化、AI 原生”转型:

  • ETL 工作量高企:从业者平均 30%工作时间用于 ETL/ELT,大企业(35%)与小企业(33%)耗时更高,中型企业(20%)因流程成熟度居中;
  • 工具选型分化:48%企业仍依赖“手动数据库导入/导出”,33%使用“专业 ETL 工具”(较 2024 年下降 11%);大企业更偏好专业工具(40%),小企业则依赖“临时批处理脚本”(43%);
  • AI 数据准备待加强:仅 18%从业者“非常自信”于 AI/ML 数据准备最佳实践,39%通过“API 实时供数”支撑生成式 AI,36%使用向量数据库实现 RAG(检索增强生成),但小企业的数据质量实践覆盖率显著低于大企业。

在这里插入图片描述

三、专家洞见:来自行业一线的实践指南

报告收录了微软、Netflix、Factorial 等企业专家的深度解读,核心聚焦三大方向:

1. 数据架构的“融合与开放”:湖仓一体+开放表格式

Factorial 工程 VP Miguel Garcia Lorenzo 指出,传统数据湖、仓库的边界正在消失,基于开放表格式(如 Apache Iceberg)的湖仓一体成为主流

  • Iceberg 凭借“引擎中立性”“隐藏分区”“元数据管理”优势,成为多引擎(Trino、Flink、DuckDB)共享数据的统一层;
  • 现代架构采用“多引擎策略”:DuckDB 用于嵌入式边缘分析,Trino 用于跨源联邦查询,ClickHouse 用于实时 OLAP,实现“存储与计算解耦”。

2. AI 原生架构的“底层重构”

微软产品经理 Abhishek Gupta 强调,AI 原生架构与传统架构存在本质差异(如下表),需从“数据类型、处理模式、存储选型”全链路重构:

维度传统架构AI 原生架构
数据类型结构化数据文本、图像等多模态数据
处理模式批量 ETL实时流+批量混合
延迟要求小时级-天级毫秒级-秒级
存储核心数据仓库(星型模型)数据湖+向量库+特征库
查询模式SQL 分析向量相似性搜索+传统查询

3. 实时系统的“DataOps 落地”

Netflix 高级工程师 Tulika Bhatt 分享了实时数据系统的 DataOps 实践:

  • schema 版本化:通过 Avro/Protobuf 定义 schema,结合 Apicurio Schema Registry 实现兼容性校验;
  • CI/CD 全自动化:将 Flink 作业、配置文件纳入 Git 管理,通过 GitHub Actions 实现“构建-测试-灰度部署”;
  • 可观测性体系:聚焦 Kafka 消费延迟、Flink checkpoint 时长等核心指标,通过 Prometheus+Grafana 建立业务告警。

四、报告价值:为不同角色提供行动指南

1. 数据工程师:明确工具与技能优先级

  • 工具选型:优先掌握 Python 生态、Apache Iceberg、Kafka/Pulsar 流处理,以及 Prometheus/Grafana 可观测性工具;
  • 技能升级:补充向量数据库(Pinecone、Weaviate)、RAG 数据准备、DataOps 自动化等 AI 相关能力。

2. 架构师:把握技术选型的“平衡术”

  • 存储层:中小企业可从“云存储+数据仓库”起步,大企业推进“湖仓一体+开放表格式”;
  • 安全层:避免“工具堆砌”,聚焦“加密+访问控制+合规”核心,借力云厂商安全能力降低成本;
  • 管道层:根据规模选择“专业 ETL 工具(大企业)”或“脚本+轻量工具(中小企业)”,逐步推进自动化。

3. 技术管理者:平衡“创新与成本”

  • 资源倾斜:向“实时数据管道”“AI 数据质量”等核心环节倾斜预算,优先解决“数据可用性”问题;
  • 团队协同:建立“数据工程师+数据科学家+ML 工程师”跨职能团队,通过 Feature Store、数据目录实现协作效率提升。

五、总结:数据工程的未来三大关键词

  1. 云原生深化:纯云存储将持续替代混合/本地存储,云厂商的“Serverless+托管服务”成为中小企业首选;
  2. AI 驱动重构:向量数据库、实时流处理、开放表格式成为 AI 原生架构的“基础设施”,数据工程与 AI 工程的边界进一步模糊;
  3. DataOps 常态化:实时系统的“自动化部署、可观测性、版本控制”将成为标配,推动数据工程从“手工运维”转向“工程化交付”。

如需深入探索,可参考报告附录的“解决方案目录”——涵盖 DataStax Astra DB(AI 原生 NoSQL)、Langflow(LLM 可视化构建)、Apache Kafka(流处理)等 100+工具的选型指南,为实践落地提供直接参考。

附:报告核心内容脑图大纲

在这里插入图片描述

下载地址

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/100248.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/100248.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

9.5 机器翻译与数据集

语言模型是自然语言处理的关键&#xff0c;而机器翻译是语言模型最成功的基准测试&#xff0c;因为机器翻译正是将输入序列转换成输出序列的序列转换模型的核心问题。序列转码模型在各类现代人工智能应用中国呢发挥着至关重要的作用&#xff0c;因此我们将其作为本章剩余部分和…

Linux 内核镜像与启动组件全解析:从 vmlinux 到 extlinux.conf

&#x1f9e0; Linux 内核镜像与启动组件全解析&#xff1a;从 vmlinux 到 extlinux.conf 在嵌入式 Linux 系统中&#xff0c;启动流程涉及多个关键文件和机制。不同的镜像格式和配置文件承担着不同的职责&#xff0c;从内核编译到 bootloader 加载&#xff0c;再到系统启动。本…

【系统分析师】2024年下半年真题:论文及解题思路

更多内容请见: 备考系统分析师-专栏介绍和目录 文章目录 试题一:论devops在企业信息系统开发中的应用 试题二:论系统业务流程分析方法及应用 试题三:论软件测试方法及应用 试题四:论信息系统运维管理 试题一:论devops在企业信息系统开发中的应用 1、概要叙述你参与管理和…

AI GEO 实战:借百度文小言优化,让企业名称成搜索热词

在当今数字化浪潮中&#xff0c;企业的线上曝光度和搜索可见性至关重要。百度作为国内占据主导地位的搜索引擎&#xff0c;其推出的大模型文小言蕴含着巨大的潜力。通过巧妙运用 AI GEO&#xff08;生成式引擎优化&#xff09;策略&#xff0c;企业完全有可能让自己的公司名称成…

文件操作知识点总结

目录 1.为什么使用文件 2.什么是文件&#xff1f; 2.1 程序文件 2.2 数据文件 2.3 文件名 3.二进制文件和文本文件 4.文件的打开和关闭 4.1 流和标准流 4.1.1 流 4.1.2 标准流 4.2 文件指针 4.3 文件的打开和关闭 4.3.1 fopen函数 4.3.2 fclose函数 5.文件的顺序…

oracle认证有哪几种?如何选择

Oracle&#xff08;甲骨文&#xff09;不仅是全球领先的数据库软件巨头&#xff0c;更是企业级数据管理的代名词&#xff0c;获得Oracle认证&#xff0c;证明可从事Oracle数据库服务器的数据操作和管理等工作。下面给大家详细其主要认证类型及其在职业发展中的含金量&#xff0…

AppTest邀请测试测试流程

相比AppGallery邀请测试&#xff0c;AppTest邀请测试具备以下全新能力&#xff1a;若您同时发布了多个测试版本&#xff0c;AppTest支持测试版本自动升级到最新的测试版本。您可以选择将当前最新在架版本的应用介绍截图展示给测试人员&#xff0c;视觉效果更好&#xff0c;提升…

硬件 - oring多电源切换

目录 一、ORing电路 1.1 ORING 电路 1.2 ORING 电路关键部分 二、多电源切换 2.1 主要思路 2.2 适用场景 一、ORing电路 1.1 ORING 电路 中文常称 “或环电路” 或 “并联冗余电路”是一种电源并联冗余拓扑结构 核心功能&#xff1a;将多路独立电源的输出 “并联整合”&a…

Qt多语言翻译实战指南:常见陷阱与动态切换解决方案

问题背景 在Qt项目国际化过程中&#xff0c;开发者经常会遇到各种翻译逻辑问题&#xff0c;特别是需要实现运行时语言动态切换功能时。一个典型场景是&#xff1a;程序默认英文显示&#xff0c;加载中文翻译文件后界面变为中文&#xff0c;但再次切换回英文时却失败。本文将深入…

机器人要增加力矩要有那些条件和增加什么

机器人要增加力矩要有那些条件和增加什么进行详细讲解 好的&#xff0c;这是一个非常专业且重要的问题。为机器人增加力矩&#xff08;通常指提升关节输出扭矩&#xff09;不是一个简单的部件替换&#xff0c;而是一个涉及动力链、结构、控制和散热的系统性工程。 以下将详细讲…

spring集成aes加密、rsa加密

文章目录spring集成对称加密spring集成rsa加密spring集成对称加密 encrypt:key: aaabbb # 只配置这个参数就实现了对称加密salt: 333444 # 这个可以不配置spring集成rsa加密 例如apollo&#xff0c;如果没有配置encrypt.key&#xff0c;那么apollo不配置应该也是可以的&#…

OpenSTL PredRNNv2 模型复现与自定义数据集训练

OpenSTL PredRNNv2 模型复现与自定义数据集训练 概述 本文将详细介绍如何复现 OpenSTL 中的 PredRNNv2 模型&#xff0c;并使用自定义的 NPY 格式数据集进行训练和预测。我们将从环境配置开始&#xff0c;逐步讲解数据预处理、模型构建、训练过程和预测实现&#xff0c;最终实现…

Linux内核IPv4隧道模式封装机制剖析

概述 在Linux网络栈中,XFRM(Transform)子系统负责实现IPsec等安全协议的功能。其中,xfrm4_mode_tunnel.c是实现IPv4隧道模式封装的核心模块,为IPv4数据包提供隧道模式的封装和解封装能力。本文将深入分析这一模块的实现机制。 模块架构与功能 该模块通过注册到XFRM框架…

OPC Client第10讲:实现主界面;获取初始界面传来的所有配置信息config【C++读写Excel:xlnx;ODBC;缓冲区】

接前面代码内容&#xff1a; OPC Client第6讲&#xff08;wxwidgets&#xff09;&#xff1a;Logger.h日志记录文件&#xff08;单例模式&#xff09;&#xff1b;登录后的主界面_wx.logger-CSDN博客 OPC Client第8讲&#xff1a;OPC UA&#xff1b;KEPServerEX创建OPC服务器…

快速入门HarmonyOS应用开发(一)

目录 前言 一、准备工作 二、实战开发 2.1、Navigation简介 2.2、页面路由开发 2.2.1、创建常量 2.2.2、创建字符串资源 2.2.3、创建float资源 2.2.4、创建color资源 2.2.5、创建数据实体 2.2.6、创建页面路由表 2.2.7、创建Navigation根容器 2.2.8、创建NavDesti…

AI 进课堂 - 语文教学流程重塑

AI 进课堂 - 语文教学流程重塑执教语文十余年&#xff0c;备课案头的参考书堆得比学生作业本还高&#xff0c;批改作文时红笔芯换得比粉笔还勤。 直到去年把 JBoltAI 请进课堂&#xff0c;那些重复机械的工作突然有了新解法&#xff0c;连课堂上孩子们的眼神都亮了许多 —— 这…

用户是否可以同时使用快照和备份来保护云服务器数据安全?

在云计算环境中&#xff0c;云服务器已成为企业和个人数据存储、应用部署和业务运营的重要平台。随着业务数据量的不断增长&#xff0c;数据安全和业务连续性成为用户关注的核心问题。云服务器提供的快照和备份功能为用户提供了有效的数据保护手段&#xff0c;但很多人会疑问&a…

RDS-MYSQL,这个RDS是什么?和mysql有什么区别?

好的&#xff0c;这是一个非常常见且重要的问题。我用最通俗易懂的方式给你解释清楚。 一、大白话解释 你可以把 MySQL 和 RDS MySQL 的关系&#xff0c;想象成&#xff1a;MySQL&#xff1a;就像是你自己买零件组装的一台电脑。 你需要自己挑选CPU、内存、硬盘、主板&#xff…

arcgis中实现四色/五色法制图

四色定理是图论中的一个著名定理&#xff0c;它指出在任何地图上&#xff0c;只需四种颜色就足以使任何相邻的区域&#xff08;拥有共同边界线段&#xff0c;而非单个点&#xff09;颜色不同。五色定理则是另一个更早被证明的、较弱但更易证的定理。在地图制图中&#xff0c;这…

Spring如何巧妙解决循环依赖问题

什么是循环依赖&#xff1f;循环依赖是指两个或多个Bean之间相互依赖&#xff0c;形成闭环的情况。例如&#xff1a;AService依赖BService&#xff0c;而BService又依赖AService。这种场景下&#xff0c;传统的创建顺序无法满足依赖注入的要求。Spring的三级缓存机制Spring通过…