Gartner＜Reference Architecture Brief: Data Integration＞学习心得

数据集成参考架构解析

引言

在当今数字化时代，数据已成为企业最宝贵的资产之一。随着企业规模的不断扩大和业务的日益复杂，数据来源也变得多样化，包括客户关系管理（CRM）、企业资源规划（ERP）、人力资源管理（HR）和市场营销等领域的运营系统。这些系统虽然在其特定功能领域表现出色，但将它们作为企业所有数据的中央存储库来满足运营、高级分析和人工智能/机器学习（AI/ML）需求则具有挑战性。因此，数据集成架构的设计与实施显得尤为重要。

架构核心概念

Gartner 将数据集成定义为一种学科，涵盖了架构模式、方法论和工具，使企业能够跨多种数据源和数据类型实现数据的稳定访问和交付，以满足业务应用程序和最终用户的数据消费需求。数据集成架构通过开发和监控数据管道，以系统化和一致的方式移动数据，从而提高数据的可用性和可理解性。

架构用例

数据集成在多个领域有着广泛的应用场景。例如，SaaS 数据集成能够将来自各种 SaaS 系统的数据整合在一起，创建更全面的分析；一致的报告和分析则确保所有系统使用相同的数据；主数据引用/同步将主数据分发或同步到中央位置，作为所有用户的参考；在数据集成管道中标准化/收集元数据可以收集操作和业务元数据；商业智能则通过整合来自各种业务功能的数据，提供全面的洞察和报告。

架构图解析

数据集成在核心功能层面涉及从源读取数据，无论直接还是间接，然后执行转换，再将其交付至目标系统。根据数据源、数据格式和业务用例，可以利用不同的方法和技术来集成和处理数据。如今的集成挑战主要源于多样化数据格式、动态商业模式和不断增长的数据量。集成架构需要读取和解析不同来源的数据，高效地组合和集成，然后将数据传递给下游进行消费或进一步处理。

架构能力与组件

数据集成架构包含八个组件：基于存储的数据源、ETL（提取、转换、加载）、ELT（提取、加载、转换）、事件代理/集群服务、流处理、API 网关、目标数据存储、数据可视化和元数据管理。

基于存储的数据源

基于存储的数据源是数据的生成器或需要集成的数据的位置。这些通常是某种类型的数据库，如关系型或非关系型数据库。它们以表格格式或不同结构组织数据。

存储类型

关系数据库/数据仓库：如 Amazon Redshift、Google Cloud AlloyDB、Oracle、SQL Server 等。
非关系数据库：如 Amazon DynamoDB、Apache Cassandra、MongoDB、Redis 等。
数据湖：如 Amazon S3、Azure Data Lake Storage、Google Cloud Storage、Snowflake Cloud Data Platform 等。
湖仓架构：如 Amazon Web Services（AWS）（多种服务组合）、Databricks、Microsoft Fabric Lakehouse 等。