Flink CDC 介绍

一、什么是 CDC

        CDC 是 Change Data Capture(变更数据获取)的简称。核心思想是,监测并捕获数据库的变动(包括数据或数据表的插入、更新以及删除等),将这些变更按发生的顺序完整记录下来,写入到消息中间件中以供其他服务进行订阅及消费。

二、Flink CDC

        Flink CDC 通过捕获数据库的变更日志(如 MySQL binlog、Postgres WAL),实现高效、低延迟的数据同步。其核心工作原理可分为变更数据捕获转换处理输出同步三个阶段:

2.1 变更数据捕获

  1. 日志抓取

    使用 Debezium (Flink CDC 底层引擎) 连接数据库,通过各自协议读取变更日志

    MySQL ——> binlog
    PostgreSQL ——> WAL
    Oracle ——> Redo Log
  2. 初始快照

    首次启动时执行全量快照(snapshot),将表中已有数据转为 INSERT 事件流。

        采用分块并行读取(如按主键分片)加速同步。

2.2 转换处理

  1. 日志解析与转换

    格式转换:

    Debezium 将原始二进制日志解析为 JSON / Avro 结构,Flink CDC将其转换为 RowData结构(Flink 内部数据结构)。

    Schema 映射:

      自动推断表结构(字段名、类型、主键),动态处理 DDL 变更(如新增列)。
  2. Flink 实时处理

    流式处理:


    变更事件(INSERT / UPDATE / DELETE)作为无界数据流进入 Flink。

    Exactly-Once 语义:

     通过 Checkpoint 机制 + binlog 位点持久化(如 Kafka 或 Flink State)保证数据一致性。

    转换能力:

    支持使用 Flink SQL 或 DataStream API 进行过滤、聚合、关联维表等操作。

2.3 输出同步

将处理后的数据写入下游系统:

  • 数据胡:Hudi / IceBerg
  • OLAP 引擎:Clickhouse / Doris
  • 消息队列:Kafka / Pulsar
  • 数据库:Mysql / PostgreSQL(需要支持 Upsert)

三、关键技术

3.1 全量+增量无缝切换

  • 无锁读取

    快照阶段使用 SELECT ... FROM 而非锁表(Mysql 使用 mysqldump 的轻量模式)。
  • 断点续传

    Checkpoint 存储 binlog 位点,故障恢复时从断点继续同步。                         

3.2 动态表结构处理

  • 自动 Schema 同步

    源表新增列时,Flink CDC 自动更新 Schema,下游系统需支持 DDL 传播。
  • 兼容性处理

    旧数缺失实新增列时填充 NULL。

3.3 并行读取优化

  • 分片策略

    按主键范围或按时间分区并行快照。
  • 增量阶段并行度

    单任务串行读取 binlog(避免乱序),但可并行处理后续计算。

四、典型应用场景

4.1 实时数仓同步

-- Flink SQL 实现 MySQL → Hudi
CREATE TABLE orders_cdc (id BIGINT,amount DECIMAL(10,2),PRIMARY KEY (id) NOT ENFORCED
) WITH ('connector' = 'mysql-cdc','hostname' = 'mysql-host','database-name' = 'test','table-name' = 'orders'
);CREATE TABLE hudi_orders (...) WITH ('connector'='hudi');INSERT INTO hudi_orders SELECT * FROM orders_cdc;

4.2 多源数据聚合

// DataStream 实现订单+用户表关联
DataSource<Order> orders = env.fromSource(MySqlSource.<Order>builder().build(), ...);DataSource<User> users = env.fromSource(PostgresSource.<User>builder().build(), ...);orders.connect(users).keyBy(o -> o.userId, u -> u.id).process(new EnrichOrderFunction()); // 关联用户信息

4.3 微服务数据融合

将分散的数据库变更同步到 Kafka 统一主题,供下游服务消费。

五、性能优化策略

  1. 增量阶段跳过快照
    配置 'scan.startup.mode'='latest-offset' 仅同步新增数据(无需全量)。

  2. 批量读取加速
    调整 debezium.snapshot.fetch.size(单次读取行数)提升快照效率。

  3. 无主键表处理
    启用 'chunk-key.even-distribution'='false' 优化全表扫描性能。

  4. 资源隔离
    将 CDC 源任务与其他计算任务部署在不同 TaskManager 上,避免资源竞争。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/918016.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/918016.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

暑期第三周(7.28-8.3)

其实 web [SWPUCTF 2021 新生赛]easy_sql 开启环境后看到一个提示“球球你输入点东西吧&#xff01;”没有其他信息&#xff0c;就看看源码 直接试试get传参 有所显示 看看是字符型还是数字型 可以判定是字符型 接下来判断闭合类型 根据显示&#xff0c;可以得知是单引…

【物联网】基于树莓派的物联网开发【21】——MQTT获取树莓派传感器数据广播实战

场景介绍 今天程序猫带领大家如何获取树莓派传感器温湿度数据&#xff0c;并用MQTT进行广播。 实现过程 启动MQTT服务 1、终端启动Mosquitto服务 sudo systemctl start mosquitto 2、设置服务开机自动启动 sudo systemctl enable mosquitto硬件连接 树莓派4b连接GPIO引脚与DHT1…

Mysql自定义顺序查询

1、使用函数MySQL 的 ORDER BY FIELD() 函数可以按照指定的自定义顺序对查询结果进行排序&#xff0c;而不是默认的升序&#xff08;ASC&#xff09;或降序&#xff08;DESC&#xff09;。2、适用场景后端/运营人员经常需要临时把某几条记录‘拽’到最前&#xff08;或最后&…

回归预测 | MATLAB实现RBF径向基神经网络多输入单输出回归预测+SHAP可解释分析

目录 基于RBF径向基神经网络多输入单输出回归预测及SHAP可解释分析的研究 摘要 1. 引言 1.1 研究背景 1.2 研究意义 1.3 研究目标与内容 2. 文献综述 2.1 RBF径向基神经网络研究现状 2.2 SHAP可解释分析研究进展 3. RBF径向基神经网络原理 4. SHAP可解释分析理论基础 4.1 Shapl…

--- Eureka 服务注册发现 ---

Euraka 是netfix开发的基于REST服务基于AP框架的注册中心&#xff0c;主要是用于服务的注册&#xff0c;管理&#xff0c;负载均衡&#xff0c;服务故障转移 Eureka主要分俩部分Eureka Server&#xff1a;服务中心Server端&#xff0c;提供服务注册 发现 健康检查等服务Eureka …

vue3 el-select 加载内容后 触发事件

在 Vue 3 中使用 Element UI 的 el-select 组件实现加载内容后触发事件&#xff0c;主要有以下两种常见需求及实现方式&#xff1a;加载数据后触发事件若需在数据加载完成后触发特定事件&#xff08;如页面渲染完成&#xff09;&#xff0c;可通过自定义指令监听滚动容器状态&a…

c# winform 调用 海康威视工业相机(又全又细又简洁)

1.准备一个海康相机 从垃圾桶里翻出来一个USB口相机。 2.下载MVS 和SDK 海康机器人-机器视觉-下载中心 mvs&#xff1a; sdk&#xff1a; 用MVS 调试一下&#xff0c;能连接就行。 海康威视相机&#xff0c;MVS连接成功&#xff0c;但无图像怎么办&#xff1f;-CSDN博客 3.打…

前端页面直接生成PDF下载文件

前言 因为要实现业务需求如下图&#xff0c;业务逻辑&#xff0c;该凭证为前端代码实现&#xff0c;为了简单方便实现下载为pdf的需求。 一、怎么在前端直接生成PDF&#xff1f; 需求描述&#xff1a;浏览器打开的这个页面&#xff0c;点击下载&#xff0c;把当前弹框页面的…

性能优化——GPU的影响

关闭MSAA 之前在查一个渲染问题&#xff0c;一开始是定位到了CPU在waitforFrame所以知道是GPU的问题但如何定义GPU的问题在哪里&#xff0c;就很麻烦。我一开始以为是drawcall的问题&#xff0c;因为我发现drawcall有350个但降低到30个后&#xff0c;依然情况没有好转。毕竟dra…

软件需求关闭前的质量评估标准是什么

在 需求关闭前&#xff0c;进行 质量评估 是确保需求被完整实现、测试充分且满足业务目标的关键步骤。以下是需求关闭前的质量评估标准&#xff0c;涵盖了功能、非功能、测试覆盖率和用户满意度等方面&#xff1a;一、功能实现的质量评估标准需求完整性&#xff1a;所有功能需求…

vscode中创建python虚拟环境的方法

文章目录框架不同python解释器vscode运行python需要的插件vscode可以改变执行python脚本的默认终端虚拟环境解释创建虚拟环境的方法python的settings.json的一些好用配置框架 python解释器->虚拟环境->vscode 不同python解释器 在一台电脑中我们可以安装多个版本的pyt…

基于 ShardingSphere 的 Spring Boot 数据加密与模糊查询实现

基于 ShardingSphere 的 Spring Boot 数据加密与模糊查询实现 在数据安全与查询便捷性并重的今天,敏感数据加密存储后如何支持灵活查询成为关键挑战。本文将聚焦ShardingSphere 在实现数据加密的同时支持模糊查询的核心能力,详细介绍基于 Spring Boot 和 ShardingSphere 的完…

计算虚拟化技术

&#x1f9e0; 一、什么是计算虚拟化&#xff1f;&#xff08;基础认识&#xff09; ✅ 基本概念&#xff1a; 计算虚拟化&#xff08;Compute Virtualization&#xff09; 是指&#xff1a;在一台物理服务器上模拟多个“虚拟计算资源”&#xff0c;每个虚拟机看起来像是一台独…

Python编程基础与实践:Python基础数据结构:列表、字典和集合

Python数据结构&#xff1a;掌握列表、字典和集合 学习目标 通过本课程的学习&#xff0c;学员将掌握Python中基本的数据结构&#xff1a;列表、字典和集合。学员将了解它们的特性、使用场景以及如何高效地使用它们来解决实际问题。 相关知识点 列表、字典和集合使用 学习…

三维偏序 -- cdq 套 cdq

似乎题解区并没有 cdq 套 cdq 的作法&#xff0c;刚好今天讲了&#xff0c;就来写一发。 题意与记号 题目讲的很清楚了。此方法并没有树状数组好想也没有其高效&#xff0c;但能很方便扩展。下文记原序列为 ddd&#xff0c;将每个点拆分成点与询问&#xff0c;内部增加一个名为…

Effective C++ 条款27: 尽量用const、enum、inline替换 #define

Effective C 条款27&#xff1a;尽量用const、enum、inline替换#define核心思想&#xff1a;使用编译器&#xff08;const, enum, inline&#xff09;替代预处理器&#xff08;#define&#xff09;&#xff0c;让编译器进行语义检查&#xff0c;避免宏替换引发的错误和调试困难…

芯谷科技--高效噪声降低解决方案压缩扩展器D5015

在无绳电话系统中&#xff0c;噪声降低是提升通话质量的关键。 D5015 压缩扩展器&#xff0c;通过集成压缩器和扩展器&#xff0c;有效降低了传输噪声&#xff0c;同时保持了信号的完整性。D5015 采用 SOP20 和 DIP20 封装形式&#xff0c;具有低电压工作、低功耗、高集成度等特…

LabVIEW车床静刚度自动测

​基于LabVIEW 平台开发车床静刚度自动测试系统&#xff0c;针对传统生产法测量中人工误差大、计算复杂、效率低等问题&#xff0c;结合误差复映规律与刚度方程&#xff0c;通过高精度硬件与软件协同&#xff0c;实现试件加工前后尺寸的在线采集、自动计算与报告生成&#xff0…

汽车流通行业4S门店生存性指标:零服吸收率

我们在做汽车4S集团的商业智能BI数据分析项目中&#xff0c;对于4S店的管理&#xff0c;大家经常会提到一个分析指标&#xff0c;叫“零服吸收率”&#xff0c;这个大概是什么意思呢&#xff1f;简单来说就是4S门店一台车都没有卖出的情况下&#xff0c;光靠售后服务部分的收益…

第一性原理科学计算服务器如何选择配置-CPU选择篇

一、 大多数人知道的 (显性因素)核心数与线程数 (Core Count & Thread Count): 重要性&#xff1a; 核心是王道。 科学计算任务&#xff08;如仿真、建模、数据分析、机器学习训练&#xff09;绝大多数都高度并行化&#xff0c;可以同时利用多个核心进行计算。选择建议&…