元数据管理与数据治理平台:Apache Atlas 分类传播 Classification Propagation

文中内容仅限技术学习与代码实践参考,市场存在不确定性,技术分析需谨慎验证,不构成任何投资建议。

Apache Atlas
Apache Atlas 框架是一套可扩展的核心基础治理服务,使企业能够有效、高效地满足 Hadoop 中的合规性要求,并支持与整个企业数据生态系统集成。这将通过使用规范和取证模型,以及技术和运营审计以及由业务分类元数据丰富的沿袭,在 Hadoop 中提供真正的可视性。它还使任何元数据使用者能够互操作,而无需彼此独立的接口——元数据存储是通用的。通过利用 Apache Ranger 来维护元数据的准确性,以防止在运行时对数据进行未经授权的访问。安全性基于角色 (RBAC) 和属性 (ABAC)。

分类传播

Classification Propagation

  • 分类传播使得与某个实体关联的分类可以自动关联到该实体相关的其他实体。这在处理数据集从其他数据集派生数据的场景时非常有用——例如,一个表从文件加载数据、一个报表从表或视图生成等。
  • 例如,当一个表被分类为 PII 时,从此表派生数据的表或视图(通过 CTAS 或 “create view” 操作)将被自动分类为 PII

使用场景

考虑以下数据血缘场景,数据从 ‘hdfs_path’ 实体加载到一个表中,该表进一步通过视图对外提供。我们将通过多个场景来理解分类传播特性。

img

向实体添加分类

当向 ‘hdfs_path’ 实体添加分类 ‘PII’ 时,该分类会传播到血缘路径中所有受影响的实体,包括 ‘employees’ 表、视图 ‘us_employees’ 和 ‘uk_employees’ —— 如下图所示。

img

更新与实体关联的分类

对与实体关联的分类的任何更新,也会在所有分类传播到的实体中体现出来。

img

移除与实体关联的分类

当从实体中删除分类时,该分类也会从所有分类传播到的实体中移除。

img

在实体之间添加血缘

当在实体之间添加血缘时,例如捕获文件数据加载到表中的过程,与源实体关联的分类也会传播到所有受影响的实体。
例如,当从表创建视图时,与该表关联的分类会传播到新创建的视图。

img

删除实体

情况 1:
当删除实体时,与该实体关联的分类将从所有分类传播到的实体中移除。
例如,当删除 employees 表时,与该表关联的分类将从 ‘employees_view’ 视图中移除。

img

情况 2:
当在血缘路径的中间删除实体时,传播链路会中断,先前传播的分类将从被删除实体的所有派生实体中移除。
例如,当删除 ‘us_employees’ 表时,通过该表传播的(PII)分类将从 ‘ca_employees’ 表中移除,因为唯一的传播路径被实体删除中断了。

img

img

情况 3:
当在血缘路径的中间删除实体,并且存在其他传播路径时,先前传播的分类将被保留。
例如,当删除 ‘us_employees’ 表时,通过该表传播的(PII)分类将保留在 ‘ca_employees’ 表中,因为存在两条传播路径,其中只有一条被实体删除中断。

img

img

控制传播

Apache Atlas 提供了一些选项来控制分类是否/在哪里传播。
本节将详细介绍可用选项。

分类中的传播标志

每次将分类关联到实体时,都有一个布尔标志控制该分类是否传播。
当分类关联到实体时,此标志默认设为 ‘true’,即该分类将传播到所有受影响的实体。在初始关联或后续更新时,可根据需要更新此标志。

img

血缘边中的传播标志

Apache Atlas 支持在血缘边上设置标志,以启用/禁用通过该边传播分类。默认情况下,血缘边启用传播。
当标志关闭时,没有分类会通过该边传播;并且将重新评估当前通过该边传播的分类,以便可以从受影响的实体中移除它们。
当标志打开时,将重新评估源实体的分类传播,以便可以将它们传播到所有受影响的实体。

在血缘边中阻止特定分类传播

Apache Atlas 支持在血缘边中阻止特定分类的传播。
例如,这在以下场景很有用:在创建视图时,被分类为 PII 的列被屏蔽;在这种情况下,如果视图中的对应列可能不具有 PII,因此应阻止 PII 分类的传播。
可以通过更新血缘边,将 PII 分类添加到 ‘blocked propagated classifications’ 列表中来实现。
被阻止传播的分类列表中的分类将不会在派生/下游实体中传播。

img

通知与审计

当传播的分类被添加/更新/删除时,Apache Atlas 会向 ‘ATLAS_ENTITIES’ 主题发送通知,通知中包含受传播影响的每个实体。

术语表

当分类与术语表术语关联时,该分类会自动传播到与该术语关联的所有实体。

风险提示与免责声明
本文内容基于公开信息研究整理,不构成任何形式的投资建议。历史表现不应作为未来收益保证,市场存在不可预见的波动风险。投资者需结合自身财务状况及风险承受能力独立决策,并自行承担交易结果。作者及发布方不对任何依据本文操作导致的损失承担法律责任。市场有风险,投资须谨慎。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92856.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

TSF应用开发与运维部署

架构演进历程:单体架构-->SOA架构-->微服务架构-->Service Mesh腾讯微服务平台TSF (Tencent Service Framework) 是一个围绕应用和微服务的 PaaS 平台。提供服务全生命周期管理能力和数据化运营支持。提供多维度应用、服务、机器的监控数据,助力…

linux开发之mmap内存映射

mmap概念 mmp是 将文件或设备直接映射到进程的虚拟内存空间 的一种机制,可实现程序像访问内存一样访问文件,而不需要传统的 read()/write()系统调用 文件内容被映射到进程的地址空间,读写文件就像操作内存一样,操作系统负责自动同…

CPP继承

继承 一、继承概述 1、为什么需要继承 如下示例,Person 类、Student 类、Teacher 类有大量重复的代码,造成代码冗余,降低开发效率。我们可以通过继承来解决这一问题。在面向对象的编程语言中,继承是一个核心概念。主要作用将重复的…

模块 PCB 技术在未来通信领域的创新突破方向

未来通信领域对数据传输速率、信号稳定性及设备集成度的要求持续攀升,模块 PCB 作为通信设备的关键组件,其技术创新成为推动行业发展的核心动力。猎板 PCB 凭借深厚的技术积累与持续的研发投入,在模块 PCB 技术创新方面取得诸多突破&#xff…

mysql的InnoDB索引总结

MySQL InnoDB索引知识点总结 1. 索引类型 1.1 聚簇索引(Clustered Index) 定义与特性 定义:聚簇索引是InnoDB的默认存储方式,数据行按照主键的顺序物理存储在磁盘上特性: 每个InnoDB表只能有一个聚簇索引数据页中的记录…

C++模板的补充

类模板(上一篇没讲到类模板C/C内存管理&函数模板-CSDN博客&#xff09; 类模板的定义&#xff1a; template<class T1, class T2, ..., class Tn> class 类模板名 {// 类内成员定义 }; 用一个简单的栈例子讲类模板 #define _CRT_SECURE_NO_WARNINGS #include &l…

用JOIN替代子查询的查询性能优化

一、子查询的性能瓶颈分析‌重复执行成本‌关联子查询会导致外层每行数据触发一次子查询&#xff0c;时间复杂度为O(M*N)sql-- 典型低效案例 SELECT e.employee_id, (SELECT d.department_name FROM departments d WHERE d.department_id e.department_id) FROM employees e; …

【设计模式】访问者模式模式

访问者模式&#xff08;Visitor Pattern&#xff09;详解一、访问者模式简介 访问者模式&#xff08;Visitor Pattern&#xff09; 是一种 行为型设计模式&#xff08;对象行为型模式&#xff09;&#xff0c;它允许你在不修改对象结构的前提下&#xff0c;为对象结构中的元素添…

比特币现货和比特币合约的区别与联系

一、基本定义项目现货&#xff08;Spot&#xff09;合约&#xff08;Futures / Perpetual&#xff09;本质直接买卖比特币本身买卖比特币价格的衍生品合约所得资产真实的 BTC合约头寸&#xff08;没有直接持有 BTC&#xff09;结算方式交割比特币现金结算&#xff08;多数平台&…

Qt/C++开发监控GB28181系统/实时监测设备在线离线/视频预览自动重连/重新点播取流/低延迟

一、前言说明 一个好的视频监控系统&#xff0c;设备掉线后能够自动重连&#xff0c;也是一个重要的功能指标&#xff0c;如果监控系统只是个rtsp流地址&#xff0c;那非常好办&#xff0c;只需要重新打开流地址即可&#xff0c;而gb28181中就变得复杂了很多&#xff0c;需要多…

此芯p1开发板使用OpenHarmony时llama.cpp不同优化速度对比(GPU vs CPU)

硬件环境 Cix P1 SoC 瑞莎星睿 O6 开发板 rx580显卡 产品介绍&#xff1a; https://docs.radxa.com/orion/o6/getting-started/introduction OpenHarmony 5.0.0 使用vulkan后端的llama.cpp &#xff08;GPU&#xff09; # ./llama-bench -m /data/qwen1_5-0_5b-chat-q2_k.…

Android 四大布局:使用方式与性能优化原理

一、四大布局基本用法与特点1. LinearLayout&#xff08;线性布局&#xff09;使用方式&#xff1a;<LinearLayoutandroid:orientation"vertical" <!-- 排列方向&#xff1a;vertical/horizontal -->android:layout_width"match_parent"android:…

Redis的BigKey问题

Redis的BigKey问题 什么是大Key问题&#xff1f; 大key问题其实可以说是大value问题&#xff0c;就是某个key对应的value所占据的存储空间太大了&#xff0c;所以导致我们在操作这个key的时候花费的时间过长&#xff08;序列化\反序列化&#xff09;&#xff0c;从而降低了redi…

TDengine IDMP 产品基本概念

基本概念 元素 (Element) IDMP 通过树状层次结构来组织数据&#xff0c;树状结构里的每个节点被称之为元素 (Element)。元素是一个物理的或逻辑的实体。它可以是具体的物理设备&#xff08;比如一台汽车&#xff09;&#xff0c;物理设备的一个子系统&#xff08;比如一台汽车的…

专题二_滑动窗口_将x减到0的最小操作数

一&#xff1a;题目解释&#xff1a;每次只能移除数组的边界&#xff0c;移除的边界的总和为x&#xff0c;要求返回你移除边界的最小操作数&#xff01;也就是说你最少花几次移除边界&#xff0c;就能够让这些移除的边界的和为x&#xff0c;则返回这个次数&#xff01;所以这个…

CentOS 7 下通过 Anaconda3 运行llm大模型、deepseek大模型的完整指南

CentOS 7 下通过 Anaconda3 运行llm大模型、deepseek大模型的完整指南A1 CentOS 7 下通过 Anaconda3 运行大模型的完整指南一、环境准备二、创建专用环境三、模型部署与运行四、优化配置常见问题解决B1 CentOS 7 下通过 Anaconda3 使用 CPU 运行 DeepSeek 大模型的完整方案一、…

Flutter应用在Windows 8上正常运行

要让Flutter应用在Windows 8上正常运行,需满足以下前提条件,涵盖系统环境、依赖配置、编译设置等关键环节: 一、系统环境基础要求 Windows 8版本 必须是 Windows 8.1(核心支持),不支持早期Windows 8(需升级到8.1,微软已停止对原版Windows 8的支持)。 确认系统版本:右…

Redis实现消息队列三种方式

参考 Redis队列详解&#xff08;springboot实战&#xff09;_redis 队列-CSDN博客 前言 MQ消息队列有很多种&#xff0c;比如RabbitMQ,RocketMQ,Kafka等&#xff0c;但是也可以基于redis来实现&#xff0c;可以降低系统的维护成本和实现复杂度&#xff0c;本篇介绍redis中实现…

【C++动态版本号生成方案:实现类似C# 1.0.* 的自动构建号】

C动态版本号生成方案&#xff1a;实现类似C# 1.0.* 的自动构建号 在C#中&#xff0c;1.0.*版本号格式会在编译时自动生成构建号和修订号。本文将介绍如何在C项目中实现类似功能&#xff0c;通过MSBuild自动化生成基于编译时间的版本号。 实现原理 版本号构成&#xff1a;主版本…

【算法题】:斐波那契数列

用 JavaScript 实现一个 fibonacci 函数&#xff0c;满足&#xff1a; 输入 n&#xff08;从0开始计数&#xff09;输出第 n 个斐波那契数&#xff08;斐波那契数列从 1 开始&#xff1a;1,1,2,3,5,8,13,21…&#xff09; 示例&#xff1a; fibonacci(0) > 1fibonacci(4) &g…