Hive MetaStore的实现和优化

在大数据领域,数据管理与存储至关重要,Hive MetaStore(HMS)作为 Hive 数据仓库的核心组件,承担着元数据管理的关键职责。随着数据规模不断膨胀,其性能与稳定性面临挑战。本文将深入剖析 HMS 的实现机制,结合 Hive Client、MetaCat 等相关内容展开探讨,分析各项操作流程,同时针对 HMS 及 MetaCat 提出优化方案,并阐述与 Spark 的关联等内容,助力读者全面掌握 HMS 技术要点。

HMS

相关类图如下:

图片

上图颜色分类

  • 绿色部分是 hive 的

  • 橙色部分是 thrift 框架自动生成的代码

  • 白色部分是 JDK 的

右边是 hive meta-store client,兼容了这个客户端协议的框架,如 spark,会通过 hive meta-store 协议连接过来 
左边是服务端的实现,主要继承自ThriftHiveMetastore.Iface,这个类包含了很多操作,CURD库、表,函数的等等

HMSHandler实现了这个接口,然后调用RawStre去一个具体数据源来获取信息,或者创建信息 
RowStore的实现类ObjectStore则调用了javax.jdo去连接一个真实的数据库,完成此操作

jdo 是 ORM 的实现,比 JDBC 更高层一些,这里会有一些表的连接操作,然后会转为更底层的 SQL 
hive 使用的 ORM 框架为 DataNucleus
几个包

  • org.apache.thrift.protocol 这个是底层 thrift RPC 相关类,会做序列化操作

  • org.apache.hadoop.hive.metastore.api,这是Iface里面库、表会引用到这些RPC类,这些类的一些数据结构定义又引用了更下沉的thrift类

  • org.apache.hadoop.hive.metastore.model,将数据中的数据读取封装成对象,再将这个对象转为thrift RPC中的对象

另外 HMS 也有直接使用SQL 链接数据库
ObjectStore引用了MetaStoreDirectSql,这个类中就包含了很多 sql 语句,不通过 ORM 框架,直接访问
可能是 hive 层做的一些优化

图片

Hive Client

自定义hiveserver设计
相关类图

图片

上图颜色分类

  • 蓝色部分是 自动生成的代码

  • 深灰色是 client实现

  • 浅灰色是 服务端逻辑

  • 绿色部分是 service 层逻辑

服务端和客户端 都实现了 Iface 逻辑,也就是 thrift RPC 协议
服务端有不同的传输实现类,binary 和 http
业务逻辑调用绿色部分,再委托给 SessionManager获取一个session
然后执行具体的 sql 任务

MetaCat-相关操作

架构如如下:

大致分类

  • metacat-controller,CURD 元数据的操作

  • partition-controller,分区操作,mysql 不支持这样的操作

  • tag-controller,可以给表打标签

  • 其他,如创建 meta-cat试图等,mysql不支持

查询 catalog

图片

结果

图片

查询 数据库

图片

结果

图片

查询表

图片

结果

图片

mysql 插件的配置信息:

图片

给 tomcat 增加几个 -D 参数

  • -Dmetacat.usermetadata.config.location=/usermetadata.properties的具体路径

  • -Dmetacat.plugin.config.location=catalog的具体路径

 HMS 优化

相关类如下:

图片

颜色分类

  • 灰色部分,HMS相关,其中深灰色是自动生成的代码

  • 红色部分,web controller 相关的代码

  • 绿色部分,service 相关逻辑

  • 蓝色部分,操作 HMS 相关的类

  • 黄色部分,外部依赖

Iface 是最核心类,metacat 继承了这个类,相当于是实现了 HMS 的server端RPC协议
其中一般操作是直接调用了 controller 的类,所以 RPC 和 http 的逻辑实际是统一的
有一些特殊的 controller,如 Tag、metadata、Search,这些会调用外部类
如搜索会直接调用 ES,tag 和 metadata 会调用 MySQL,所以需要一个外部的 ES,MySQL 来支持这些功能

蓝色部分是操作 HMS 相关的类,分为表、库、partition 三个类
这里有两种情况

  • 浅色部分的实现类,直接调用了 Hive metastore client 来实现的

  • 深蓝色部分,绕过了Hice Client,直接链接了底层的数据库,通过SQL 来交互的

所以 metacat 对HMS 的优化,可以理解为

  • 将ORM操作,转为了直接的 JDBC操作

  • 将ORM生成的多表关联,改为了很多单表查询,再加载到内存中做管理,减轻了 数据库端的计算压力

  • 本质上相当于对 SQL 做优化

Spark和HMS

相关类图如下

图片

灰色的是 spark v1 体系的类
黄色部分是 外部catalog 相关类
v1 中包含了两个 catalog

  • InMemoryCatalog

  • HiveExternalCatalog

HiveExternalCatalog 调用了 IMetaStoreClient 实现类
也就是通过 hive MS client 向服务端发起了 RPC 请求实现 catalog 查找的

这里使用了多版本机制

图片

MetaCat 一些优化-对HMS做的优化SQL

这里不通过 HMS,而是通过 JDBC,直接连底层的数据源
DirectSqlDatabase 的主要 SQL 如下:

图片

DirectSqlGetPartition 的主要 SQL 如下:

图片

DirectSqlSavePartition 的主要 SQL 如下:

图片

DirectSqlTable 的主要 SQL 如下:

图片

ThriftHiveMetastore 相关函数

ThriftHiveMetastore.Iface 的所有函数

图片

图片

图片

org.apache.hadoop.hive.metastore.api 包下的所有类

图片

图片

图片

图片

图片

org.apache.hadoop.hive.metastore.api 包下的类

图片

参考

  • Metacat: Making Big Data Discoverable and Meaningful at Netflix

  • Netflix Metacat: Origin, Architecture, Features & More

  • Data Catalog and crawlers in AWS Glue

相关文章

  • Hive论文

往期推荐

  • Data Ingestion: Architectural Patterns

  • Data engineering at Meta

  • The Life of a Read/Write Query for Apache Iceberg Tables

  • Compaction in Apache Iceberg

  • Spark原理-解析过程和Catalog

  • Janino简单使用

  • Oracle的CDC工具OpenLogReplicator编译

  • OpenLogReplicator的一些改动

  • Spark-Streaming 原理

  • Parquet for Spark

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/88273.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/88273.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

一文读懂动态规划:多种经典问题和思路

一、动态规划算法的思想与核心概念框架 1. 动态规划的基本思想 动态规划(Dynamic Programming, DP)是一种通过将复杂问题分解为重叠子问题,并利用子问题的解来高效解决原问题的方法。其核心思想是避免重复计算,通过存储中间结果&a…

阿幸课堂随机点名

代码功能 这个是一个HTML网页端,简单来说就是可以双击之后运行进行点名。 当然,不局限于课堂点名 代码功能 Excel 导入增强: 增加了列选择器,可以指定从哪一列读取学生姓名 增加了起始行选择器,可以跳过标题行或其…

LeetCode 560: 和为K的子数组

题目描述给定一个整数数组 nums 和一个整数 k,请统计并返回该数组中和为 k 的连续子数组的个数。示例 1:输入:nums [1,1,1], k 2 输出:2示例 2:输入:nums [1,2,3], k 3 输出:2提示&#xff…

微软官方C++构建工具:历史演变、核心组件与现代实践指南

引言:C构建工具的战略意义 在Windows生态系统中,​​微软C构建工具​​(Microsoft C Build Tools)构成了数百万开发者和应用程序的技术基石。从早期的MS-DOS命令行工具到如今支持​​跨平台开发​​的现代化工具链,微…

探索Cocos_CoilTheRope:一款创新的游戏引擎扩展项目

探索Cocos_CoilTheRope:一款创新的游戏引擎扩展项目 去发现同类优质开源项目:https://gitcode.com/ 是一个基于Cocos2d-x游戏引擎的扩展库,旨在为开发者提供一种简便的方法来实现绳子缠绕和物理交互效果。该项目由DreamLXW开发并维护,为游戏…

爬虫-正则表达式

在线正则表达式测试OSCHINA.NET在线工具,ostools为开发设计人员提供在线工具,提供jsbin在线 CSS、JS 调试,在线 Java API文档,在线 PHP API文档,在线 Node.js API文档,Less CSS编译器,MarkDown编译器等其他在线工具https://tool.oschina.net/…

【BTC】数据结构

目录 那比特币区块链的组织形式到底是以链表的形式,还是树的形式呢? 区块头和区块体与默克尔树的关系 默克尔证明详解 区块链和链表最大的区别就是区块链用哈希指针代替了普通指针。 链表的指针就是指向一个结构体在内存中的地址,而哈希指…

飞算 JavaAI:让 Java 开发效率飙升的智能助手,日常开发全场景应用指南

飞算 JavaAI:让 Java 开发效率飙升的智能助手 ,日常开发全场景应用指南 在 Java 开发的日常工作中,开发者常常面临各类重复性劳动与逻辑复杂度挑战。飞算 JavaAI 作为专注于 Java 领域的智能开发助手,能够覆盖从代码生成到项目维护…

8.2 文档预处理模块(二)

一、从0开始:简易RAG实现 在构建更复杂的 RAG 架构之前,我们先从最基础的版本入手。整个流程可以分为以下几个关键步骤: 1.数据导入:加载并预处理原始文本数据,为后续处理做好准备。 2.文本分块:将长文本…

【系统与工具】Linux——Linux简介、安装、简单使用

计算机概论与Linux简介 计算机概论Linux介绍与版本 Linux的规划与安装 Linux与硬件平台密切相关规划硬件与Linux安装 主机规划与磁盘分区安装CentOS、多重引导 简单使用 帮助手册文本编辑器关机 0. Linux介绍与版本 操作系统(Linux):高效…

从视频数据到数字孪生:如何构建虚拟与现实的桥梁?

概述 视频数据与三维场景融合渲染技术通过将动态视频与静态三维模型结合,利用GPU加速、WebGL渲染、数字孪生等技术,实现虚拟与现实的交互式融合。该技术广泛应用于智慧城市、工业监控、虚拟现实、游戏特效等领域,能够提升场景的直观性和用户沉…

【笔记】开源 AI Agent 项目 V1 版本 [新版] 部署 日志

kortix-ai/suna at v1 一、最新版本号 V1 二、部署截图 本地开发环境仍然依赖于 Poetry 环境&#xff1a; &#xff08;Python>3.11,<3.13&#xff09; 创建本地 Poetry 虚拟环境 Python 多版本环境治理理念驱动的系统架构设计&#xff1a;三维治理、四级隔离、五项自…

NumPy-梯度与导数计算详解

NumPy-梯度与导数计算详解一、梯度与导数的基本概念1. 导数的定义2. 梯度的定义二、NumPy中的梯度计算函数&#xff1a;np.gradient()1. 函数语法2. 一维数组的梯度计算3. 多维数组的梯度计算三、基于梯度的导数近似方法1. 前向差分2. 中心差分四、实际应用场景1. 函数优化2. 数…

Redis架构安全

先学习&#xff1a;Redis架构简介-CSDN博客 Redis压测 Redis一般应用于高并发的场景&#xff0c;所以一定要对Redis的性能做压测。 Redis提供了压测脚本redis-benchmark&#xff0c;可以对Redis进行快速的基准测试。 # 20个线程&#xff0c;100W个请求&#xff0c;测试redi…

自动化Trae Apollo参数解释的批量获取

自动化Trae Apollo参数解释的批量获取一、背景介绍二、设计思路三、操作步骤1. 环境准备2. 获取界面坐标3. 定位关键元素4. 执行自动化查询5. 获取结果四、完整代码五、扩展应用一、背景介绍 在自动驾驶开发中&#xff0c;百度Apollo平台提供了大量参数用于调整系统行为。Trae…

数学模型:十大距离

十大距离 文章目录十大距离定义1. 欧氏距离&#xff08;Euclidean Distance&#xff09;2. 曼哈顿距离&#xff08;Manhattan Distance&#xff09;3. 切比雪夫距离&#xff08;Chebyshev Distance&#xff09;4. 闵可夫斯基距离&#xff08;Minkowski Distance&#xff09;5. …

流水线(Jenkins)打包拉取依赖的时候提示无法拉取,需要登录私仓的解决办法

在日常工作中&#xff0c;遇到了Jenkins拉取部门内部组件库失败的情况&#xff0c;原因是组件库后面放到了阿里云私仓&#xff0c;并且是没有公开的&#xff0c;所以就会有如下提示的&#xff0c;一开始我实在.npmrc文件写死阿里云提供的接入token&#xff0c;后面发现可能是因…

操作系统王道考研习题

1.1.4本节习题精选 一、单项选择题 01&#xff0e;操作系统是对(&#xff09;进行管理的软件。 A.软件 B.硬件 C.计算机资源 D.应用程序 01.c 操作系统管理计算机的硬件和软件资源&#xff0c;这些资源统称为计算机资源。注意&#xff0c;操作系统不仅管理处理机、存储器等硬件…

C语言extern的用法(非常详细,通俗易懂)

以往我们都是将所有的代码写到一个源文件里面&#xff0c;对于小程序&#xff0c;代码不过几百行&#xff0c;这或许无可厚非&#xff0c;但当程序膨胀代码到几千行甚至上万行后&#xff0c;就应该考虑将代码分散到多个文件中&#xff0c;否则代码的阅读和维护将成为一件痛苦的…

Git【开源分布式版本控制工具】安装-配置-常用指令-Git远程仓库-IDEA使用Git

参考博客&#xff1a;Git&#xff08;分布式版本控制工具&#xff09;_为什么哔哩哔哩有些视频没有字幕-CSDN博客 Git就是一个类似于百度云盘的仓库&#xff1b;重点是要掌握使用idea操作Git&#xff0c;企业用的最多&#xff0c;一般不会去使用命令 Git通过不断阶段保存文件…