2025-06-01-Hive 技术及应用介绍

Hive 技术及应用介绍

参考资料

  • Hive 技术原理
  • Hive 架构及应用介绍
  • Hive - 小海哥哥 de - 博客园
  • https://cwiki.apache.org/confluence/display/Hive/Home(官方文档)

Apache Hive 是基于 Hadoop 构建的数据仓库工具,它为海量结构化数据提供类 SQL 的查询能力,并将查询翻译为 MapReduce、Tez 或 Spark 作业执行。Hive 简化了大数据批量分析的使用门槛,让熟悉 SQL 的开发者能够在 Hadoop 生态上轻松进行 ETL、OLAP 和 BI 分析。

1749361719853NEWubQsOsob8hwxG164ce9SWnxe.png

Hive 的执行流程

Hive 的背景与定位

  • 背景:随着大数据时代到来,Hadoop 分布式文件系统(HDFS)与 MapReduce 为存储与计算提供了高吞吐的能力,但原生 MapReduce 编程复杂、开发成本高。
  • 定位:Hive 通过 HiveQL(类似 SQL 的查询语言)屏蔽 MapReduce/Tez/Spark 的底层细节,将查询语句编译为执行计划并自动运行,适合批量离线分析,主要面向 ETL、数据聚合与多维分析。

Hive 在 Hadoop 生态系统中的位置

1749361730854XD25bKuMWocEPtxmRBQc1JaOn6c.png

Hive 的运行深度依赖于 Hadoop 的核心生态,包括其分布式文件系统 HDFS、计算框架 MapReduce 以及资源调度器 YARN,因此可以将 Hive 理解为一种构建在 Hadoop 之上的 “SQL on Hadoop” 应用。其核心工作机制是将用户输入的类 SQL 查询语句转换为底层的 MapReduce 任务来执行,也正是因为多了这一步从 SQL 到 MapReduce 的转化开销,所以在同等条件下,Hive 查询的执行效率通常会低于直接编写原生 MapReduce 程序。

Hive 体系结构

1749361740853ZjDRb5l8hozhtExpjCrcgQXFnzd.png
1749361749853Rykybe2KzostXMxQrA2cx8pgnWh.png

Hive 的核心组件包括:

  1. Hive 客户端(CLI、Beeline、JDBC/ODBC)

    • 支持交互式提交 HiveQL,或通过 JDBC/ODBC 接入 BI 工具(如 Tableau、Power BI)。
  2. Driver

    • 接收并解析 HiveQL,生成抽象语法树(AST),再进行优化和编译,生成执行计划(Execution Plan)。
  3. Compiler / Optimizer

    • 将 AST 转为逻辑计划,应用谓词下推、列裁剪等优化,再生成物理计划,拆分为一个或多个 MapReduce/Tez/Spark 任务。
  4. Execution Engine

    • 将物理计划提交给底层执行框架(MapReduce、Tez 或 Spark),监控任务状态并返回结果。
  5. Metastore

    • 存储表结构、分区信息、列类型、SerDe、统计信息等元数据,通常使用 MySQL、PostgreSQL 或 Derby。

数据模型与存储格式

1749361758853Z6E0bN8eQofC9kxqkCmcz14ynBg.png

  • 表与分区
    • Hive 将 HDFS 文件组织为表(Table)、分区(Partition)和桶(Bucket)。分区通常按日期、地域等字段维度存储,减少查询扫描量。

数据库:创建表时如果不指定数据库,则默认为 default 数据库。
表:物理概念,实际对应 HDFS 上的一个目录。
分区:对应所在表所在目录下的一个子目录。
桶:对应表或分区所在路径的一个文件

  • 文件格式
    • 支持文本(Text)、SequenceFile、ORC、Parquet、Avro 等列式与行式格式。列式格式(ORC、Parquet)通过压缩和列裁剪大幅提升查询性能。
-- 创建按日期分区的 ORC 表
CREATE EXTERNAL TABLE logs (user_id BIGINT,action  STRING,ts      TIMESTAMP
)
PARTITIONED BY (dt STRING)
STORED AS ORC
LOCATION '/data/logs/';
  • SerDe(序列化/反序列化)
    • 通过自定义 SerDe,Hive 能解析任意复杂格式(JSON、CSV、XML 等)。

HiveQL 基本用法

  • www.slideshare.net

数据操作

创建表
CREATE TABLE IF NOT EXISTS example.employee(
Id INT COMMENT 'employeeid',
Company STRING COMMENT 'your company',
Money FLOAT COMMENT 'work money',)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' STORED AS TEXTFILE;

可以发现就是对应的 SQL 语句

查询
SELECT id, name FROM employee WHERE salary >= 10000;
SELECT department, avg(salary) FROM employee GROUP BY department;
SELECT id, salary, date FROM employee_a UNION ALL
SELECT id, salary, date FROM employee_b;
-- 加载数据到表(分区)
ALTER TABLE logs ADD PARTITION (dt='2025-06-01');
LOAD DATA INPATH '/raw/logs/2025-06-01/*.log'
INTO TABLE logs PARTITION (dt='2025-06-01');
-- 简单查询
SELECT user_id, COUNT(*) AS cnt
FROM logs
WHERE dt='2025-06-01'
GROUP BY user_id
ORDER BY cnt DESC
LIMIT 10;

窗口函数与高级特性

-- 统计每个用户每天的前 3 次操作
SELECT dt, user_id, action, ts,ROW_NUMBER() OVER (PARTITION BY dt, user_id ORDER BY ts) AS rn
FROM logs
WHERE dt >= '2025-06-01' AND dt <= '2025-06-07'
AND rn <= 3;

与 Spark 集成

在 Hive on Spark 模式下,HiveQL 会被提交到 Spark 引擎执行,兼享 Spark 的低延迟与丰富算子。

-- 启动 Hive 使用 Spark 执行引擎
set hive.execution.engine=spark;

典型应用场景

  1. ETL 批量处理

    • 定时从日志系统、关系库导入数据,清洗、聚合后写入 Hive 数据仓库,用于下游 BI 报表。
  2. 多维 OLAP 分析

    • 基于 Hive 的 HiveCube 或第三方 OLAP 引擎(如 Apache Kylin)实现大规模多维分析。
  3. 数据探索与报表

    • 数据分析师通过 Beeline 或 BI 工具(Tableau、Power BI)直接查询 Hive 表。
  4. 机器学习特征工程

    • 使用 HiveQL 快速统计用户行为特征,然后将结果导出到 HDFS,再由 Spark/MLlib 训练模型。

性能优化要点

  • 合理分区

    • 按查询高频过滤字段分区(如按日期、地域),减少文件扫描。
  • 使用列式存储

    • ORC/Parquet 格式支持列裁剪、矢量化读取和压缩。
  • 开启成本模型优化

SET hive.cbo.enable=true;
  • 利用 Tez/Spark

    • 将执行引擎换为 Tez 或 Spark,降低 MapReduce 的启动开销与 I/O 序列化成本。
  • 小文件合并

    • 小文件过多会导致任务过多,建议合并或使用 HDFS 合并工具。

示例:用户次日留存率统计

-- 1. 计算用户首次活跃日期
CREATE TABLE user_first (user_id BIGINT,first_dt STRING
)
STORED AS ORC
AS
SELECT user_id, MIN(dt) AS first_dt
FROM logs
GROUP BY user_id;
-- 2. 次日留存:join 当天活跃用户与第一天活跃日期后一天
SELECT f.first_dt AS reg_dt,l.dt        AS act_dt,COUNT(DISTINCT f.user_id)      AS reg_users,COUNT(DISTINCT l.user_id)      AS retained_users,ROUND(COUNT(DISTINCT l.user_id) / COUNT(DISTINCT f.user_id), 4) AS retention_rate
FROM user_first f
JOIN logs lON f.user_id = l.user_idAND l.dt = date_add(f.first_dt, 1)
GROUP BY f.first_dt, l.dt
ORDER BY f.first_dt;

优缺点

1749361767853GqNBbN8ARo70Ijxlv3dcyQ5rn0v.png

1749361778853RwFcbEGI7o1p7cxmwTNcbjjdn7c.png

总结

  • Hive 以 SQL 友好的方式在 Hadoop 集群上实现批量离线分析,适用于 ETL、OLAP、报表和特征工程。
  • 通过 Metastore 管理元数据,通过多种文件格式和执行引擎(MapReduce/Tez/Spark)兼顾兼容性与性能。
  • 合理分区、列式存储和成本模型优化可显著提升查询性能。
  • Hive 与 Spark、Flink、Presto 等工具生态配合,为大数据平台提供灵活多样的计算选择。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/84674.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python爬虫(52)Scrapy-Redis分布式爬虫架构实战:IP代理池深度集成与跨地域数据采集

目录 一、引言&#xff1a;当爬虫遭遇"地域封锁"二、背景解析&#xff1a;分布式爬虫的两大技术挑战1. 传统Scrapy架构的局限性2. 地域限制的三种典型表现 三、架构设计&#xff1a;Scrapy-Redis 代理池的协同机制1. 分布式架构拓扑图2. 核心组件协同流程 四、技术实…

HashMap真面目

背景 今天数据采集项目碰到一个性能问题&#xff0c;3000多个采集点&#xff0c;每一个采集点每秒送一个数据&#xff0c;接收到数据之后首先需要内存中做缓存&#xff0c;之后有一系列的业务分析处理&#xff0c;所以&#xff0c;对系统性能要求比较高。 最近几天发现服务器…

STM32CubeMX-H7-19-ESP8266通信(中)--单片机控制ESP8266实现TCP地址通信

前言 上篇文章我们已经能够使用串口助手实现esp8266的几种通信&#xff0c;接下来我们使用单片机控制实现。这篇文章会附带教程&#xff0c;增加.c和,.h&#xff0c;把串口和定时器放到对应的编号&#xff0c;然后调用初始化就可以使用了。 先讲解&#xff0c;然后末尾再放源码…

欧盟RED网络安全标准EN 18031-2的要求

欧盟RED网络安全标准EN 18031-2的要求 欧盟RED网络安全标准EN 18031-2的要求 ​ 适用产品范围&#xff1a; 能够处理个人隐私数据的可联网无线电设备。 不具备联网能力的三类无线电设备&#xff1a;玩具、儿童护理类设备、可穿戴类设备。 主要测试与评估内容&#xff1a; EN…

一起了解--CAST函数

CAST函数在SQL中用途广泛&#xff0c;不仅可以转换为数值类型&#xff0c;还可以在多种场景下用于数据类型转换。以下是一些常见的用途和示例&#xff1a; 类型转换 使用CAST函数可以在查询数据库时根据需要调整数据格式或类型 CAST(expression AS target_type) expression …

(50)课71:查看指定 query_id 的 SQL 语句的执行各个阶段的耗时情况 show profile for query query_id;

&#xff08;137&#xff09;查看指定 query_id 的 SQL 语句的执行各个阶段的耗时情况 show profile for query query_id &#xff1a; &#xff08;138&#xff09; 谢谢

AWS中国云的定时任务(AWS EventBridge+AWS Lambda)

问题 最近有一个每天在凌程定时同步数据给第三方系统的需求。需要使用AWS EventBridge和AWS Lambda结合的方式来同步数据给第三方系统。 思路 使用Python的ORM框架(例如&#xff1a;SQLAlchemy)查询到需要同步的数据&#xff0c;然后&#xff0c;使用http客户端&#xff08;…

开源PSS解析器

本章介绍开源PSS解析工具&#xff1a; 1. PSSTools语法解析器&#xff0c;这个工具仅包含一个语法解析器。 2. gen-pss&#xff0c;实现了语法解析器&#xff0c;和简单的Test realization&#xff0c;没有约束求解器。 本文将改造并使用gen-pss来生成C测试用例&#xff0…

《linux2.4 内存管理》:第 2 章 描述物理内存

Linux 适用于多种体系结构&#xff0c;需用体系结构无关方式描述内存。本章介绍影响 VM 行为的内存簇、页面和标志位结构。 非一致内存访问&#xff08;NUMA&#xff09;&#xff1a;在 VM 中&#xff0c;大型机器内存分簇&#xff0c;依簇与处理器距离&#xff0c;访问代价不…

数据湖是什么?数据湖和数据仓库的区别是什么?

目录 一、数据湖是什么 &#xff08;一&#xff09;数据湖的定义 &#xff08;二&#xff09;数据湖的特点 二、数据仓库是什么 &#xff08;一&#xff09;数据仓库的定义 &#xff08;二&#xff09;数据仓库的特点 三、数据湖和数据仓库的区别 &#xff08;一&#…

Smart Form Adobe form

强制更改内表:TNAPR se16-> Smart Form总览 Smart form 变量格式说明: &symbol& (括号中,小写字母为变量) &symbol& 屏蔽从第一位开始的N位 &symbol (n)& 只显示前N位 &symbol (S)& 忽略正负号 &symbol (<)& 符号在…

Linux 内核学习(11) --- Linux 链表结构

文章目录 Linked List 简介Linked List 操作方法链表头结点初始化创建链表节点添加节点到链表中从链表中删除节点从链表中替换节点移动链表中的节点检查链表链表遍历demo 实例 Linked List 简介 链表是一种数据结构&#xff0c;由一系列节点组成&#xff0c;每个节点包含数据部…

一分钟部署nginx-公网IP访问内网

前言 服务器内网下有nacos cluster&#xff08;3个节点&#xff09;&#xff0c;开放到公网并指定公司网络访问需要配置三次IP白名单&#xff0c;因此需要简化流程&#xff0c;通过nginx反向代理只配置1次IP白名单。 现在通过docker容器模拟环境&#xff0c;准备1台云服务器。…

C 语言分支与循环

目录 一. 分支结构&#xff1a;if 语句与 switch 语句 1. if 语句 2. switch 语句 二、关系操作符、条件操作符与逻辑操作符 1. 关系操作符 2. 条件操作符 3. 逻辑操作符 三、循环结构&#xff1a;while 循环、for 循环与 do - while 循环 1. while 循环 2. for 循…

【一文看懂Spring Boot2.x升级Spring Boot3.x】springboot2.x升级springboot3.x

springboot2.x升级springboot3.x 背景升级jdk版本为17以上springboot版本修改javax包更新mybatis-plus升级swagger升级springdocspringdoc配置背景 当前项目是springboot2.5.9版本的springboot+mybatis-plus项目,需要升级到springboot3.5.0项目。 升级jdk版本为17以上 Spri…

阳台光伏防逆流电表革新者:安科瑞ADL200N-CT/D16-WF

——为家庭能源管理提供高精度、智能化解决方案 一、阳台光伏爆发的背景 在全球能源转型与碳中和目标的驱动下&#xff0c;阳台光伏正以革命性姿态重塑家庭能源消费模式。从欧洲的“微型发电站”到中国的“万亿蓝海”&#xff0c;这一创新技术不仅撬动了能源市场的结构性变革…

美团完整面经

面试岗位 面试的岗位 - 2025春季校招 【转正实习】软件服务工程师-后端方向&#xff08;成都 - 软硬件服务-SaaS事业部&#xff09; 一面&#xff08;业务初试 - 30min&#xff09; 问题 自我介绍 Java基础 HashMap底层用的数据结构是什么&#xff1f;是线程安全的吗&…

pysnmp 操作流程和模块交互关系的可视化总结

1. SNMP GET 操作序列图 #mermaid-svg-KALvv8WkHJTsNCeu {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-KALvv8WkHJTsNCeu .error-icon{fill:#552222;}#mermaid-svg-KALvv8WkHJTsNCeu .error-text{fill:#552222;str…

关于 /proc/net/tcp 与 /proc/$pid/net/tcp 的关系分析

关于 /proc/net/tcp 与 /proc/$pid/net/tcp 的关系分析 1. 基础概念 在 Linux 系统中&#xff0c;每个进程必定归属于一个且仅一个网络命名空间&#xff08;Network Namespace&#xff09;。这是 Linux 命名空间隔离机制的核心特性之一。 /proc/net/tcp 显示当前网络命名空间…

微信小程序 - 保存手机号等信息到通讯录

主要使用小程序 wx.addPhoneContact 这个api 一、界面 <view class"tab-item" bindtap"addToPhoneContacts">保存</view> 二、js 逻辑文件中 addToPhoneContacts() {wx.addPhoneContact({firstName: this.data.firstName, // 姓名mobilePh…