27-数据仓库与Apache Hive-2

1.数仓开发语言概述

理论上来说,任何一款编程语言只要具备读写数据、处理数据的能力,都可以用于数仓的开发。比如大家耳熟能详的C、java、Python等;
关键在于编程语言是否易学、好用、功能是否强大。遗憾的是上面所列出的C、Python等编程语言都需要一定的时间进行语法的学习,并且学习语法之后还需要结合分析的业务场景进行编码,跑通业务逻辑。
不管从学习成本还是开发效率来说,上述所说的编程语言都不是十分友好的。
在数据分析领域,不得不提的就是SQL编程语言,应该称之为分析领域主流开发语言。

2. SQL语言介绍

 结构化查询语言(Structured Query Language)简称SQL,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理数据。
SQL语言使我们有能力访问数据库,并且SQL是一种ANSI(美国国家标准化组织)的标准计算机语言,
各大数据库厂商在生产数据库软件的时候,几乎都会去支持SQL的语法,以使得
用户在使用软件时更加容易上手,以及在不同厂商软件之间进行切换时更加适应,因为大家的SQL语法都差不多。select列名from 表名where 条件 

3.数仓与SQL

大数据数仓领域,很多软件都会去支持SQL语法
1.学习sql成本低
2.sql语言对于数据分析非常友好

4结构化数据

在这里插入图片描述

5.二维表结构

在这里插入图片描述

6.SQL语法的分类

	数据定义语言 DDL数据操纵语言 DMLDDL赋予我们创建或删除表 以及数据库、索引等各种对象 ,不涉及表中的具体操作。create database --创建数据库create table --创建数据表

DML语法针对于数据表的相关操作
select-- 从数据库表中获取数据
update --更新数据库表中的数据
delete --删除数据库表中数据
insert --向数据库表中插入数据

7.Apache Hive 概述

Apache Hive 是一款建立在Hadoop之上的开源数据仓库 系统,可以将存储在Hadoop文件中的结构化 半结构化数据文件映射成一张数据库表,基于表提供一种类似于SQL的查询模型,称为Hive查询语言(HQL )
用户访问和分析存储在Hadoop文件中的大型数据集.
核心是将HQL转换为MapReduce程序,提交到Hadoop集群中执行。
Hive是由Facebook 实现并开源
在这里插入图片描述

8. 为什么用Hive

使用hadoop mapreduce直接处理数据面临的问题
人员学习成本高 需要掌握java语言
mapreduce 实现复杂的查询开发难度大
使用hive的好处
操作使用类似于SQL的语法 简单 容易上手
减少开发人员学习成本
支持自定义函数
背靠Hadoop ,擅长存储分析海量数据集

9.Hive和Hadoop关系

从功能上讲: 数据仓库,具备两个能力
存储数据
分析数据
Hive具备上述两个能力
Hive借助Hadoop实现了上述两个能力
Hive利用HDFS存储数据
利用MapReduce查询分析数据
Hive最大的魅力值让用户专注于编写HQL,Hive能帮助我们转化成为MapReduce程序完成对数据的分析

在这里插入图片描述

10.模拟Apache Hive 的功能

Hive的理解:
hive能将数据文件映射成一张表吗?这个映射指的是什么?

文件和表之间的对应关系

Hive本身到底承担什么职责?
SQL语法解析编译成为MapReduce程序

在这里插入图片描述

在这里插入图片描述

11.官方架构图

在这里插入图片描述

下一步:
分别启动 node1 node2 node3
测试保证我们的hadoop集群是健康可用的!!!
jps 查看 4 3 2
访问两个web页面让其正常显示!!!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/bicheng/92224.shtml
繁体地址,请注明出处:http://hk.pswp.cn/bicheng/92224.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件测试——接口自动化

测试中的自动化分为两类: 1.ui自动化(web、移动端)2.接口自动化 前面的博客中,我们已经讲解了web端的ui自动化,感兴趣的同学可以去看看:软件测试——自动化测试常见函数_自动化测试代码编写-CSDN博客 今…

Flask一个用户同时只能在一处登录实现

场景:web页面如果多人用同一账号同时登录操作,可能会导致数据等的混乱甚至出现故障。并且可能损害开发者的利益。为此,本篇文章就讲下如何实现同一账户同时仅能一个地方登录操作。 思路:1. 用户登陆时生成token(uuid.u…

联发科芯片组曝高危漏洞:越界写入缺陷危及智能手机与物联网设备安全

漏洞概况全球领先的芯片组制造商联发科(MediaTek)近日发布最新产品安全公告,披露了影响其智能手机、物联网设备及其他嵌入式系统芯片的多项安全漏洞。高危漏洞分析CVE-2025-20696 作为公告披露的首个且最严重的漏洞,该高危缺陷源于…

Android与Flutter混合开发:页面跳转与通信完整指南

Android与Flutter混合开发:页面跳转与通信完整指南 一、Android跳转Flutter页面的实现方式 1. 基础跳转方法 (1)使用全新引擎跳转(每次新建) startActivity(FlutterActivity.withNewEngine().initialRoute("/home…

Web存储技术详解:sessionStorage、localStorage与Cookie

一、核心特性对比特性CookielocalStoragesessionStorage存储大小4KB左右5-10MB5-10MB生命周期可设置过期时间永久存储(除非手动清除)会话期间有效(标签页关闭即清除)作用域同源的所有窗口同源的所有窗口仅当前标签页自动发送每次H…

3. 为什么 0.1 + 0.2 != 0.3

总结 底层是二进制实现概述 在 JavaScript 中,0.1 0.2 的结果并不是精确的 0.3,而是 0.30000000000000004。这个现象并不是 JavaScript 的“bug”,而是由于浮点数在计算机底层的二进制表示方式导致的精度丢失问题。一、计算机如何表示小数&a…

股票数据接口哪家好?专业评测各主流接口的优势与不足

Python股票接口实现查询账户,提交订单,自动交易(1) Python股票程序交易接口查账,提交订单,自动交易(2) 股票量化,Python炒股,CSDN交流社区 >>> 股票…

如何用分布式架构视角理解宇宙稳定性?从精细调参到微服务的类比思考

在调试一段多线程分布式代码时,我忽然意识到一个不合理的事实:为什么现实世界这么稳定?为什么没有“宇宙蓝屏”或“感知崩溃”?为什么每天醒来,我们还能看到同样的物理规律、感知同一个自我?站在程序员的角…

游戏画面总是卡顿怎么办 告别延迟畅玩游戏

玩游戏最让人头疼的问题之一就是画面卡顿,影响操作流畅度与游戏体验。卡顿可能由硬件性能、系统设置、网络延迟等多种因素导致。本文将从不同角度出发,为你提供五个有效解决方法,帮助你快速提升游戏流畅度。 一、降低游戏画质设置 高画质虽然…

VUE+SPRINGBOOT从0-1打造前后端-前后台系统-邮箱重置密码

在现代Web应用中,密码重置功能是用户账户安全体系中不可或缺的一部分。本文将详细介绍如何使用Vue.js前端框架和SpringBoot后端框架实现一个基于邮箱验证的密码重置功能。功能概述本密码重置功能包含以下核心流程:用户输入注册邮箱系统发送验证码到该邮箱…

华为云云产品的发展趋势:技术创新驱动数字化未来

近年来,随着5G、人工智能(AI)、大数据、物联网(IoT)和边缘计算等新兴技术的快速发展,全球云计算产业正迎来新一轮变革。作为中国领先的云服务提供商,华为云依托华为集团在ICT(信息与…

防御保护07-08

CIDR 可变长子网掩码 VLSM 无类域间路由NET 用少量的私有地址替换大量的共有地址私网地址不能再互联网上去使用、去分配。这里的互联网指的是公网。服务器映射--用来使外部用户能访问私网服务器。静态映射--公网地址和私网地址进行一对一的映射。地址池--中存在多个公网IP地址时…

PDF转图片工具技术文档(命令行版本)

PDF转图片工具技术文档(命令行版本) 1. 功能概述 本工具是一个基于PyMuPDF库的PDF转图片命令行工具,能够: 通过命令行参数接收PDF文件路径将PDF的每一页转换为PNG格式的图片自动创建输出目录(./static)保存…

k8s+isulad 国产化技术栈云原生技术栈搭建1-VPC

为响应政策,最近在捣鼓国产化云原生平台的搭建。在搭建过程中遇到了问题记录下来,以备后续查找。 我选用了中国电子云的云平台来搭建K8S集群,选用的技术栈是华为开源的openeulerk8sisulad框架,参考官网文档资料:iSula…

chatgpt plus简单得,不需要求人,不需要野卡,不需要合租,不需要昂贵的价格

ChatGPT Plus:开启智能对话的新纪元 引言:AI助手的时代已经到来 在当今信息爆炸的时代,人工智能助手已经成为我们工作、学习和生活中不可或缺的伙伴。作为AI领域的佼佼者,ChatGPT自问世以来就以其强大的语言理解和生成能力赢得了…

鸿蒙OS 系统安全

鸿蒙OS 系统安全 在搭载 HarmonyOS 的分布式终端上,可以保证“正确的人,通过正确的设备,正确地使用数据”。 • 通过“分布式多端协同身份认证”来保证“正确的人”。 • 通过“在分布式终端上构筑可信运行环境”来保证“正确的设备”。 • …

【Dify学习笔记】:保留原所有数据,升级Dify版本

【Dify学习笔记】:保留原所有数据,升级Dify版本原版本1.4.0 升级最新版1.7.1由于是升级成功后才记录的笔记,没法获取旧页面的版本了,先看下镜像信息,上面的拉取的新容器,下面的之前的旧容器1、关闭旧docker…

微信小程序功能实现:页面导航与跳转

1. 声明式导航&#xff08;navigator组件&#xff09;声明式导航通过在WXML页面中使用 <navigator> 组件来实现页面跳转&#xff0c;使用起来较为直观简便&#xff0c;语法格式如下&#xff1a;<navigator url"目标页面路径" open-type"跳转类型"…

GenieWizard: Multimodal App Feature Discovery with LargeLanguage Models

GenieWizard:使用LargeLanguage模型发现多模式应用程序功能 以下是对论文《GenieWizard: Multimodal App Feature Discovery with Large Language Models》的详细总结,结合教育技术学视角的分析: 一、核心问题与背景 问题背景: 多模态交互(如语音+触摸)比传统图形交互更灵…

[硬件电路-120]:模拟电路 - 信号处理电路 - 在信息系统众多不同的场景,“高速”的含义是不尽相同的。

一、按照维度区分在信息系统中&#xff0c;“高速”是一个相对且多维的概念&#xff0c;其核心在于信号或数据的动态变化速率远超传统系统处理能力&#xff0c;导致必须采用专门的设计技术来保障传输质量与实时性。这一概念可从以下四个维度解析&#xff1a;1、频率维度&#x…