Kettle 远程mysql 表导入到 hadoop hive

kettle 远程mysql 表导入到 hadoop hive

(教学用 )

在这里插入图片描述

文章目录

  • kettle 远程mysql 表导入到 hadoop hive
  • 创建 对象 执行 SQL 语句 -mysql 导出 CSV格式
  • CSV 文件远程上传到 HDFS
    • 运行 SSH 命令
    • 远程登录 run SSH 并执行 hadoop fs -put
  • 建表和加载数据
  • 总结


创建 对象 执行 SQL 语句 -mysql 导出 CSV格式

在这里插入图片描述

SELECT * 
INTO OUTFILE '/home/mysql-files/sakila_actor9.csv' 
FIELDS TERMINATED BY ',' 
ENCLOSED BY '' 
LINES TERMINATED BY '\n'
FROM sakila.actor;

CSV 文件远程上传到 HDFS

运行 SSH 命令

在这里插入图片描述

远程登录 run SSH 并执行 hadoop fs -put

在这里插入图片描述
在这里插入图片描述

/opt/module/hadoop-3.3.0/bin/hadoop fs -put /home/mysql-files/sakila_actor9.csv /user/hive/warehouse/

建表和加载数据

在这里插入图片描述

CREATE EXTERNAL TABLE IF NOT EXISTS sakiladb.actor9 
(actor_id STRING COMMENT 'from deserializer',first_name STRING COMMENT 'from deserializer',last_name STRING COMMENT 'from deserializer',last_update STRING COMMENT 'from deserializer'
)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ','  -- 列分隔符
STORED AS TEXTFILE;LOAD DATA INPATH '/user/hive/warehouse/sakila_actor9.csv' INTO TABLE actor9;

总结

通过 Kettle (Pentaho Data Integration),我们能够轻松地将远程 MySQL 数据库中的数据导出到 CSV 文件,上传到 HDFS,并最终将数据导入 Hive。这样,我们可以利用 Hadoop 的强大计算能力来进行数据处理和分析。以下是整个过程的概览:

导出 MySQL 数据为 CSV 格式:使用 Table Input 和 Text File Output 步骤。

上传 CSV 文件到 HDFS:通过 SSH Connection 执行 hadoop fs -put 命令。

在 Hive 中创建表并加载数据:使用 CREATE TABLE 和 LOAD DATA 命令。

这个过程不仅适用于 MySQL 和 Hive,也可以根据需要适配其他数据源和目标系统。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/pingmian/82532.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux输出命令——echo解析

摘要 全面解析Linux echo命令核心功能,涵盖文本输出、变量解析、格式控制及高级技巧,助力提升Shell脚本开发与终端操作效率。 一、核心功能与定位 作为Shell脚本开发的基础工具,echo命令承担着信息输出与数据传递的重要角色。其主要功能包…

Windows系统下 NVM 安装 Node.js 及版本切换实战指南

以下是 Windows 11 系统下使用 NVM 安装 Node.js 并实现版本自由切换的详细步骤: 一、安装 NVM(Node Version Manager) 1. 卸载已有 Node.js 如果已安装 Node.js,请先卸载: 控制面板 ➔ 程序与功能 ➔ 找到 Node.js…

【leetcode】977. 有序数组的平方

有序数组的平方 题目代码1. 使用sorted2. 双指针 题目 977. 有序数组的平方 给你一个按 非递减顺序 排序的整数数组 nums,返回 每个数字的平方 组成的新数组,要求也按 非递减顺序 排序。 示例 1: 输入:nums [-4,-1,0,3,10] 输…

Obsidian 数据可视化深度实践:用 DataviewJS 与 Charts 插件构建智能日报系统

Obsidian 数据可视化深度实践:用 DataviewJS 与 Charts 插件构建智能日报系统 一、核心架构解析 本系统基于 Obsidian 的 DataviewJS 和 Charts 插件,实现日报数据的自动采集、可视化分析及智能回溯功能(系统架构原理见)。其技术…

深入解析Spring Boot与Kafka集成:构建高效消息驱动应用

深入解析Spring Boot与Kafka集成:构建高效消息驱动应用 引言 在现代分布式系统中,消息队列是实现异步通信和解耦的关键技术之一。Apache Kafka作为一款高性能、分布式的消息队列系统,广泛应用于大数据和实时数据处理场景。本文将详细介绍如…

Rust 学习笔记:关于生命周期的练习题

Rust 学习笔记:关于生命周期的练习题 Rust 学习笔记:关于生命周期的练习题生命周期旨在防止哪种编程错误?以下代码能否通过编译?若能,输出是?如果一个引用的生命周期是 static,这意味着什么&…

word解决不同文档同样的字体段落设置下看起来行距不同的问题

问题: 有时候我们照着模板修改文档格式,明明字体和段落设置一模一样,但是看起来行距不一样。 解决办法: 一般照着模板修改文档内容,要注意以下几点,如果以下几点与模板设置相同时就可解决上述问题 1、纸…

Jenkins实践(9):配置“构建历史的显示名称,加上包名等信息“

Jenkins实践(9):配置“构建历史的显示名称,加上包名等信息“ 版本:Jenkins 4.262.2 需求:想要在构建历史中展示,本次运行的是哪个版本或哪个包 操作步骤: 1、先安装插件Build Name and Description Setter 2、Set Build Name 3、构建历史处查看展示 插件特性说明 安装依赖…

matIo库及.mat数据格式介绍

一.概述 1..mat数据格式 (1).mat 是 MATLAB 软件的标准二进制数据存储格式,用于保存变量、矩阵、数组、结构体等数据类型。其名称源于 “MATLAB Data” 的缩写,最初设计为高效存储和加载 MATLAB 环境中的数据,后来逐…

企业级调度器LVS (面试版)

1. 什么是 LVS?有什么作⽤? LVS ( Linux Virtual Server )是⼀个基于 Linux 内核实现的⾼性能、可扩展和可靠的负载均衡。它将多个服务器组成⼀个⾼可⽤、⾼性能和⾼可靠的虚拟服务器集群,通过将客户端的请求转发到不同的后端服务器,实现负载均衡和⾼可⽤性。 2.什么是 …

用python制作一个简易的聊天室软件

文章目录 效果图python源码使用说明效果图 只需要一百多行的python代码,就能制作一个简易的聊天室软件。效果如下: 操作说明: 1、先运行server.py启动服务器; 2、每运行一次client.py可以创建一个聊天用户(需要输入用户昵称); 3、输入对方的昵称即可与其聊天,输入“a…

Android13 开机时间优化

前言 在实际应用场景中,特定领域对 Android 系统的启动时间有着极为严苛的要求,车载领域便是典型代表。想象一下,当车辆已经行驶出数公里之遥,车内的信息娱乐系统(IVI)却仍未完成启动,这无疑会…

08SpringBoot高级--自动化配置

目录 Spring Boot Starter 依赖管理解释 一、核心概念 二、工作原理 依赖传递: 自动配置: 版本管理: 三、核心流程 四、常用 Starter 示例 五、自定义 Starter 步骤 创建配置类: 配置属性: 注册自动配置&a…

基于cornerstone3D的dicom影像浏览器 第二十四章 显示方位、坐标系、vr轮廓线

系列文章目录 文章目录 系列文章目录前言一、工具栏修改二、切片窗口显示方位文字1. 修改mprvr.js,添加函数getOrientationMarkers2. 修改DisplayerArea3D.vue 三、vr窗口显示坐标系1. 修改mprvr.js 添加OrientationMarkerTool2. view3d.vue中响应工具栏事件3. 修改…

【C/C++】线程局部存储:原理与应用详解

文章目录 1 基础概念1.1 定义1.2 初始化规则1.3 全局TLS vs 局部静态TLS 2 内存布局2.1 实现机制2.2 典型内存结构2.3 性能特点 3 使用场景/用途3.1 场景3.2 用途 4 注意事项5 对比其他技术6 示例代码7 建议7.1 调试7.2 优化 8 学习资料9 总结 在 C 多线程编程中,线…

【图像大模型】IP-Adapter:图像提示适配器的技术解析与实践指南

IP-Adapter:图像提示适配器的技术解析与实践指南 一、项目背景与技术价值1.1 图像生成中的个性化控制需求1.2 IP-Adapter的核心贡献 二、技术原理深度解析2.1 整体架构设计2.2 图像特征编码器2.3 训练策略 三、项目部署与实战指南3.1 环境配置3.2 模型下载3.3 基础生…

MySQL-5.7 修改密码和连接访问权限

一、MySQL-5.7 修改密码和连接权限设置 修改密码语法 注意:rootlocalhost 和 root192.168.56.% 是两个不同的用户。在修改密码时,两个用户的密码是各自分别保存,如果两个用户密码设置不一样则登陆时注意登陆密码 GRANT ALL PRIVILEGES ON …

Linux基本指令篇 —— touch指令

touch是Linux和Unix系统中一个非常基础但实用的命令,主要用于操作文件的时间戳和创建空文件。下面我将详细介绍这个命令的用法和功能。 目录 一、基本功能 1. 创建空文件 2. 同时创建多个文件 3. 创建带有空格的文件名(需要使用引号) 二、…

mysql explain使用

文章目录 type 访问类型性能高到低多注意type: index 出现的场景 key 实际使用的索引Extra 额外信息其他字段 通过 EXPLAIN 你可以知道:如是否使用索引、扫描多少行、是否需要排序或临时表 EXPLAIN 三板斧(type、key、Extra) 例子&#xff1…

JMeter-SSE响应数据自动化

结构图 背景: 需要写一个JMeter脚本来进行自动化测试,主要是通过接口调用一些东西,同时要对响应的数据进行处理,包括不限于错误信息的输出。 1.SSE(摘录) SSE(Server-Sent Events)是一种基于HTTP协议、允许…