大数据学习(133)-Hive数据分析2

​​​​🍋🍋大数据学习🍋🍋

🔥系列专栏: 👑哲学语录: 用力所能及,改变世界。
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博主哦🤞


十一、分组去重(保留每组最新 / 最早记录)

核心思路
使用窗口函数 ROW_NUMBER() 按分组排序,保留指定顺序的第一条记录。
典型例题:查询每个用户最后一次登录记录。
代码模板

WITH ranked_logins AS (SELECT user_id,login_date,ROW_NUMBER() OVER (PARTITION BY user_id ORDER BY login_date DESC  -- 降序取最新,升序取最早) AS rnFROM user_login
)
SELECT user_id, login_date
FROM ranked_logins
WHERE rn = 1;

十二、间隔计算(事件时间差分析)

核心思路
用窗口函数 LAG()/LEAD() 获取相邻行的时间值,计算时间间隔。
典型例题:计算用户两次登录的时间间隔(分钟)。
代码模板

SELECT user_id,login_date,TIMESTAMPDIFF(MINUTE, LAG(login_date) OVER (PARTITION BY user_id ORDER BY login_date), login_date) AS interval_minutes
FROM user_login
ORDER BY user_id, login_date;

十三、行列转换(行转列 / 列转行)

核心思路

  • 行转列:用 CASE WHEN 配合聚合函数(如 MAX/SUM)实现。
  • 列转行:用 LATERAL VIEW 或 UNNEST 展开列数据。
    典型例题:将用户月度活跃天数转为列(行转列)。
    代码模板
SELECT user_id,MAX(CASE WHEN month = 1 THEN active_days ELSE 0 END) AS jan_active,MAX(CASE WHEN month = 2 THEN active_days ELSE 0 END) AS feb_active,...
FROM (SELECT user_id,MONTH(login_date) AS month,COUNT(DISTINCT login_date) AS active_daysFROM user_loginGROUP BY user_id, MONTH(login_date)
) t
GROUP BY user_id;

十四、流量路径分析(漏斗模型)

核心思路
用 COUNT(DISTINCT) 按阶段过滤用户,计算各阶段转化率。
典型例题:计算注册→浏览→下单的漏斗转化率。
代码模板

WITH funnel_stages AS (SELECT user_id,MAX(CASE WHEN event = 'register' THEN 1 ELSE 0 END) AS registered,MAX(CASE WHEN event = 'browse' THEN 1 ELSE 0 END) AS browsed,MAX(CASE WHEN event = 'order' THEN 1 ELSE 0 END) AS orderedFROM user_eventsGROUP BY user_id
)
SELECT SUM(registered) AS total_registrants,SUM(browsed)/SUM(registered) AS reg_to_browse_rate,SUM(ordered)/SUM(browsed) AS browse_to_order_rate
FROM funnel_stages;

十五、字符串处理(提取、替换、分割)

核心思路
使用字符串函数(如 SUBSTRINGREGEXP_EXTRACTREPLACE)处理非结构化数据。
典型例题:从 URL 中提取域名(如 https://www.example.com/path → example.com)。
代码模板

SELECT url,REGEXP_EXTRACT(url, 'https?://(www\\.)?([^/]+)', 2) AS domain
FROM urls;

十六、递归查询(层级结构数据处理)

核心思路
使用 WITH RECURSIVE 递归 CTE 处理树状结构数据(如部门层级、类目层级)。
典型例题:查询所有子部门及其上级部门路径。
代码模板(MySQL 示例):

WITH RECURSIVE dept_hierarchy AS (-- 初始节点:根部门SELECT dept_id, parent_id, dept_name, CAST(dept_name AS CHAR(100)) AS pathFROM departmentsWHERE parent_id IS NULL  -- 根节点条件UNION ALL-- 递归查询:关联子部门SELECT d.dept_id, d.parent_id, d.dept_name, CONCAT(h.path, ' → ', d.dept_name)FROM departments dJOIN dept_hierarchy h ON d.parent_id = h.dept_id
)
SELECT * FROM dept_hierarchy;

十七、会话分析(用户行为会话划分)

核心思路
通过事件时间间隔划分会话,间隔超过阈值则视为新会话(如 30 分钟无操作)。
典型例题:计算每个用户的会话数及会话时长。
代码模板

WITH session_data AS (SELECT user_id,event_time,-- 生成会话标识:时间差超过30分钟则新会话SUM(CASE WHEN TIMESTAMPDIFF(MINUTE, LAG(event_time) OVER (PARTITION BY user_id ORDER BY event_time), event_time) > 30 THEN 1 ELSE 0 END) OVER (PARTITION BY user_id ORDER BY event_time) AS session_idFROM user_events
)
SELECT user_id,session_id,MIN(event_time) AS session_start,MAX(event_time) AS session_end,TIMESTAMPDIFF(MINUTE, MIN(event_time), MAX(event_time)) AS session_duration
FROM session_data
GROUP BY user_id, session_id;

十八、同比环比进阶(跨年度对比)

核心思路
用窗口函数 LAG() 关联去年同期数据,计算同比增长率。
典型例题:计算 2023 年各月销售额同比 2022 年的增长率。
代码模板

WITH monthly_sales AS (SELECT YEAR(sale_date) AS year,MONTH(sale_date) AS month,SUM(amount) AS salesFROM salesGROUP BY YEAR(sale_date), MONTH(sale_date)
)
SELECT year,month,sales,LAG(sales, 12) OVER (ORDER BY year, month) AS sales_last_year,(sales - LAG(sales, 12) OVER (ORDER BY year, month)) / LAG(sales, 12) OVER (ORDER BY year, month) AS yoy_growth
FROM monthly_sales
WHERE year = 2023;

十九、抽样分析(随机采样数据)

核心思路
用 RAND() 生成随机数,配合 WHERE 过滤实现抽样(如抽取 10% 数据)。
典型例题:从订单表中随机抽取 5% 样本用于分析。
代码模板

SELECT *
FROM orders
WHERE RAND() < 0.05;  -- 抽取5%样本

二十、数据透视表(多维度交叉分析)

核心思路
用 GROUP BY 结合聚合函数,按多个维度(如时间、地区、品类)交叉统计。
典型例题:按年份、地区统计各品类销售额占比。
代码模板

WITH category_sales AS (SELECT YEAR(sale_date) AS year,region,category,SUM(amount) AS salesFROM salesGROUP BY YEAR(sale_date), region, category
)
SELECT year,region,SUM(CASE WHEN category = 'A' THEN sales ELSE 0 END) AS cat_A_sales,SUM(CASE WHEN category = 'B' THEN sales ELSE 0 END) AS cat_B_sales,SUM(sales) AS total_sales,SUM(sales)/SUM(SUM(sales)) OVER (PARTITION BY year, region) AS category_ratio
FROM category_sales
GROUP BY year, region;

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/web/83365.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

IDEA 连接 Docker 一键打镜像

首先&#xff0c;检查 IDEA 是否安装了 Docker 插件&#xff1a; 版本比较新的 IDEA 默认都安装了这个插件&#xff0c;如果没有安装&#xff0c;安装一下。 确保我们虚拟机上安装了 Docker 和 Docker-compose&#xff0c;并启动了 Docker。 找到 IDEA 下方的 Services tab 栏…

第六讲——一元函数微分学的应用之中值定理、微分等式与微分不等式

文章目录 连续函数性质定理定理1 有界与最值定理定理2 介值定理定理3 平均值定理定理4 零点定理定理5 费马定理导数介值定理(达布定理) 中值定理罗尔定理拉格朗日中值定理柯西中值定理泰勒公式 讨论方程的根问题——微分等式证明不等式问题使用函数的性质(单调性、凹凸性、最值…

2025.06.11【Ribo-seq】|用CPAT预测sORF序列的编码潜能

文章目录 前言一、准备工作1. 安装CPAT2. 下载物种特异性模型 二、准备sORF核酸序列1. 获取sORF的拼接核酸序列示例脚本&#xff08;假设已获得外显子fasta&#xff09;&#xff1a; 三、运行CPAT预测编码潜能1. 准备CPAT模型和hexamer表2. 运行CPAT 四、结果解读五、常见问题与…

Hive面试题汇总

一、hive架构相关 遇到这类问题&#xff0c;可以灵活的去回答&#xff0c;比如可以结合平时使用hive的经验作答&#xff0c;也可以结合下图从数据的读入、解析、元数据的管理&#xff0c;数据的存储等角度回答&#xff1a; 二、hive的特点 本题主要为了考察对hive的整体使用…

树莓派超全系列教程文档--(57)如何设置 Apache web 服务器

如何设置 Apache web 服务器 设置 Apache web 服务器安装 Apache测试 web 服务器更改默认网页 为 Apache 安装 PHP 文章来源&#xff1a; http://raspberry.dns8844.cn/documentation 原文网址 设置 Apache web 服务器 Apache 是一款流行的 web 服务器应用程序&#xff0c;您…

(九)现代循环神经网络(RNN):从注意力增强到神经架构搜索的深度学习演进

现代循环神经网络的内容&#xff0c;将介绍几种先进的循环神经网络架构&#xff0c;包括门控循环单元&#xff08;GRU&#xff09;、长短期记忆网络&#xff08;LSTM&#xff09;的变体&#xff0c;以及注意力机制等。这些内容将帮助你更深入地理解循环神经网络的发展和应用。 …

牛市与熊市:市场周期的双面镜

牛市推动资产增值与风险积累&#xff0c;熊市挤压泡沫并孕育机会&#xff0c;两者交替循环&#xff0c;构成市场自我调节机制。 1、概念对比&#xff1a;情绪与趋势的博弈 牛市&#xff08;Bull Market&#xff09;&#xff1a;指资产价格持续上涨&#xff08;通常涨幅超20%&a…

web程序设计期末复习-填空题

常用标签 块级标记 行内标记等 一、块级元素 特点&#xff1a; 独占一行可以设置宽度、高度、内外边距默认情况下会从上到下垂直排列 常见标签&#xff1a; 标签 含义 <div> 最常用的通用块级容器 <p> 段落 <h1>到<h6> 标题&#xff08;一级…

go全局配置redis,全局只需要连接一次,然后全局可以引用使用

创建redis文件夹、创建dadeRedis.go package redisimport ("context""github.com/go-redis/redis/v8""log""time" )var (client *redis.Clientctx context.Background() )// 初始化Redis连接&#xff08;建议在程序启动时调用&am…

缓冲区(C语言缓冲区+内核缓冲区)一个例子解释他们的关系和作用!!!

首先提出问题&#xff1a; 为什么以下代码是先sleep三秒后&#xff0c;屏幕才显示"XXXXXXX"。 #include<stdio.h> #include<unistd.h>int main() {printf("XXXXXXX");sleep(3);return 0; } 为什么以下代码是先显示"XXXXXXX"&#xf…

【2025版】Java 工程师学习路线图 —— 掌握程度描述版

✅【2025版】Java 工程师学习路线图 &#x1f4a1; 目标&#xff1a;成为合格的 Java 工程师&#xff08;前后端都要会&#xff09; &#x1f4dd; 结构清晰 | 阶段明确 | 掌握程度分级 | 适合自学或转行 &#x1f539; 阶段一&#xff1a;编程基础 计算机通识 模块内容推荐掌…

从零实现一个红队智能体

从零实现一个红队智能体(持续更新) 2025-06-09 背景&#xff1a;最近学了基础些东西和工具基础使用&#xff0c;发现一套流程下来太多需要手工要做的&#xff0c;就像自己能不能结合自己的技术栈实现小工具 &#x1f947; 第一步&#xff1a;从实用性开始分析 目标场景 希望…

Uniapp实现多选下拉框

文章目录 前言一、效果展示1.1 下拉效果图1.2 下拉选择效果图1.3 选择显示效果图 二、组件源码2.1.CustomCheckbox.vue源码2.2.niceui-popup-select.vue源码 三、demo.vue代码演示 前言 之前在使用Uniapp时&#xff0c;一直都是下拉框单选。今天某个项目需求需要使用Uniapp实现…

JavaScript-Array.from

Array.from() 是 JavaScript 中用于将类数组对象&#xff08;array-like&#xff09;或可迭代对象&#xff08;iterable&#xff09;转换为真实数组的一个非常有用的方法。 &#x1f4cc; 一、基本语法 Array.from(arrayLike, mapFn?, thisArg?)参数说明&#xff1a; 参数类…

二刷苍穹外卖 day02

新增员工 DTO 将前端传递的参数列表通过对应的实体类接收 当前端提交的数据和实体类中对应的属性差别较大时&#xff0c;使用DTO来封装数据 Data public class EmployeeDTO implements Serializable {private Long id;private String username;private String name;private…

通过Heron Handoff 插件我们在figma设计中可以像sketch导出离线标注

一、设计交付的历史困境与破局契机 在数字产品开发的全流程中&#xff0c;设计标注的高效传递始终是连接创意与实现的关键纽带。传统设计工具如 Sketch 凭借 Bluebeam、Sketch Measure 等插件构建了成熟的离线标注体系&#xff0c;设计师可将标注文件打包交付&#xff0c;开发…

SSE 数据的传输无法流式获取

问题 调试过程中发现SSE数据返回的时间都是一样的&#xff0c;怀疑是接口问题。 参考 EventSource数据一次性出来&#xff0c;并未流式输出的原因_sourceevent为什么结果一下全部返回了-CSDN博客 处理 EventStream 不能流式返回的问题&#xff1a;Nginx 配置优化 解决方案 …

markdown文本转换时序图

好久没更新了~这篇是markdown文本转换时序图的常用方法 文章目录 前言一、Mermaid语法示例二、PlantUML语法示例三、在线工具快速转换总结 前言 使用专业工具如Mermaid或PlantUML可以直接在Markdown中绘制时序图。这些工具支持简洁的语法&#xff0c;生成可嵌入文档的图表&…

谷粒商城-分布式微服务 -集群部署篇[一]

十九、k8s 集群部署 19.1 k8s 快速入门 19.1.1 简介 Kubernetes 简称 k8s。是用于自动部署&#xff0c;扩展和管理容器化应用程序的开源系统。 中文官网 中文社区 官方文档 社区文档 概述 | Kubernetes 传统部署时代&#xff1a; 早期&#xff0c;各个组织是在物理服务器上…

微信小程序- 用canvas生成排行榜

设计功能不是很复杂&#xff0c;也不想用插件&#xff0c;最终出现现在版本&#xff0c;主要用到微信小程序 wx.canvasToTempFilePath方法 // 直接调用改方法 createQRCode() {const qrCodeCanvasId "qrcodeCanvas";drawQrcode({width: 200,height: 200,canvasId: …