大数据与数据分析【数据分析全栈攻略:爬虫+处理+可视化+报告】

- 第 100 篇 -
Date: 2025 - 05 - 25
Author: 郑龙浩/仟墨

大数据与数据分析

文章目录

  • 大数据与数据分析
  • 一 大数据是什么?
    • 1 定义
    • 2 大数据的来源
    • 3 大数据4个方面的典型特征(4V)
    • 4 大数据的应用领域
    • 5 数据分析工具
    • 6 数据是五种生产要素之一
  • 二 数据分析 – 科学算命
    • 1 定义
    • 2 经常用到的数据
      • ①负责处理数据的工具
      • ②负责清洗数据的工具
    • 3 数据分析过程
  • 三 大数据分析类型和方法
    • 1 四种类型
    • 2 描述性数据分析 – 结果监控
    • 3 诊断性数据分析 – 问题诊断
    • 4 预测性数据分析 – 智能预测
    • **5 规范性分析 – 决策支持**
    • 6 数据分析四种方法
  • 四 数据分析流程
    • 1 明确分析目标
    • 2 搜集所需数据
    • 3 数据处理
    • 4 数据分析和挖掘
    • 5 数据可视化
    • 6 撰写数据报告
  • 五 数据分析工具的选择
    • 1 数据分析工具有哪些:
    • 2 Excel
    • 3 MATLAB
    • 4 Python

一 大数据是什么?

1 定义

研究机构Gartner给出了这样的定义。大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。

2 大数据的来源

  • 交易数据

    如:微信数据、支付宝数据、信用卡数据

  • 人为数据

    如:电子邮件、文档、图片、微博

  • 机器传感器数据

    如:智能家居、物联网

3 大数据4个方面的典型特征(4V)

  1. 大量(Voume)

    全地球的数据总量非常庞大

  2. 多样(Varlety)

    • 结构化数据
    • 半结构化数据
    • 非结构化数据

    产生价值的数据往往是非结构化数据

  3. 高速(Velocity)

    大数据高速的体现:

    数据的增长速度和处理速度

  4. 价值(Value)

    大数据的核心特征是**“价值”**

4 大数据的应用领域

  1. 金融
    • 风险管理:欺诈检测、信用评分
    • 智能投顾:量化交易、市场趋势预测
    • 客户分析:精准营销、个性化推荐
  2. 医疗
    • 疾病诊断:AI影像识别、电子病历分析
    • 药物研发:临床试验优化、副作用预测
    • 公共卫生:流行病监测、医疗资源优化
  3. 能源
    • 智能电网:用电预测、动态定价
    • 设备维护:故障预警、远程监控
    • 可再生能源:风能/太阳能发电优化
  4. 零售
    • 市场分析:竞品监测、价格调整
    • 精准营销:用户画像、个性化推荐
    • 供应链优化:库存管理、物流效率提升
  5. 城市治理(智慧城市)
    • 交通管理:拥堵预测、智能红绿灯
    • 公共安全:犯罪热点预测、应急响应
    • 资源规划:人口分布分析、设施优化
  6. 教育
    • 个性化学习:学习行为分析、自适应推荐
    • 教学优化:课程评估、教师绩效分析
    • 教育管理:招生预测、资源分配

5 数据分析工具

Python,Excel,R…

6 数据是五种生产要素之一

  • 2014年大数据被首次写入中国**《政府工作报告》**

  • 2020年4月9日中共中央发布**《关于更加完善的要素试产化配置体制机制的意见》**

    将数据、土地、劳动力、资本、技术并称为五种生产要素

二 数据分析 – 科学算命

1 定义

指用适当的统计分析方法对收集来的大量数据进行数据研究和大量总结,从而提取有效信息和形成结论的过程,它是数学和计算机科学相结合的产物。

2 经常用到的数据

①负责处理数据的工具

  • Excel
  • R
  • Tableau

②负责清洗数据的工具

  • SQL
  • Python

3 数据分析过程

主要包括:

  1. 识别需求
  2. 收集数据
  3. 分析数据
  4. 过程改进

三 大数据分析类型和方法

1 四种类型

企业通过大数据分析创造价值分为四种类型:

  • 描述性数据分析 – 结果监控

    即 “发生了什么?”

  • 诊断性数据分析 – 问题诊断

    即 “为什么发生?”

  • 预测性数据分析 – 智能预测

    即 “未来会怎样?”

  • 规范性数据分析 – 决策支持

    即 “该怎么做?”

从描述性到规范性复杂性和工作量在逐步增加,机器化参与程度更高

2 描述性数据分析 – 结果监控

  • 目标:回答“发生了什么?
  • 方法:数据聚合、可视化(如Tableau)
  • 例子
    • 销售日报(月度销售额统计)
    • 用户活跃度仪表盘

3 诊断性数据分析 – 问题诊断

  • 目标:回答“发生了什么?
  • 方法:关联分析、根因分析(如SQL查询、漏斗分析)
  • 例子
    • 某月销量下降的原因(渠道对比、用户流失分析)
    • 网站跳出率高的关键页面定位

4 预测性数据分析 – 智能预测

  • 目标:回答“未来会怎样?
  • 方法:机器学习(回归、分类、时序模型)
  • 例子
    • 下季度销售额预测
    • 客户流失概率预测

5 规范性分析 – 决策支持

借助新兴技术,处于数据分析领域的前沿,也是最高级的分析形式,因为它涵盖了所有的数据分析类型,然后输出模型规定要采取的措施

预测某一决策中涉及的多种情况结果,根据发现结果确定最佳的行动方案。

  • 目标:回答“该怎么做?
  • 方法:优化算法、自动化决策(如强化学习、运筹学)
  • 例子
    • 电商个性化推荐(提升转化率)
    • 物流路径动态优化(降低成本)

6 数据分析四种方法

  • 趋势

    • 追踪数据的趋势变化,找到一些增长和下降的拐点,去分析对应的原因。

    • 趋势分析一般而言,适用于产品的核心指标的长期跟踪

      Eg:营业收入、活跃用户、网页点击

    • 做出简单的数据趋势图并不是数据趋势分析,趋势分析更多的是需要明确数据的变化,以及对变化原因进行分析

  • 对比

    • 无对比 不分析

    • 对比就是成对的比较

      横向对比(和他人比较),比如两家工资今年的毛利率

      纵向对比(和自己比较),一家工资今年与去年的毛利率

  • 细分

    • 增加分析的深度
    • 细分是指分维度,降低数据颗粒度来分析数据
    • 分维度是只增加维度
    • 降低粒度是指降低数据聚合程度,比如离职率不按照年份来统计,而按照周。
  • 溯源

    • 溯源:从原始数据中获得洞察
    • 是指在对比、细分锁定到具体维度和颗粒度后依然没有结论,那就需要查找原始数据,洞察数据,就需要从原始数据中查找灵感。

四 数据分析流程

现在数据产生速度快,体量大,类型多,价值密度低,要想产生有价值的数据,大数据分析能力必定是未来职场人都应具备的条件

1 明确分析目标

  • 确保数据分析过程有效进行的先决条件:明确数据分析目的,确定分析思路
  • 为数据的手机、处理、分析提供清晰的指引方向
  • 搭建框架

2 搜集所需数据

  • 明确分析目的和分析框架后,需要数据进行支撑,数据的来源是哪里呢?
  • 数据分为第一手数据和第二手数据
    • 第一手数据:可直接获取的数据
    • 第二手数据:加工处理后的数据
  • 一般数据主要来源于
    • 企业内部的数据库、公开出版物、互联网公开数据
  • 如果需要获取某公司某年的年报,复制粘贴太过于麻烦,这时候就可以通过Python使用网络爬虫获取数据

3 数据处理

  • 获取到想要的数据后,如果想为后续数据分析或挖掘所用,必须经过数据处理
  • 基本目的是:从大量的、杂乱无章且那一理解的数据中获得有效且有价值的数据
  • 数据处理主要包括:
    • 数据清晰
    • 数据集成
    • 数据变换
    • 数据规约
  • 优秀的大数据分析师会用 70 ~ 90% 的时间来处理他们的数据。

4 数据分析和挖掘

  • 数据分析是指用适当的分析方法及其工具,对处理过的数据进行分析,企业内部的数据库、公开出版物、互联网公开数据的过程

  • 数据挖掘是一种高级的数据分析方法,从大量数据中挖掘有用信息,根绝用户特定要求,找出所需信息

  • 数据挖掘侧重解决四类数据分析问题

    • 分类
    • 聚类
    • 关联
    • 预测

    重点在寻找模式和规律,与数据分析和数据挖掘的本质是类似的

5 数据可视化

  • 数据可视化是以简单以及直观的图像方式传达出数据包含的信息,增强数据的易读性
  • 数据分析得到结论后,用合适的图形表达分析结果
    • 折线图 – 表示趋势变化
    • 饼状图 – 表示比例
    • 散点图 – 表示各变量之间的相关性等
  • 数据可视化是将数据结果呈现给数据使用部门的最佳方式

6 撰写数据报告

需要将数据分析得出的内容汇总成数据分析报告,数据报告主要包含下面的内容:

  • 报告背景

    主要描述分析的业务现状和要解决的问题

  • 数据基本状况

    主要体现教据来源及可靠性、数据维度概览、数据完整性等

  • 可视化图标

    每个数据指标和数据结论的可视化展示

  • 决策建议

    提供问题可行的解决方案

五 数据分析工具的选择

在企业中越来越多的重复性和低价值工作被机器人取代,数据分析已经成为每个岗位的重要内容,因此选择合适的数据分析工具非常重要!!!!!!

1 数据分析工具有哪些:

Excel、MATLAB、Python、R语言

2 Excel

  • 可以用于:数据处理、统计分析

  • 广泛用于管理、统计、财经等领域

  • 局限性:

    复用性差、功能单一、操作繁琐

3 MATLAB

  • 是专为科学计算、数据统计开发的分析工具,上手较难,上课学生学习起来比较吃力

4 Python

从海量数据中获取有效数据,如果复制粘贴并且在Excel中进行数据分析处理,处理繁琐且效率低下,那么如何在海量的数据中获得有效的数据呢?

这时候Python就有很大的作用了,把它用到工作中可以用于 获取数据、分析数据

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908057.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

uniapp 开发企业微信小程序,如何区别生产环境和测试环境?来处理不同的服务请求

在 uniapp 开发企业微信小程序时,区分生产环境和测试环境是常见需求。以下是几种可靠的方法,帮助你根据环境处理不同的服务请求: 一、通过条件编译区分(推荐) 使用 uniapp 的 条件编译 语法,在代码中标记…

青少年编程与数学 02-020 C#程序设计基础 15课题、异常处理

青少年编程与数学 02-020 C#程序设计基础 15课题、异常处理 一、异常1. 异常的分类2. 异常的作用小结 二、异常处理1. 异常处理的定义2. 异常处理的主要组成部分3. 异常处理的作用小结 三、C#异常处理1. 异常的基本概念2. 异常处理的关键字3. 异常处理的流程4. 自定义异常5. 异…

云原生时代 Kafka 深度实践:05性能调优与场景实战

5.1 性能调优全攻略 Producer调优 批量发送与延迟发送 通过调整batch.size和linger.ms参数提升吞吐量: props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384); // 默认16KB props.put(ProducerConfig.LINGER_MS_CONFIG, 10); // 等待10ms以积累更多消息ba…

在 Dify 项目中的 Celery:异步任务的实现与集成

Celery 是一个强大而灵活的分布式任务队列系统,旨在帮助应用程序在后台异步运行耗时的任务,提高系统的响应速度和性能。在 Dify 项目中,Celery 被广泛用于处理异步任务和定时任务,并与其他工具(如 Sentry、OpenTelemet…

Pytorch Geometric官方例程pytorch_geometric/examples/link_pred.py环境安装教程及图数据集制作

最近需要训练图卷积神经网络(Graph Convolution Neural Network, GCNN),在配置GCNN环境上总结了一些经验。 我觉得对于初学者而言,图神经网络的训练会有2个难点: ①环境配置 ②数据集制作 一、环境配置 我最初光想…

2025年微信小程序开发:AR/VR与电商的最新案例

引言 微信小程序自2017年推出以来,已成为中国移动互联网生态的核心组成部分。根据最新数据,截至2025年,微信小程序的日活跃用户超过4.5亿,总数超过430万,覆盖电商、社交、线下服务等多个领域(WeChat Mini …

互联网向左,区块链向右

2008年,中本聪首次提出了比特币的设想,这打开了去中心化的大门。 比特币白皮书清晰的描述了去中心化支付的解决方案,并分别从以下几个方面阐述了他的理念: 一、由转账双方点对点的通讯,而不通过中心化的第三方&#xf…

PV操作的C++代码示例讲解

文章目录 一、PV操作基本概念(一)信号量(二)P操作(三)V操作 二、PV操作的意义三、C中实现PV操作的方法(一)使用信号量实现PV操作代码解释: (二)使…

《对象创建的秘密:Java 内存布局、逃逸分析与 TLAB 优化详解》

大家好呀!今天我们来聊聊Java世界里那些"看不见摸不着"但又超级重要的东西——对象在内存里是怎么"住"的,以及JVM这个"超级管家"是怎么帮我们优化管理的。放心,我会用最接地气的方式讲解,保证连小学…

简单实现Ajax基础应用

Ajax不是一种技术,而是一个编程概念。HTML 和 CSS 可以组合使用来标记和设置信息样式。JavaScript 可以修改网页以动态显示,并允许用户与新信息进行交互。内置的 XMLHttpRequest 对象用于在网页上执行 Ajax,允许网站将内容加载到屏幕上而无需…

详解开漏输出和推挽输出

开漏输出和推挽输出 以上是 GPIO 配置为输出时的内部示意图,我们要关注的其实就是这两个 MOS 管的开关状态,可以组合出四种状态: 两个 MOS 管都关闭时,输出处于一个浮空状态,此时他对其他点的电阻是无穷大的&#xff…

Matlab实现LSTM-SVM回归预测,作者:机器学习之心

Matlab实现LSTM-SVM回归预测,作者:机器学习之心 目录 Matlab实现LSTM-SVM回归预测,作者:机器学习之心效果一览基本介绍程序设计参考资料 效果一览 基本介绍 代码主要功能 该代码实现了一个LSTM-SVM回归预测模型,核心流…

Leetcode - 周赛 452

目录 一,3566. 等积子集的划分方案二,3567. 子矩阵的最小绝对差三,3568. 清理教室的最少移动四,3569. 分割数组后不同质数的最大数目 一,3566. 等积子集的划分方案 题目列表 本题有两种做法,dfs 选或不选…

【FAQ】HarmonyOS SDK 闭源开放能力 —Account Kit(5)

1.问题描述: 集成华为一键登录的LoginWithHuaweiIDButton, 但是Button默认名字叫 “华为账号一键登录”,太长无法显示,能否简写成“一键登录”与其他端一致? 解决方案: 问题分两个场景: 一、…

Asp.Net Core SignalR的分布式部署

文章目录 前言一、核心二、解决方案架构三、实现方案1.使用 Azure SignalR Service2.Redis Backplane(Redis 背板方案)3.负载均衡配置粘性会话要求无粘性会话方案(仅WebSockets)完整部署示例(Redis Docker)性能优化技…

L2-054 三点共线 - java

L2-054 三点共线 语言时间限制内存限制代码长度限制栈限制Java (javac)2600 ms512 MB16KB8192 KBPython (python3)2000 ms256 MB16KB8192 KB其他编译器2000 ms64 MB16KB8192 KB 题目描述: 给定平面上 n n n 个点的坐标 ( x _ i , y _ i ) ( i 1 , ⋯ , n ) (x\_i…

【 java 基础知识 第一篇 】

目录 1.概念 1.1.java的特定有哪些? 1.2.java有哪些优势哪些劣势? 1.3.java为什么可以跨平台? 1.4JVM,JDK,JRE它们有什么区别? 1.5.编译型语言与解释型语言的区别? 2.数据类型 2.1.long与int类型可以互转吗&…

高效背诵英语四级范文

以下是结合认知科学和实战验证的 ​​高效背诵英语作文五步法​​,助你在30分钟内牢固记忆一篇作文,特别适配考前冲刺场景: 📝 ​​一、解构作文(5分钟)​​ ​​拆解逻辑框架​​ 用荧光笔标出&#xff…

RHEL7安装教程

RHEL7安装教程 下载RHEL7镜像 通过网盘分享的文件:RHEL 7.zip 链接: https://pan.baidu.com/s/1ExLhdJigj-tcrHJxIca5XA?pwdjrrj 提取码: jrrj --来自百度网盘超级会员v6的分享安装 1.打开VMware,新建虚拟机,选择自定义然后下一步 2.点击…

结构型设计模式之Decorator(装饰器)

结构型设计模式之Decorator(装饰器) 前言: 本案例通过李四举例,不改变源代码的情况下 对“才艺”进行增强。 摘要: 摘要: 装饰器模式是一种结构型设计模式,允许动态地为对象添加功能而不改变其…