数据湖 (特点+与数据仓库和数据沼泽的对比讲解)

数据湖就像一个“数据水库”,把企业所有原始数据(结构化的表格、半结构化的日志、非结构化的图片/视频)原样存储,供后续按需分析。
对比传统数据仓库

数据仓库数据湖
数据清洗后的结构化数据(如Excel表格)原始数据(日志、图片、CSV、JSON)
模式先定义结构再存数据(Schema-on-Write)先存数据再按需定义结构(Schema-on-Read)
用途固定报表、BI分析机器学习、探索性分析、灵活挖掘

数据湖的3大核心特点

  1. 存一切原始数据
    • 例子:电商公司把用户点击日志、客服录音、商品图片都丢进数据湖。
  2. 低成本存储
    • 技术:用Hadoop HDFS、Amazon S3、阿里云OSS等分布式存储,1TB月费仅5美元。
  3. 按需分析
    • 工具:SQL查询(Hive、Presto)、机器学习(Spark ML)、可视化(Tableau)。

数据湖典型架构(3层设计)

  1. 存储层:原始数据直接存储(如AWS S3)。
  2. 处理层:清洗、转换数据(用Spark、Flink)。
  3. 服务层:供分析师、数据科学家按需使用(如用Jupyter Notebook分析)。

数据湖 vs 数据沼泽

  • 成功的数据湖:有元数据管理(知道存了什么)、访问权限控制、数据目录。
  • 失败的数据沼泽:数据乱堆不放标签,找数据像“大海捞针”。
    关键工具
  • 元数据管理:Apache Atlas、AWS Glue Data Catalog。
  • 数据治理:Collibra、Alation。

数据湖的3个实际应用

  1. 用户行为分析
    • 案例:抖音把每个用户的点击、播放、停留时间存入数据湖,训练推荐算法。
  2. 物联网(IoT)
    • 案例:特斯拉将车辆传感器数据实时写入数据湖,分析电池健康状态。
  3. 金融风控
    • 案例:支付宝用数据湖存储交易记录、地理位置、设备信息,实时检测欺诈交易。

一句话总结

数据湖 = “原始数据仓库”,存一切数据,不预设用途,需配合治理工具避免成“数据垃圾场”。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/bicheng/83096.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度剖析Node.js的原理及事件方式

早些年就接触过Node.js,当时对于这个连接前后端框架就感到很特别。尤其是以独特的异步阻塞特性,重塑了了服务器端编程的范式。后来陆陆续续做了不少项目,通过实践对它或多或少增强了不少理解。今天,我试着将从将从原理层剖析其运行…

【AI预测】5月30日尼克斯大战前瞻:东部黑马能否再下一城?

🏀 随着赛季进入白热化阶段,5月30日尼克斯的这场比赛注定焦点十足。作为东部近年来少有的“黑马型”球队,尼克斯用硬朗的防守和团队配合让人重新认识了这支老牌劲旅。 这篇文章,我们将从数据模型球员表现战术执行力三个维度&…

人工智能赋能基础教育个性化学习的理论建构与实践探索

一、引言 1.1 研究背景与意义 随着科技的飞速发展,人工智能(Artificial Intelligence,AI)已逐渐成为推动社会进步的重要力量。在教育领域,人工智能的应用正逐步改变传统的教学模式,为个性化学习提供了新…

历年四川大学计算机保研上机真题

2025四川大学计算机保研上机真题 2024四川大学计算机保研上机真题 2023四川大学计算机保研上机真题 在线测评链接:https://pgcode.cn/school 分数求和 题目描述 有一分数序列: 2 / 1 2/1 2/1, 3 / 2 3/2 3/2, 5 / 3 5/3 5/3, 8 / 5 8/5 8/5, 13 /…

正点原子Z15I ZYNQ 开发板发布!板载PCIe2.0、SPFx2、MIPI CSI等接口,资料丰富!

正点原子Z15I ZYNQ 开发板发布!板载PCIe2.0、SPFx2、MIPI CSI等接口,资料丰富! 正点原子Z15I ZYNQ开发板,核心板全工业级设计,主控芯片的型号是XC7Z015CLG485-2I。开发板由核心板+底板组成,外设…

Ubuntu 22.04 上使用 Docker 安装 RagFlow

GitHub地址:添加链接描述 RAGFlow 是一款开源的检索增强生成(Retrieval-Augmented Generation,简称 RAG)引擎,旨在通过深度文档理解技术,结合大语言模型(LLM),为用户提供高质量、可溯源的问答服务。 🚀 快速入门 RAGFlow 提供了便捷的部署方式,支持 Docker 环境。…

【论文阅读】DanceGRPO: Unleashing GRPO on Visual Generation

DanceGRPO: Unleashing GRPO on Visual Generation 原文摘要 研究背景与问题 生成模型的突破:扩散模型和整流流等生成模型在视觉内容生成领域取得了显著进展。核心挑战:如何让模型的输出更好地符合人类偏好仍是一个关键问题。现有方法的局限性&#xff1…

Milvus可视化客户端Attu安装与使用指南

导读:在向量数据库运维管理中,开发者往往面临着复杂的命令行操作和繁琐的API调用挑战。作为Milvus向量数据库的官方图形化管理工具,Attu为这一痛点提供了优雅的解决方案。 本文深入解析Attu的核心架构和实用功能,重点介绍其在数据…

C# 结合PaddleOCRSharp搭建Http网络服务

Windows打开端口: 控制面板 > 系统和安全 > 防火墙> 高级设置 → 入站规则 → 右侧选择 → 新建规则 → 端口 → 协议类型 TCP→ 端口 using System; using System.Drawing; using System.IO; using System.Net; using System.Text; using System.Threadi…

【论文精读】2024 ECCV--MGLD-VSR现实世界视频超分辨率(RealWorld VSR)

文章目录 一、摘要二、问题三、Method3.1 Latent Diffusion Model3.2 Motion-guided Diffusion Sampling3.3 Temporal-aware Decoder Fine-tuning 四、实验设置4.1 训练阶段4.2 训练数据 贡献总结 论文全称: Motion-Guided Latent Diffusion for Temporally Consis…

初学c语言21(文件操作)

一.为什么使用文件 之前我们写的程序的数据都是存储到内存里面的,当程序结束时,内存回收,数据丢失, 再次运行程序时,就看不到上次程序的数据,如果要程序的数据一直保存得使用文件 二.文件 文件一般可以…

历年厦门大学计算机保研上机真题

2025厦门大学计算机保研上机真题 2024厦门大学计算机保研上机真题 2023厦门大学计算机保研上机真题 在线测评链接:https://pgcode.cn/school 数字变换过程的最大值与步数 题目描述 输入一个数字 n n n,如果 n n n 是偶数就将该偶数除以 2 2 2&…

MySql--定义表存储引擎、字符集和排序规则

示例: CREATE TABLE users (id INT PRIMARY KEY,name VARCHAR(50) CHARACTER SET utf8mb4 COLLATE utf8mb4_0900_ai_ci,email VARCHAR(100) ) ENGINEInnoDB DEFAULT CHARSETutf8mb4 COLLATEutf8mb4_0900_ai_ci;注意事项: 字符集和排序规则可以按列覆盖表…

深耕数字化赛道,联众优车以创新风控体系构筑汽车金融护城河

近年来,在汽车金融市场规模持续扩大的行业背景下,企业风险管理能力已成为决定市场竞争格局的关键要素。面对快速扩张的市场需求,银保监会2024年发布的《汽车金融公司监管评级办法》明确要求行业强化风控能力建设,央行《金融科技发…

第十九章 正则表达式

第十九章 正则表达式 文本型数据在所有的类UNIX系统(如 Linux)中会扮演着重要角色,在完全领会这些工具的全部特征之前,要先了解一下工具最为复杂的用法和相关技术:正则表达式。 什么是正则表达式 简单地说,正则表达式是一种用于…

内存监控方法与要点详解

引言 在软件性能测试领域,内存管理是评估系统稳定性和性能的关键指标之一。作为软件测试工程师,我们经常遇到因内存泄漏、内存溢出等问题导致的系统崩溃或性能下降。本文将深入探讨性能测试中内存监控的方法和要点,帮助测试团队更有效地识别…

56、Ocelot 概述

Ocelot 是一个基于 .NET Core 开发的开源 API 网关,主要用于微服务架构中,为多个后端服务提供统一的访问入口。它通过集中化管理请求路由、认证、限流、负载均衡等功能,简化了客户端与后端服务之间的交互,同时增强了系统的安全性和…

如何将多张图组合到一张图里同时保留高的分辨率(用PPT+AdobeAcrobat)

文章目录 一、用PPT排版得到一页排布了很多图片的PPT二、用AdobeAcrobat打开pdf文件三、最后得到的图片 一、用PPT排版得到一页排布了很多图片的PPT 步骤如下 ①将幻灯片大小的长设置为17.2,宽根据图像多少进行调整,我这里是10 幻灯片大小的长设置步骤&…

【Web应用】若依框架:基础篇12 项目结构

文章目录 ⭐前言⭐一、课程讲解🌟1、寻找合适的对象✨1) ⭐二、怎样选择设计模式?🌟1、寻找合适的对象✨1) ⭐三、怎样使用设计模式?🌟1、寻找合适的对象✨1) ⭐总结 标题详情作者JosieBook头衔CSDN博客专家资格、阿里…

SolidWorks 文件打开时电脑卡顿问题分析与解决

最近遇到一个问题就是我点击solid work的文件的时候会将电脑卡住然后电脑开始飞速的加载内存,鼠标移动很卡顿 解决办法: 1.找到资源管理器 当遇到这种情况时,可以尝试通过资源管理器来解决问题。首先,找到任务管理器&#xff08…