数据库管理-第332期 大数据已死,那什么当立?(20250602)

数据库管理332期 2025-06-02

  • 数据库管理-第332期 大数据已死,那什么当立?(20250602)
    • 1 概念还是技术
    • 2 必然的大数据量
    • 3 离线到实时
    • 4 未来
    • 总结

数据库管理-第332期 大数据已死,那什么当立?(20250602)

作者:胖头鱼的鱼缸(尹海文)
Oracle ACE Pro: Database
PostgreSQL ACE Partner10年数据库行业经验
拥有OCM 11g/12c/19c、MySQL 8.0 OCP、Exadata、CDP等认证
墨天轮MVP,ITPUB认证专家
圈内拥有“总监”称号,非著名社恐(社交恐怖分子)公众号:胖头鱼的鱼缸
CSDN:胖头鱼的鱼缸(尹海文)
墨天轮:胖头鱼的鱼缸
ITPUB:yhw1809。
除授权转载并标明出处外,均为“非法”抄袭

3498ff20bcec87e9052f961f06737f3.png
前两天在数据库圈历史学家司马辽太杰的朋友圈看到一段话“每隔一段时间,就有人传大数据已死的话题…”,确实好像每隔一段时间都会有人提出这个论点,更有甚者,会有人提出没有数据库该承载那么大的数据,今天我也提出下我的一些观点。

1 概念还是技术

首先,大数据到底是一种概念还是技术,也许在曾几何时,大数据就等同于Hadoop,在那段实践中大数据被看做一种技术,利用Hadoop的大数据量存放与处理能力来解决大规模数据的复杂分析需求。
但是随着软件的发展,比如搜索与数据分析引擎、列式存储数据库、分布式等技术的扩充;加上硬件的发展,计算(CPU)、缓存(内存)、IO(SSD)的巨大进步。使得实现大数据量的分析计算可以不再需要复杂臃肿的Hadoop了。
回到本小节题目,我认为大数据,在当下的大数据是一种概念,或者说是一种场景需求,简单来说就是从海量数据中获取需要的分析结果。

2 必然的大数据量

为什么有人不相信可能出现那么大的数据量,无外乎有以下一些原因:

  • 所在的公司/企业业务量就那么大,想象不出什么样的业务会带来那么大的数据量
  • 认为历史数据没有价值,仅保留很短时间内的活动数据,整体数据就很小了
  • 业务拆分的比较细,每部分业务的数据量都不大,自己也只负责这部分数据
  • 自认为自己研发能力出众,不会产生那么多冗余数据

我在类互联网公司干过,也在传统行业摸爬滚打过,我来说说对上面这些原因自己的见解:

  • 确实有业务,光是基础数据的数据量就能超出你的想象,而且这些数据还有不少是需要频繁变更的,更别说基于这些基础数据构建起来的整体业务的数据量
  • 历史数据是宝贝,先不说可以用于审计溯源,还可以通过分析得出一些很有价值的东西,比如趋势预测、反诈、构建知识库、模型训练等等
  • 无论业务拆的多细,我们最终的分析需求是需要把所有数据串联起来,这样整体的数据量就不会小
  • 菜是原罪,而且世界是个巨大的草台班子,不是每个人都那么的优秀

3 离线到实时

这里还是举个例子,以前家里宽带不能上网了,打运营商电话报障投诉,很大概率是不能立马给你说出故障原因并给出解决时限的,有些故障处理个十天半个月也不是问题,甚至有时候运营商的客服和故障处理人员态度还不大好。但现在不一样,很多时候在你电话报障的时候,就能直接给你说出故障原因,同时网络维护人员会很快给你打电话并同步故障处理进度,态度非常好。为什么会有这种变化,其主要原因一是上级通信主管单位的要求,运营商必须保证网络连通性;二是现在投诉可以直接电话到工信部,这样的投诉再下放到本地,带来的影响可会被放大很多。
运营商的数据就是上一节说到的基础数据都是海量且实时变化的,排障就是在这些海量基础数据之上结合其他相关大规模流转数据找到故障点并反馈一线快速处置,这就是一个典型的HTAP场景了。如果还是用以前相对臃肿的Hadoop来解决类似的问题,那么ETL的过程所耗费的时间往往就已经让故障工单超时了。

4 未来

其实大数据的近实时在线分析和离线分析两种场景并不是有你无他的,两种场景根据需求不同是同时存在的,只不过如前一节所说的一样,只不过很多原来没有时间要求的计算分析现在实时性要求越来越高了。依托软硬件的发展与合理的应用与数据层架构设计,可以非常便捷的实现HTAP的场景需求,另一方面我觉得以后离线大数据分析中ETL的部分完全可以交给AI来做,不仅性能更好,还能敏捷的变更需求,如果再将数据排布一并交给AI,那么离线大数据分析的性能会有一个质的提升。

总结

大数据是数据量越来越大,实时性要求越来越高环境下的一种概念或者场景需求。
老规矩,知道写了些啥。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908067.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

相机--RGBD相机

教程 分类原理和标定 原理 视频总结 双目相机和RGBD相机原理 作用 RGBD相机RGB相机深度; RGB-D相机同时获取两种核心数据:RGB彩色图像和深度图像(Depth Image)。 1. RGB彩色图像 数据格式: 标准三通道矩阵&#…

神经符号集成-三篇综述

讲解三篇神经符号集成的综述,这些综述没有针对推荐系统的,所以大致过一下,下一篇帖子会介绍针对KG的两篇综述。综述1关注的是系统集成和数据流的宏观模式“是什么”;综述3关注的是与人类理解直接相关的中间过程和决策逻辑的透明度…

window/linux ollama部署模型

模型部署 模型下载表: deepseek-r1 win安装ollama 注意去官网下载ollama,这个win和linux差别不大,win下载exe linux安装ollama 采用docker方式进行安装: OLLAMA_HOST=0.0.0.0:11434 \ docker run -d \--gpus all \-p 11434:11434 \--name ollama \-v ollama:/root/.ol…

计算A图片所有颜色占B图片红色区域的百分比

import cv2 import numpy as npdef calculate_overlap_percentage(a_image_path, b_image_path):# 读取A组和B组图像a_image cv2.imread(a_image_path)b_image cv2.imread(b_image_path)# 将图像从BGR转为HSV色彩空间,便于颜色筛选a_hsv cv2.cvtColor(a_image, c…

每日算法 -【Swift 算法】盛最多水的容器

盛最多水的容器:Swift 解法与思路分析 📌 问题描述 给定一个长度为 n 的整数数组 height,每个元素表示在横坐标 i 处的一条垂直线段的高度。任意两条线段和 x 轴构成一个容器,该容器可以装水,水量的大小由较短的那条…

云原生安全基础:Linux 文件权限管理详解

🔥「炎码工坊」技术弹药已装填! 点击关注 → 解锁工业级干货【工具实测|项目避坑|源码燃烧指南】 在云原生环境中,Linux 文件权限管理是保障系统安全的核心技能之一。无论是容器化应用、微服务架构还是基础设施即代码(IaC&#xf…

TypeScript 中的字面量类型(Literal Types)

在 TypeScript 中,字面量类型(Literal Types)是一种特殊的类型,它允许你将变量的类型限制为某个具体的值(如特定的字符串、数字或布尔值),而不仅仅是宽泛的类型(如 string、number&a…

晶台光耦在手机PD快充上的应用

光耦(光电隔离器)作为关键电子元件,在手机PD快充中扮演信号隔离与传输的“安全卫士”。其通过光信号实现电气隔离,保护手机电路免受高电压损害,同时支持实时信号反馈,优化充电效率。 晶台品牌推出KL817、KL…

python学习打卡day43

DAY 43 复习日 作业: kaggle找到一个图像数据集,用cnn网络进行训练并且用grad-cam做可视化 浙大疏锦行 数据集使用猫狗数据集,训练集中包含猫图像4000张、狗图像4005张。测试集包含猫图像1012张,狗图像1013张。以下是数据集的下…

大数据与数据分析【数据分析全栈攻略:爬虫+处理+可视化+报告】

- 第 100 篇 - Date: 2025 - 05 - 25 Author: 郑龙浩/仟墨 大数据与数据分析 文章目录 大数据与数据分析一 大数据是什么?1 定义2 大数据的来源3 大数据4个方面的典型特征(4V)4 大数据的应用领域5 数据分析工具6 数据是五种生产要素之一 二 …

uniapp 开发企业微信小程序,如何区别生产环境和测试环境?来处理不同的服务请求

在 uniapp 开发企业微信小程序时,区分生产环境和测试环境是常见需求。以下是几种可靠的方法,帮助你根据环境处理不同的服务请求: 一、通过条件编译区分(推荐) 使用 uniapp 的 条件编译 语法,在代码中标记…

青少年编程与数学 02-020 C#程序设计基础 15课题、异常处理

青少年编程与数学 02-020 C#程序设计基础 15课题、异常处理 一、异常1. 异常的分类2. 异常的作用小结 二、异常处理1. 异常处理的定义2. 异常处理的主要组成部分3. 异常处理的作用小结 三、C#异常处理1. 异常的基本概念2. 异常处理的关键字3. 异常处理的流程4. 自定义异常5. 异…

云原生时代 Kafka 深度实践:05性能调优与场景实战

5.1 性能调优全攻略 Producer调优 批量发送与延迟发送 通过调整batch.size和linger.ms参数提升吞吐量: props.put(ProducerConfig.BATCH_SIZE_CONFIG, 16384); // 默认16KB props.put(ProducerConfig.LINGER_MS_CONFIG, 10); // 等待10ms以积累更多消息ba…

在 Dify 项目中的 Celery:异步任务的实现与集成

Celery 是一个强大而灵活的分布式任务队列系统,旨在帮助应用程序在后台异步运行耗时的任务,提高系统的响应速度和性能。在 Dify 项目中,Celery 被广泛用于处理异步任务和定时任务,并与其他工具(如 Sentry、OpenTelemet…

Pytorch Geometric官方例程pytorch_geometric/examples/link_pred.py环境安装教程及图数据集制作

最近需要训练图卷积神经网络(Graph Convolution Neural Network, GCNN),在配置GCNN环境上总结了一些经验。 我觉得对于初学者而言,图神经网络的训练会有2个难点: ①环境配置 ②数据集制作 一、环境配置 我最初光想…

2025年微信小程序开发:AR/VR与电商的最新案例

引言 微信小程序自2017年推出以来,已成为中国移动互联网生态的核心组成部分。根据最新数据,截至2025年,微信小程序的日活跃用户超过4.5亿,总数超过430万,覆盖电商、社交、线下服务等多个领域(WeChat Mini …

互联网向左,区块链向右

2008年,中本聪首次提出了比特币的设想,这打开了去中心化的大门。 比特币白皮书清晰的描述了去中心化支付的解决方案,并分别从以下几个方面阐述了他的理念: 一、由转账双方点对点的通讯,而不通过中心化的第三方&#xf…

PV操作的C++代码示例讲解

文章目录 一、PV操作基本概念(一)信号量(二)P操作(三)V操作 二、PV操作的意义三、C中实现PV操作的方法(一)使用信号量实现PV操作代码解释: (二)使…

《对象创建的秘密:Java 内存布局、逃逸分析与 TLAB 优化详解》

大家好呀!今天我们来聊聊Java世界里那些"看不见摸不着"但又超级重要的东西——对象在内存里是怎么"住"的,以及JVM这个"超级管家"是怎么帮我们优化管理的。放心,我会用最接地气的方式讲解,保证连小学…

简单实现Ajax基础应用

Ajax不是一种技术,而是一个编程概念。HTML 和 CSS 可以组合使用来标记和设置信息样式。JavaScript 可以修改网页以动态显示,并允许用户与新信息进行交互。内置的 XMLHttpRequest 对象用于在网页上执行 Ajax,允许网站将内容加载到屏幕上而无需…