开源列式分布式数据库clickhouse

这里写自定义目录标题

  • 开源列式OLAP数据库clickhouse
    • clickhouse
      • 使用 ClickHouse 的场景
    • 如何理解行式存储和列式存储
    • clickhouse-go

开源列式OLAP数据库clickhouse

  • OLAP (分析型):专为快速扫描、聚合、分析海量数据设计。
  • OLTP (事务型):专为处理大量短事务(插入、更新、删除、点查)设计。

clickhouse

官网:https://clickhouse.com/
ClickHouse 是一个开源列式数据库管理系统,专为在线分析处理(OLAP)而设计。它能够快速执行高并发、高效的数据查询,适合用于处理大量数据。

ClickHouse 是由俄罗斯Yandex公司开源的,他是俄罗斯的一家互联网巨头公司,虽然在国际上没什么名气,但在俄罗斯,他就是老大,是俄罗斯排名第一的搜索引擎公司。是和谷歌、百度一样的存在。ClickHouse 诞生于 2016 年,就是来自于 Yandex 公司。

主要用于在线分析处理 (OLAP) 业务。它采用列式存储结构,可使用 SQL 语句实时生成数据分析报告,另外它还支持索引,分布式查询以及近似计算等特性,凭借其优异的表现,ClickHouse 在各大互联网公司均有广泛地应用。

它专为需要超快查询速度和海量数据(PB级)扫描的实时分析场景而设计,尤其擅长大规模数据集的聚合查询。

ClickHouse 的主要特性包括:

  • 高性能:支持实时数据查询和分析,通过列式存储结构优化查询速度。查询速度快,支持并发分析场景。插入写入高吞吐,但更新和删除操作代价高
    ClickHouse 写入吞吐量大
    单服务器日志写入量在 50MB 到 200MB/s,每秒写入超过 60w 记录数,是 Elasticsearch 的 5 倍以上。
  • 高度可扩展:能处理 PB 级的数据,适合大规模应用。
  • SQL 支持:兼容 SQL 查询语言,方便以 SQL 为基础的数据操作。
  • 容错性:内置的数据冗余和快照支持,可保证数据的安全性。

不适合的场景包括:

  • 核心业务系统主库
  • 高频 update/delete 的场景
  • 强一致性需求业务

使用 ClickHouse 的场景

  1. 实时数据分析:可以用于流量分析、用户行为跟踪等需要实时响应的场景。
  2. 大数据仓库:处理海量数据,比如日志数据、传感器数据等,进行长期存储和分析。
  3. 业务智能:通过 OLAP 查询,为企业提供决策支持的数据分析和报表。
  4. 数据集成:与 ETL(抽取、转换、加载)流程结合,作为分析的数据存储后端。

如何理解行式存储和列式存储

数据库存储方式主要分为两种:行式存储(Row-based Storage)和列式存储(Column-based Storage)。
行式存储 (Row-based Storage)
存储方式:
数据按行存储,一行的所有字段连续存放在一起
例如:
[ID1, Name1, Age1, City1]
[ID2, Name2, Age2, City2]
[ID3, Name3, Age3, City3]

传统的 MySQL 数据库的每一行数据都是物理的存储在一起的。如果我要取 id 等于 10000 这一条数据的 name 列,那我就必须要把这一行数据读取出来,然后取 name 列。
在众多的数据中,我只取一列,但我需要把每条数据都读取出来。

列式存储 (Column-based Storage)
存储方式:
数据按列存储,同一列的所有值连续存放
例如:
[ID1, ID2, ID3]
[Name1, Name2, Name3]
[Age1, Age2, Age3]
[City1, City2, City3]

由于 name 列的数据都存储在一起,因此效率大大的超过了传统的数据库。

clickhouse-go

github:https://github.com/ClickHouse/clickhouse-go

clickhouse-go 是 Go 语言的 ClickHouse 驱动程序,允许开发者使用 Go 进行数据操作。
clickhouse-go 为 Go 开发者提供了便捷的方式来与 ClickHouse 进行交互。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/917868.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/917868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java Stream API 详解(Java 8+)

1. Stream 操作分类Stream 操作分为两类:中间操作(Intermediate Operations)返回新的 Stream,可以链式调用(如 filter, map, sorted, distinct)。惰性求值:只有遇到终止操作时才会执行。终止操作…

「源力觉醒 创作者计划」_文心大模型4.5系列开源模型, 从一行代码到一个生态:聊聊开源战略那些事儿,顺便扯扯文心大模型 4.5 的使用心得

前言:哈喽,大家好,今天给大家分享一篇文章!并提供具体代码帮助大家深入理解,彻底掌握!创作不易,如果能帮助到大家或者给大家一些灵感和启发,欢迎收藏关注哦 💕 目录从一行…

算法专题(二)回文链表

1、源代码class Solution {public boolean isPalindrome(ListNode head) {ListNode fasthead,slowhead; //快慢指针都在头结点//快指针走2步,慢指针走一步。//双数快指针最后是null,单数快指针下一位是nullwhile(fast!null && fast.next!null){f…

2025《艾诺提亚失落之歌》逆向工程解包尝试

前言 想开发一下光明之魂,看能不能解包《艾诺提亚失落之歌》的模型。 之前写了(https://blog.csdn.net/weixin_42875245/article/details/148616547?spm1001.2014.3001.5501) 沿用这个思路进行逆向工程解包。 文章目录请添加图片描述前言…

JVM 03 类加载机制

JVM 将字节码二进制流加载到内存称为类加载。 什么时候加载类 new 实例化对象。而对象所属类还没被加载。读取/设置类的静态非常量字段,常量字段在常量池。调用类的静态方法。类初始化,优先初始化父类。虚拟机启动时,先加载用户指定的主类。 …

STM32H7+FreeRTOS+LwIP移植EtherCAT开源主站SOEM

代码下载什么的就不多说了,直接看需要移植修改的代码。 1、osal.c修改 /******************************************************************************* * *** **** *** *** …

VijosOJ:中文信息学竞赛的二十年开源之路

VijosOJ:中文信息学竞赛领域的老牌开源在线判题系统 在中文编程教育与信息学竞赛的发展历程中,在线判题系统(OJ)扮演了至关重要的角色。它们不仅是选手训练的 “战场”,更是知识传递与社区交流的枢纽。VijosOJ&#x…

QPainter::CompositionMode解析

基本概念目标(Destination):已经存在的像素。源(Source):要绘制的新像素。组合模式:决定源和目标如何混合。总结SourceOver:源绘制在目标之上。DestinationOver:目标绘制在源之上。Clear:二者重叠区域被清空…

对接钉钉审批过程记录(C#版本)

钉钉开放平台:API总览 - 钉钉开放平台 按照开放平台操作指引,进入到钉钉开发者后台:开发者后台统一登录 - 钉钉统一身份认证,进行应用创建。 按照开放平台指引下载钉钉SDK(新版)。 在vs引入钉钉dll文件。 获…

AFSIM入门教程03.03:更新所有依赖库版本

系列索引:AFSIM入门教程索引 上一篇中更新了tiff库版本,本文将更新所有使用到的依赖库版本。 失败了 依赖库 首先获取哪些库被使用了。打开源码目录,搜索# Configure the 3rd_party,可以看到调用第三方库的代码。 官方提供的…

完美解决hive external表中csv字段内容含“,“逗号的问题

为解决hive表中csv字段内容含","逗号的问题,网上几乎都是说要用org.apache.hadoop.hive.serde2.OpenCSVSerde。 使用方法为: 1、mysql导出时,加一个ENCLOSED BY ‘"’, 示例: mysql -h 10.16.0.10 -P …

【Git】修改本地和远程的分支名称

其原理是: 对于本地:可直接修改分支名称;对于远程:不可直接重命名分支,所以应该将修改好名称的分支以新分支的形式推送上远程仓库,之后将新分支与远程新分支关联,之后可选择删除旧分支# 例子&am…

ubuntu24.04安装selenium、chrome、chromedriver

实验环境:kaggle notebook、colab notebook1、安装chrome!wget https://dl.google.com/linux/direct/google-chrome-stable_current_amd64.deb!sudo dpkg -i google-chrome-stable_current_amd64.deb!sudo apt-get install -f!export QT_QPA_PLATFORMoffscreen!sudo…

西门子PLC基础指令6:读取时钟指令、设置时钟指令、使能含义与注意

读/写指令 1. 读取时钟 指令 READ_RTCREAD_RTC (RTC 全称是 Real - Time Clock,即实时时钟 )指令的主要作用是将 CPU 内部实时时钟(RTC)的当前日期和时间信息读取出来,并存储到以指定字节地址(图…

GeoTools 结合 OpenLayers 实现缓冲区分析

前言❝ 缓冲区分析是地理信息系统(GIS)空间分析的核心功能之一。它通过围绕点、线或面等地理实体,自动生成指定距离(或宽度)的等距区域(缓冲区)。该功能为量化空间邻近度、评估影响范围、识别潜…

SpringBoot 接入SSE实现消息实时推送的优点,原理以及实现

SpringBoot 接入SSE实现消息实时推送的优点,原理以及实现 前言 上一篇文章 我写的关于SpringBoot整合t-io是websocket实时通信的文章中我们可以了解到 websocket是双向通信的,而且需要TCP连接的支持,今天在这里我要说的SSE(Server-Sent Events) 是一个单项通信的消息实时推…

创建型设计模式:对象诞生的艺术与智慧

🎭 创建型设计模式:对象诞生的艺术与智慧 💡 温馨提示:本文将以轻松有趣的方式带你探索设计模式的世界,就像在听一个关于"如何优雅地生孩子"的故事一样! 🚪 传送门:在开始…

如何解决pip安装报错ModuleNotFoundError: No module named ‘gensim’问题

【Python系列Bug修复PyCharm控制台pip install报错】如何解决pip安装报错ModuleNotFoundError: No module named ‘gensim’问题 摘要 在使用 PyCharm 2025 进行 Python 开发时,常常需要通过 pip install 安装第三方包以丰富项目功能。但在安装 gensim 等包时&…

【嵌入式电机控制#26】BLDC:三相模拟采集

之前有些网友试着用有刷的平均电流法采集三相,还搞了个闭环控制。求!结果直接把驱动板给干没了......做过仿真的朋友们都知道,无刷电机的相电流波形是介于方波和正弦波的。如果拿平均电流去测量,很不靠谱。这节内容为大家分享采集…

ref存储对象和reactive深度响应式递归地对对象的嵌套属性进行响应式处理

ref 不会递归地对 对象 或 数组 中的每个属性或元素进行深度响应式处理。如果你需要递归处理嵌套属性,reactive 是更适合的选择。让我通过具体的例子来展示这一点。 例子:ref 存储对象和嵌套对象 1. 使用 ref 存储嵌套对象: import { createA…