【StarRocks系列】建表优化

目录

一、数据模型选择 (核心优化)

二、分区与分桶策略 (数据分布优化)

三、字段类型与压缩

四、索引策略

五、高级特性应用

六、建表示例(关键优化整合)


参考官网 优化性能 | StarRocks

在 StarRocks 中创建表时,合理的表设计是性能优化的基石。以下是从多个关键方向考虑的优化要点:


一、数据模型选择 (核心优化)

  1. 明细模型 (Duplicate Key)
    • 适用场景:需要保留原始明细数据(如日志、交易流水)、任意维度组合查询或频繁更新。
    • 优化点:仅需指定排序列(非唯一),通常选择常用过滤条件列(如 dt, user_id)。避免过多排序列增加存储开销。
  1. 聚合模型 (Aggregate Key)
    • 适用场景:预聚合报表(如 PV、UV、SUM、MAX)。
    • 优化点
      • 精确选择聚合列和聚合函数(SUMREPLACEMAX等)。
      • 维度列需包含所有可能的查询分组列。
      • 值列必须是可聚合类型。
  1. 主键模型 (Primary Key)
    • 适用场景:实时更新/删除(如用户状态、订单状态)。
    • 优化点
      • 主键列选择短且唯一的列(如 order_id),减少内存占用。
      • 启用 enable_persistent_index 持久化索引提升稳定性。
      • 合理设置 bucket_size(默认 10W)平衡内存与导入性能。

二、分区与分桶策略 (数据分布优化)

  1. 分区 (Partitioning)
    • 目的:剪枝(Pruning),减少扫描数据量。
    • 优化点
      • 时间列分区(如 PARTITION BY RANGE(dt)),适合时序数据。
      • 分区粒度适中:太细(如按秒)导致元数据膨胀;太粗(如按月)降低剪枝效果。
      • 使用动态分区管理(PROPERTIES 中配置自动创建/删除)。
  1. 分桶 (Bucketing)
    • 目的:数据打散、并行计算优化。
    • 优化点
      • 分桶键选择高基数列(如 user_id, device_id),确保数据均匀分布。
      • 分桶键应常作为 JOIN 或 GROUP BY 的 Key
      • 分桶数量
        • 建议 = BE 节点数 × CPU Core × 2(推荐 8-64)。
        • 小表可设置较少桶数(如 8),大表适当增加。
      • 避免使用 Random Distribution(除非明确需要随机分布)。

三、字段类型与压缩

  1. 字段类型优化
    • 使用最小适用类型TINYINT 代替 INTVARCHAR(10) 代替 STRING
    • 优先选数值类型(比字符串更快)。
    • 避免过长的 VARCHAR(影响内存和 IO)。
  1. 压缩算法
    • 默认 LZ4 已足够高效,通常无需修改。
    • 极高压缩比场景可测试 Zstandardzstd),但消耗更多 CPU。

四、索引策略

  1. 前缀索引 (Prefix Index)
    • 自动生成:基于排序列的前 36 字节。
    • 优化点:将高频过滤的短字段(如 user_id)放在排序列最前面。
  1. Bloom Filter 索引
    • 适用场景:高基数列的等值查询(如 user_id, order_id)。
    • 优化点:在 PROPERTIES 中添加 bloom_filter_columns = "col1,col2"
  1. Bitmap 索引
    • 适用场景:低基数列的等值/IN 查询(如 gender, city)。
    • 创建语法:INDEX idx_name (col) USING BITMAP

五、高级特性应用

  1. 物化视图 (Materialized View)
    • 适用场景:加速固定维度的聚合查询。
    • 优化点:针对高频复杂查询创建异步更新的物化视图。
  1. Colocate Join
    • 适用场景:频繁大表 JOIN。
    • 优化点
      • 相关表使用相同的分桶键和分桶数
      • 创建时指定 colocate_with = "group_name"
  1. 冷热数据分离
    • 通过 PROPERTIES 指定 SSD/HDD 存储策略:
PROPERTIES ("storage_medium" = "SSD","storage_cooldown_time" = "2025-01-01 00:00:00"
);

六、建表示例(关键优化整合)

CREATE TABLE user_orders (dt DATE NOT NULL,user_id INT NOT NULL,order_id BIGINT NOT NULL,amount DECIMAL(10,2) REPLACE DEFAULT "0"  -- 聚合模型示例
) 
ENGINE=OLAP
PRIMARY KEY (dt, user_id, order_id)  -- 主键模型
PARTITION BY RANGE(dt) (START ("2023-01-01") END ("2024-01-01") EVERY (INTERVAL 1 MONTH)
)
DISTRIBUTED BY HASH(user_id) BUCKETS 32  -- 分桶键选择
PROPERTIES ("replication_num" = "3", "bloom_filter_columns" = "order_id,user_id",  -- Bloom Filter"enable_persistent_index" = "true",          -- 主键持久化"storage_medium" = "SSD"                     -- 热数据存SSD
);

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/news/910372.shtml
繁体地址,请注明出处:http://hk.pswp.cn/news/910372.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

linux-vim编辑器

linux-vim编辑器 前言一、命令模式1. 跳转功能2. 文本编辑3. 模式切换 二、输入模式1. 进入输入模式2. 快捷键 三、末行模式1. 进入末行模式2. 文件操作3. 查找与替换4. 行操作 四、替换模式五、可视模式1. 进入可视模式2. 文本操作 六、相关配置 前言 vim - Vi IMproved, a p…

SQL关键字三分钟入门: 表结构管理与分区设计。(ALTER、MODIFY、CHANGE、DEFAULT、VALUES、LESS THAN、RANGE)

前面我们已经学习了如何查询数据(SELECT)、筛选数据(WHERE)等操作。现在我们要进入数据库的另一个重要领域 —— 表结构管理与分区设计。 本文带你快速认识以下关键字: ✅ ALTER✅ MODIFY✅ CHANGE✅ DEFAULT✅ VALU…

深度剖析:RTTI轻量框架实现原理与架构(C++ 17 高级编程)

🚀 C RTTI反射系统深度设计文档 🌌 核心架构图 #mermaid-svg-aWkaWoFklq1ylap6 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-aWkaWoFklq1ylap6 .error-icon{fill:#552222;}#mermaid-svg-a…

03-D3.js SVG text标签​

Data Visualization D3.js • SuperHiLearn how to create interactive, engaging experiences using HTML, CSS, SVG and Javascript.https://www.superhi.com/catalog/data-visualization-with-d3 text - SVG:可缩放矢量图形 | MDNtext元素定义了一个由文字组成…

Python 使用Gitlab Api

代码 REST API 见自带帮助文档 python 安装python-gitlab pip install --upgrade python-gitlab使用API 参考:https://python-gitlab.readthedocs.io/en/stable/api-usage.html import gitlab# anonymous read-only access for public resources (GitLab.com…

中医体质识别:理论、方法与应用的简要综述

中医体质识别:理论、方法与应用的简要综述 摘要 中医体质识别是中医“治未病”及个性化诊疗的关键环节。本文系统阐述中医体质识别,涵盖理论基础、常见体质类型、识别方法、现代技术应用及临床实践。中医体质理论源远流长,《黄帝内经》奠定…

稀疏表原理及应用场景

1 概述 稀疏表(Sparse Table,ST)是一种用于高效解决 静态区间查询(Range Query) 问题的数据结构,主要用于 可重复贡献问题(Idempotent Range Queries),例如区间最小值&a…

【深度学习与机器学习的区别】从本质到应用的全景对比

目录 前言 一、三者关系:深度学习是机器学习的子集 1.1 概念关系 1.2 类比理解:动物 vs 哺乳动物 1.3 举个例子更清楚 1.4 为什么“机器学习 ≠ 深度学习”? 1.5 最容易搞混的地方 二、核心区别总览(对比表) …

Masscan常用命令详解

一、工具介绍 Masscan是一款开源、高速的网络端口扫描工具,设计目标是实现最快的扫描速度。它能够在极短的时间内完成大规模的网络扫描,适用于互联网级别的扫描任务。它采用异步传输和自定义TCP/IP协议栈技术,最快可实现每秒160万数据包的扫…

STM32的内部RC与外部晶振电路

内部RC是“能用”,外部晶振是“用得准”。 一、STM32芯片内部的“晶振电路”是什么? STM32内部确实集成了两个RC(电阻-电容)振荡器: HSI(高速内部振荡器):通常8MHz,精…

为OneCode 开发TRea 开发插件,从环境搭建到生态融合

作为 AI 原生开发环境,TRea 的插件体系支持开发者基于其核心能力(如自然语言代码生成、AI 代码分析)进行功能扩展。本文以开发一个 "OneCode 组件生成插件" 为例,详解如何通过 TRea 开放接口实现自定义功能,…

Spring JDBC配置与讲解

目录 一、Spring JDBC概述1、Spring JDBC需要配置的依赖2、Spring配置项文件配置 二、Spring JDBC的使用1、Spring JDBC的增加操作2、Spring JDBC的修改操作3、Spring JDBC的删除操作4、Spring JDBC的查询操作 三、Spring JDBC的事务1、xml的形式进行事务2、Transactional注解 …

【AI智能体】Spring AI MCP 服务常用开发模式实战详解

目录 一、前言 二、MCP 介绍 2.1 MCP是什么 2.2 MCP 核心特点 2.3 Spring AI MCP 介绍 2.3.1 Spring AI MCP架构 2.3.2 Spring AI MCP分层说明 2.4 两种模式介绍 三、本地开发SSE模式 3.1 搭建mcp-server 3.1.1 导入工程核心依赖 3.1.2 添加配置文件 3.1.3 提供两个…

OpenStack 入门与实践

一、云计算概述 1.1 云计算的定义与本质 云计算(Cloud Computing)是一种基于网络的超级计算模式,它能够根据用户的不同需求,动态提供所需的计算资源、存储资源和网络资源等。这种模式就像我们日常生活中使用水电煤气一样&#x…

AntV L7入门教程

以下教程将系统地介绍 AntV L7 的核心 Scene 类用法,涵盖实例化、地图配置、视图操作、图层管理、事件监听及资源销毁等常用 API,并为每个方法给出完整示例代码。所有示例均基于官方 API 文档 ([l7.antv.antgroup.com][1])。 一、安装与引入 # 安装 L7…

【边缘计算】场景

工业互联网 对现场采集的数据进行数据预处理,将现场有用的信息提取出来实时上传给平台,为平台大大减轻了处理的工作量。 汇聚现场数据统一接口上传数据到云端,大大提高系统多样部署的安全性,解决现场数据跨域访问的问题。制造企业…

【FPGA学习】DDS信号发生器设计

目录 一、设计原理与准备​ 1.1 DDS 原理​ 1.2 IP 核学习与准备​:FPGA开发中常用IP核——ROM/RAM/FIFO 2、ROM文件的设置 1.3 开发环境搭建​ 二、DDS 信号发生器设计实现 2.1 系统架构设计​ 2.2 代码编写与模块实现​ 三、测试结果与总结​ 参考文献&…

pyqt 简单条码系统

生产数据管理系统说明 系统概述 这是一个基于PyQt5和pyodbc开发的生产数据管理系统,主要用于管理生产过程中的物料绑定和查询操作。系统提供了上料绑定和下料查询功能,支持与SQL Server数据库交互,实现数据的插入、查询、更新和删除操作。界…

【unitrix】 4.1 类型级加一操作(Add1.rs)

一、原码 这段代码实现了一个类型级的加一操作(Add1 trait),用于在Rust的类型系统中进行数值加一运算。 //! 加一操作特质实现 / Increment operation trait implementation //! //! 说明: //! 1. Z0、P1,、N1 1,常规计算 //! 2. …

git工作中常用

1.管理本地文件 git init//初始化生成一个本地仓库 git add * //添加到暂存区 git commit–m “message” //提交到本地仓库 2.删除本地分支 git branch -d local_branch_name3.隐藏及解除隐藏 git stashgit stash pop4.远程新建分支,在本地签出时候怎么看到 …