大数据开发实战:如何做企业级的数据服务产品

1.背景

数据服务通常以解决方案的形式进行组织,面向一个应用场景的所有数据需求或数据内容可以通过一个解决方案进行封装,统一对外服务。一个数据需求或数据接口以一个数据服务实例的形式存在于解决方案之下。

下游消费方可以通过统一API进行数据消费,通过传入解决方案code+数据服务code来获取指定的数据内容及数据服务能力进行消费。

2.啥是数据服务

具体是指单纯提供数据消费接口的数据集服务(接口)、提供实时多维度计算的动态计算服务(OLAP)、提供归因分析的归因分析服务、提供数据规则进行问题抓取预警的规则预警服务

数据服务定位

  • 更快的服务:研发提效工具,通过产品化手段实现从数据表到服务化接口全链路的快速配置化

  • 更有价值的服务:数据的增量价值体现,通过数据+增值能力,为业务经营分析提供更多增量的数据化赋能

数据服务方案

图片

整体技术架构

图片

3.数据服务配置

3.1 前置检验

数据服务支持对ODPS、HOLO两种数据源进行服务封装,在使用数据表时需要对数据表做一些前置检查。

ODPS 数据源

分区设置:月:ds = yyyymm 天:ds = yyymmdd 小时:ds = yyyymmddhh

主键设置:

  1. 数据表需要在数据地图完成主键标识,以明确最终对外服务的数据服务接口数据主键。

  2. 确保主键数据不重复,主键若重复,数据服务调度时会报错失败,并导致前后修改链路较长。

图片

HOLO 数据源:HOLO数据可直接进行服务化封装。

3.2 创建一个解决方案

图片

方案基本信息

图片

资产录入

  1. 资产录入是将一个解决方案所需要的数据表统一进行元数据管理,通过录入完成数据表的指标化。以方便后续的服务配置。

  2. 点击新增,打开一个录入页面,选择对应的表类型及表名,查询后即可获取该表相关得元数据信息,在录入页面进行维度、指标的制定后,确认提交,即完成该表的元数据注册。

注意:所有表中字段均需进行标识该字段为维度或指标。主键字段默认置为维度不可修改。

holo表录入需要完整录入 instance.project.table 三段信息。

图片

完成基本信息填写及资产录入后,即可开始具体的数据服务配置。

4.数据服务实例配置

数据服务能力分为:数据集服务、动态计算服务、规则预警服务、归因分析服务。

4.1 数据集服务

应用场景

单纯对一张二维数据表中的字段内容对外进行服务化接口形式输出,方便对接工程系统或可视化搭建工具场景。

服务实例配置

新增服务

注意:服务code必须小写

图片

业务模型设置

批量导入

数据服务支持基于表的服务,对于已经注册的表,可以直接导入具体数据表,进行批量的业务模型设置。

图片

数据应用设置

数据应用用以设定底层数据服务的一些调度信息,配置项说明如下:

  • 更新周期,所使用的的数据源表更新周期,即ODPS表的分区信息,小时分区、天分区、月分区

  • 消费方式,可视化展示:数据存储720天;工程系统调用:数据存储1天

  • 选择服务,选择数据同步的具体HOLO库,目前选择ASCP公共HOLO库即可。

  • 点击开始调度,生成正式的调度任务,调度任务自动挂依赖,基于数据源表的执行时间进行同步。

  • 开始调试支持在线简单调试查看数据接口是否正常产出数据。

  • 查看接口文档,可获取相应的接口使用说明。

图片

4.2 动态计算服务

应用场景:用于有一定指标定义加工的需求场景或在可视化页面需要进行多维分析的场景,支持定义动态计算指标(加减乘除、MTD/YTD、自定义sql 等),指定维度进行汇总(求和、求平均、求最大值、求最小值、计数)。

支持两种场景:

1)多维度的上卷下钻,常用于可视化应用。

2)动态衍生指标的计算,不涉及维度的变化。

服务实例配置

新增服务

注意:服务code必须小写

图片

业务模型设置

业务模型用来定义服务化接口的具体数据内容结构,分为维度和指标。

4.2.1 基础信息配置

批量导入:数据服务支持基于表的服务,可以直接导入具体数据表,进行批量的业务模型设置。

4.2.2 动态计算指标配置

动态计算是基于配置好的基础指标进行运算配置,基于消费方实时调用,实时计算产出结果。因此需要配置动态计算指标的计算规则和进行多维汇总时的聚合规则。

计算规则:需要新增一个动态计算指标时,可进行新指标添加配置。

聚合规则:进行多维分析时高维上卷需要对数据做聚合,此处需要选择数据的聚合方式,配置的基础指标都需要选 择聚合方式,衍生指标的聚合方式首先要确定是先计算后指标值再进行聚合,还是将因子指标聚合后再进行计算。若是先计算再聚合,则需要选择衍生指标的聚合方式,若是先聚合再计算,则不需要选择聚合方式。

图片

数据应用设置

数据应用用以设定底层数据服务的一些调度信息,配置项说明如下:

  • 更新周期,所使用的的数据源表更新周期,即ODPS表的分区信息,小时分区、天分区、月分区

  • 消费方式,可视化展示:数据存储720个分区;工程系统调用:数据存储1个分区

  • 选择服务,选择数据同步的具体HOLO库,目前选择ASCP公共HOLO库即可。

  • 点击开始调度,生成正式的调度任务,调度任务自动挂依赖,基于数据源表的执行时间进行同步。

  • 开始调试支持在线简单调试查看数据接口是否正常产出数据。

图片

4.3 规则预警服务

应用场景:用于基于一定的数据规则,抓取问题数据做可视化展示或生产系统应用,同时支持对相关责任人进行钉钉/邮件通知预警。如:当缺货率大于5%时,钉钉通知相关库控小二,并提供缺货明细进行可视化展示。服务实例配置

新增服务

注意:服务code必须小写

图片

业务模型设置

业务模型用来定义服务化接口的具体数据内容结构,分为维度和指标。

4.3.1 基础信息配置

批量导入:数据服务支持基于表的服务,对于已经注册的表,若要进行整表的服务化,可以直接导入具体数据表,进行批量的业务模型设置。

图片

4.3.2 预警规则配置

预警规则支持简单规则配置,如某个指标或维度同指定的指标或维度做对比;也支持高级公式编辑,点击编辑公式按钮,会提供公式编辑器进行高级公式的编辑。

配置完相关规则后,需要设置规则之间的逻辑关系,支持或、且逻辑和简单的规则嵌套。

注意:规则嵌套尽量一层,过于复杂的嵌套逻辑会导致不可知的错误。

预警文案,作为可选项,若需要对指定人进行消息预警推送时设置即可。若仅做问题数据抓取,则此项可忽略。

图片

图片

数据应用设置

数据应用用以设定底层数据服务的一些调度信息及预警信息推送配置,配置项说明如下:

  1. 推送消息设定:支持设定多条推送消息及不同推送方式,同一消息推送支持推送多人。

  2. 更新周期,所使用的的数据源表更新周期,即ODPS表的分区信息,小时分区、天分区、月分区

  3. 消费方式,数据可视化,提供HSF接口对于规则命中的结果数据进行查询。

  4. 离线分析,提供ODPS数据表对于规则命中的数据结果进行离线分析。

  5. 选择服务,选择数据同步的具体HOLO库,目前选择ASCP公共HOLO库即可。

  6. 点击开始调度,生成正式的调度任务,调度任务自动挂依赖,基于数据源表的执行时间进行同步。

  7. 开始调试支持在线简单调试查看数据接口是否正产产出数据。

注意:每次进行相关数据内容或规则内容更新后,需要重新调度方可生效。

图片

4.4归因分析服务

新增服务

注意:服务code必须小写

图片

业务模型设置

业务模型用来定义服务化接口的具体数据内容结构,分为维度和指标。

基础信息配置

批量导入:数据服务支持基于表的服务,可以直接导入具体数据表,进行批量的业务模型设置。

图片

归因模型配置

设置对比维度:【注意】维度配置必须包含主键,or 维度组合后可以确定唯一行;下钻维度的表中,下钻后也是同样要求以下图为例,日期,kpi类型,商业code,组合维度,统计类型,在表中可以确定唯一一行

图片

配置指标拆解关系

1)选取需要归因分析的指标

图片

2)选取拆解关系

图片

3)增加拆解逻辑下的指标

图片

4)设置归因对比维度

【注意】对比维度必须配置在维度中

图片

数据应用

图片

在线调试

图片

真实生成后样式

图片

结果预览

图片

往期推荐

FlinkCDC-Hudi数据实时入湖原理篇

深度剖析阿里巴巴 OneData 体系:数据驱动业务的基石

小心踩坑!Hive SQL中这些易错点你必须知道

Apache Doris 在数据仓库中的作用与应用实践

面试加分秘籍:校招数据倾斜场景下的SQL优化方案

Kafka Streams 和 Apache Flink 的无状态流处理与有状态流处理

一文带你吃透大厂高频面试题:行转列&列转行问题

轻松拿下SQL校招&社招面试,这些知识点你一定要会!

带你玩转 Flink TumblingWindow:从理论到代码的深度探索

26届秋招收割offer指南

一文吃透!Doris 冷热分层技术全解析

海量数据存储与分析:HBase vs ClickHouse vs Doris 三大数据库优劣对比指南

HBase协处理器深度解析:原理、实现与最佳实践

一文弄懂离线数仓中小文件问题

数据质量问题中,数据及时性怎么保证?如何有深度体系化回答!

数据清洗到底在清洗什么?

更多上岸信息请参考:

涤生学员就业情况

为什么选择涤生大数据?

  • 1.跟随行业专家学习:我们的导师不是传统的讲师,而是实际的行业专家。他们都是来自国内一线大厂的资深开发,大数据技术专家等。

    2.跟企业在职开发一起学习:涤生的社招学员目前60%+是企业在职进阶学员,基本各大厂的进阶学员都有,他们的薪资从10k,15k,20k,25k,30k,35k,40k。所以你会跟很多企业在职人员一起交流学习

  • 3.定制化课程设计:结合每位学员的进行定制化教学,学习规划,让你的学习更有重点;结合每个学员的时间规划学习进度,督促考核,让学习变得更加灵活。

  • 4.专业教学和平台:术业有专攻,企业怎么用,面试怎么面,我们就怎么学,涤生让大数据学习不迷惘。目前涤生采购10台服务器,自研提供一站式大数据平台供学习使用,拒绝虚拟机。

  • 5.专业的简历面试辅导:涤生内部所有同学简历面试辅导都包含在内,从学习到入职试用期全流程提供保障服务。2024年截止当前涤生到简历面试7级群的学员就业率98%+,2024年上岸200+同学,60+入职一线中大厂。当然也有不少培训找不到工作的同学,以及裁员的同学,空窗期太久,最终跟着我们搞顺利上岸

  • 6.不错的口碑:在涤生这,只要你不摆烂,我们不抛弃不放弃。目前涤生的学员大概有25%是老学员推荐和转化。

  • 7.专门的校招大数据:校招跟社招不一样。全网独家的校招大数据课程,专门的校招团队辅导,今年是第五届校招大数据,内部校招面试资料覆盖一线中大厂90%的面试。从校招规划+系统的大数据课程+实习面试辅导+简历面试辅导+实习期辅导+试用期辅导,一次收费一条龙全流程贯穿。2024春招+2025年春招累计50+同学拿到一线中大厂offer

图片

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/87138.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/87138.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于IndexTTS的零样本语音合成

IndexTTS 项目采用模块化设计,将 BPE 文本编码、GPT 单元预测、dVAE 语音特征抽取和 BigVGAN 音频生成串联为完整的语音合成流程。系统通过统一的配置文件和模型目录规范,实现高效的文本到语音转换,支持命令行与 Web 界面双模式操作&#xff…

基于go-zero的短链生成系统

go-zero框架 gozero(又称go-zero)是一款由知名开发者kevwan设计的Golang微服务框架,专注于高性能、低延迟和易用性。其核心目标是简化分布式系统的开发,提供开箱即用的工具链,涵盖API网关、RPC服务、缓存管理、数据库…

Linux-修改线上MariaDB服务端口号

准备工作(很重要!!!): 提前做好Linux服务器快照 提前做好数据库数据备份 1. 修改配置文件 首先,我们需要找到MariaDB的配置文件。通常情况下,这个文件位于以下位置:…

Spring Cloud 微服务(负载均衡策略深度解析)

📌 摘要 在微服务架构中,负载均衡是实现高可用、高性能服务调用的关键机制之一。Spring Cloud 提供了基于客户端的负载均衡组件 Ribbon,结合 Feign 和 OpenFeign,实现了服务间的智能路由与流量分配。 本文将深入讲解 Spring Clo…

HTML/CSS基础

1.html:超文本标记语言。它是一种标识性的语言,非编程语言,不能使用逻辑运算。通过标签将网络上的文本格式进行统一,使用分散网络资源链接为一个逻辑整体,属于标记语言。 超文本:就是指页面内可以包含图片&#xff0…

C# 事件驱动编程的核心:深度解析发布者_订阅者模式

适用场景:GUI交互、消息队列、微服务通信等需要解耦事件生产与消费的系统 🧩 模式核心组件解析 发布者(Publisher) 作用:定义事件并管理订阅者列表关键行为: 提供和-运算符注册/注销订阅者通过Invoke()方…

华为云Flexus+DeepSeek征文 | 从零开始搭建Dify-LLM应用开发平台:华为云全流程单机部署实战教程

华为云FlexusDeepSeek征文 | 从零开始搭建Dify-LLM应用开发平台:华为云全流程单机部署实战教程 前言一、华为云Dify-LLM平台介绍1. Dify-LLM解决方案简介2. Dify-LLM解决方案地址3. Dify-LLM单机架构介绍4. 预估成本说明 二、华为云Maas平台介绍1. 华为云ModelArts …

oracle集合三嵌套表(Nested Table)学习

嵌套表 嵌套表(Nested Table)是Oracle中的一种集合数据类型,它允许在表中存储多值属性,类似于在表中嵌套另一个表。 嵌套表具有以下特点: 是Oracle对象关系特性的一部分 可以看作是一维数组,没有最大元素数量限制 存储在单独…

Python学习之——单例模式

Python学习之——单例模式 参考1 利用__metaclass__实现单例super的用法class Singleton(type)元类 2 重载__new__方法实现单例模式3 利用装饰器实现单例考虑一个类如果继承一个单例类的问题 参考 python之metaclasssingleton(一) python之metaclasssin…

【Linux】U-boot常用命令总结

U-Boot 是嵌入式系统中常用的引导加载程序(bootloader),它提供了一套命令行接口,用于调试、加载操作系统镜像以及进行硬件测试等操作。 1、变量操作命令 这些命令用于管理 U-Boot 的环境变量。 命令功能说明setenv name value设…

【Linux】不小心又创建了一个root权限账户,怎么将它删除?!

一.前言 今天在学习linux提权的时候,把新建的一个普通账户权限提升成了root, 当我练习完提权,想要把这个账户删掉的时候。 发现… 好家伙,这个根本删不掉 随后试了各种各样的方法,都不行,后来突然想到是否…

数据结构:数组(Array)

目录 什么是数组(Array)? 🔍为什么数组的下标要从 0 开始? 一、内存地址与偏移量的关系:从 0 开始是最自然的映射 二、指针的起点就是第 0 个元素的地址 三、历史原因:BCPL → B → C → …

视频内存太大怎么压缩变小一点?视频压缩的常用方法

视频传生活或者工作中很常见,如发送视频邮件、在线视频播放、视频上传下载等。未压缩的大内存视频文件传输时,不仅会消耗大量的网络带宽资源,还会使传输时间大幅增加。在网速有限的情况下,发送一个几 GB 的未压缩视频可能需要数小…

性能测试包括哪些方面?要掌握哪些知识

性能测试是软件测试中的一个重要方面,它主要关注软件在不同条件下的稳定性、可靠性和性能表现。性能测试包括多个方面,需要掌握的知识也相对广泛。以下是对性能测试包括的方面以及需要掌握的知识分析: 一、性能测试包括的方面 响应时间&…

windows的vscode无法通过ssh连接ubuntu的解决办法

现象: 最近在windows本地通过vscode登录ssh时发现不得劲,总是报错无法与”192.168.1.129“建立连接,如下图: 但是这种报错以及在输出端的信息并没有提供具体错误原因,于是换poweshell来登录,报错如下图&am…

第2章,[标签 Win32] :Windows 的字符串函数

专栏导航 上一篇:第2章 :兼容 ASCII 字符与宽字符的 Windows 函数调用 回到目录 下一篇:无 本节前言 在下面的文章链接里面,我们谈到过,使用兼容版的字符串处理函数的知识。 第2章 :编写兼容多字节字…

Java的SpringAI+Deepseek大模型实战-会话记忆【三】

文章目录 背景项目环境实现步骤第一步、定义会话存储方式方式一、定义记忆存储ChatMemory方式二、注入记忆存储ChatMemory 第二步、配置会话记忆方式一、老版本实现方式二、新版本实现 第三步、添加会话ID 异常处理1、InMemoryChatMemory 无法解析 背景 前两期搭建起大模型对话…

Python3完全新手小白的学习手册 10 文件和异常

文章目录 读取文件读取文件的全部内容 相对路径和绝对路径访问文件中的各行使用文件的内容包含100万位的大型文件圆周率值中包含你的生日吗? 写入文件写入一行写入多行 异常处理ZeroDivisionError异常使用try-except代码块else代码块处理FileNotFoundError异常分析文…

VC Spyglass:工具简介

相关阅读 VC Spyglasshttps://blog.csdn.net/weixin_45791458/category_12828932.html?spm1001.2014.3001.5482 传统上,基于仿真的动态验证技术一直是功能验证的核心方式。随着现代SoC设计日益复杂,静态验证技术的引入变得愈发重要。 Synopsys的 VC Sp…

AWS RDS Aurora全局数据库转区域数据库实战指南:无缝迁移零停机

Aurora全局数据库是AWS提供的跨区域高可用解决方案,但在某些场景下,我们需要将其转换为普通区域数据库。本文将详细介绍这一转换过程,并分享关键技术要点和实战经验。 一、全局数据库与区域数据库概述 AWS RDS Aurora全局数据库是一种跨区域部署的数据库架构,主要用于灾备…