目录
一、什么是数据仓库
1.面向主题
2.集成
3.相对稳定
4.反映历史变化
二、数仓搭建的优势
1.性能
2.成本
3.效率
4.质量
三、数仓搭建要考虑的角度
1.需求
2.技术路径
3.数据路径
4.BI应用路径
四、如何进行数仓搭建
1.ODS层
2.DW层
3.DM层
五、写在最后
一听说要搭建数据仓库,你是不是立刻想到复杂的代码、看不懂的专业术语,觉得这是技术大牛才能搞定的活儿?别慌!我花了整整10个小时,把这些看似高深的内容掰开揉碎,整理出一份小白也能轻松看懂的数据仓库搭建方案。无论你是业务人员还是技术新手,这篇干货都能带你快速入门,搞懂数仓是什么、为什么重要以及最关键的——怎么一步步把它建起来!看下去你就知道了。
一、什么是数据仓库
按照传统定义,数据仓库是一个面向主题的、集成的、相对稳定的,并反映历史变化的数据集合,主要就是用来支撑管理人员做决策的。
1.面向主题
说白了,就是数据仓库是围着企业具体的业务需求建的,目的很简单,就是让管理效率能提上去。
2.集成
意思是它能把不同平台的数据汇总到一起,打破那种各数据各管一段的孤岛状态。而且在整合的时候,还能顺便做好数据治理,让编码啥的都统一起来,你懂我意思吗?
3.相对稳定
这一点得强调下,数据仓库不会直接连到业务系统上,而是从业务系统里把数据抽出来再工作。这么做就是为了别影响业务系统的性能,不然业务那边卡得不行,就得不偿失了。
4.反映历史变化
就是说数据仓库能存着业务系统过去的数据,还能体现出这些数据的变化,这对以后搞大数据挖掘和分析来说,可是重要的依据。
可能有人会问,那“数仓”又是啥?其实数仓就是数据仓库的简称,它是企业决策支持体系里的核心部分。从管理需求出发,把各个业务系统的数据资源整合起来,用数据处理工具弄出数据仓库,然后用到企业各个业务领域里。
二、数仓搭建的优势
用数据仓库,主要就是为了优化企业的业务流程,监控时间、成本、质量这些关键指标,帮企业做更高效、更精准的管理决策。具体来说,搭数仓的好处主要体现在性能、成本、效率和质量这四个方面。
1.性能
能让我们快速查到需要的数据,减少数据的I/O吞吐,用数据的效率就提上去了,比如宽表就是个例子。
2.成本
能大大减少没必要的数据冗余,还能把计算结果重复利用起来,存储和计算的成本自然就降下来了。
3.效率
当业务或者系统有变化的时候,能保持稳定,就算要扩展也很容易,数据的稳定性和连续性都能提高。
4.质量
好的数据模型能改善数据统计口径不一致的问题,减少数据计算出错的可能。而且数据模型能让业务和技术人员好好沟通,对主要业务的定义和术语达成一致认识,它是跨部门的、中性的,能把所有业务都涵盖进去。
用过来人的经验告诉你,要是企业没建数据仓库,当业务系统升级或者业务有变动时,可能得同时调整好几个业务系统和数据分析模型,不光工作量大,还容易出错。但有了数据仓库就不一样了,只需改改数据仓库的取数模式,新旧版本的数据分析模型就能兼容,前端开发的重复工作能少很多。听着是不是很熟?很多企业没建数仓时都遇到过这种麻烦。
三、数仓搭建要考虑的角度
搭数仓,得从需求、技术和数据路径这几个角度综合考虑。
1.需求
先把企业的实际需求搞清楚,保证数仓建设符合企业的战略目标和业务需求。毕竟数据仓库本质上就是为管理服务提供数据支持的,业务需求永远是核心。
2.技术路径
要选合适的产品和技术架构,这直接关系到数仓的稳定性和可扩展性。技术架构设计、产品的选择和安装都得好好琢磨。
我之前用到的FineDataLink这个工具挺不错的,小到数据库对接、API对接、行列转换、参数设置,大到任务调度、运维监控、实时数据同步、数据服务API分享,都能搞定,满足数据实时同步的场景也没问题,在帮我建数据仓库时省了不少力。FineDataLink体验地址→免费FDL激活(复制到浏览器打开)
3.数据路径
维度建模、物理设计、ETL设计和开发都不能马虎,得保证数据的准确性和高效性。
4.BI应用路径
它关系到数据仓库建好后怎么用到实际业务中,是衡量数仓能不能成功落地的重要标准,像BI应用设计、BI应用开发都得考虑到。
四、如何进行数仓搭建
具体来说,构建数据仓库时,第一步就是梳理业务,把核心业务链路和数据表弄明白,再根据这些划分管理主题。然后从这些主题里找出对应的事实表、维度表,把指标梳理、收集好再建模。
这里得说说数仓的分级架构,虽然不是所有数仓都按同一个标准分层,但大多会分成ODS层、DW层和DM层。
1.ODS层
也就是接口存储层,主要存从各个系统拿过来的原始数据,像财务系统、办公系统这些。会对接口数据做清洗、转码、增量转全量这些操作,表名和字段名也会统一规范,能作为取数、分析、挖掘的基础数据。而且ODS层的数据得和源系统一一对应,不能把维度弄混了。
2.DW层
就是数据仓库层,也叫汇总层。会把各个业务系统的数据整合起来,通过维度建模和业务逻辑处理,形成各种宽表。它是面向主题组织数据的,会按业务需要构建多维模型数据,做主题域内的数据整合、相关业务的拆分和汇总。从数据粒度看,是汇总级的数据和纵宽表数据,但从广度来说,所有业务数据都涵盖了。
3.DM层
也就是应用层,也叫数据集市。这一层是面向主题组织数据的,按业务需要构造多维模型数据,数据能直接用来分析展示。它会基于之前定义的主题生成关键指标,用到各种分析展示场景里,还会把处理好的数据共享给可视化报表、分析数据模型这些应用。同时,这一层也负责专题类数据模型的建设。
数仓实施通常会按调研、详细设计、实施、测试上线这个步骤来。调研的时候,除了业务需求,数据标准的治理和技术架构设计也得关注。
从功能角度看,数据仓库取完数据后,主要服务于三个方面:
- 数据服务:包括提供AR分析、数据共享、数据模型构建、统一数据采集等功能;
- 数据分析:通过搭建不同的分析模型,深入挖掘各主题内容;
- 数据指标:通过数仓搭建,在各部门间统一指标口径,实现指标的共享与实践。
五、写在最后
看,搭建数据仓库并没有想象中那么遥不可及吧?它就像是为企业杂乱的数据建一个高效、有序的“中央厨房”。遵循清晰的业务需求、选择合适的技术工具、按部就班地进行数据分层,从原始数据层ODS -> 加工整合层DW -> 应用集市层DM,你也能逐步构建起支撑企业决策的数据仓库。这份省去了你半年摸索时间的方案,希望能成为你开启数仓实践的实用指南。别再让数据孤岛拖后腿了,行动起来,发挥数据的价值帮助业务的增长吧!