【系统分析师】高分论文:论企业数据治理

【摘要】
2022年3月,我作为系统分析师及IT 负责人,参加了我司的企业级数据平台建设项目,该项目作为我司在企业数字化转型过程中重要的里程碑,在我司数字化运营中扮演着关键的角色。该项目主要包含企业级数据仓库,数据治理,数据建模,OLAP 即席查询与 B1数据分析展示等模块,旨在为公司打造实时性(Real-time)、按需定制(On-Demand )、全在线(All-online)、自助服务(DIY)以及社交化(Social)的综合数据平台,为公司迈入数字化运营管理打下基础。本文以该项目为例,结合本人项目实践经验,从企业对数据的需求、企业数据治理的痛点、数据平台需达到的目标、数据治理实施的方法三个方面米阐述我对企业数据治理的理解与我司开展数据治理的方法、背景以及实施效果。

【正文】
我司作为拥有近 20 年经验的通信工程行业的建设单位,自 2003年起便开始了企业信息化建设工作。随着云计算、大数据、人工智能、区块链等技术的日渐成热,我司于 2015 年开启了数字化转型的进程,伴随着传统业务与新业务规模的不断扩张,公司对于数字化运营的诉求也越来越强烈。

2022 年3 月,我作为系统分析师及1T 团队负责人,正式开始打造企业级数据平台,本项目周期为1年,投资金额500 万元。公司管理层期望通过木项目的建设,规范公司级数据标准、统一数据存储与管理、将数据真正应用于业务过程与经营决策中,为公司数字化运营提供平台支撑。本项目采用目前行业最佳实践 Hadoop 技术生态,通过 Sqoop 对业务数据和文件数据进行抽取:通过 Flume对系统日志及管理日志进行抽取:采用 Zookeeper 对 ETL 的过程进行统一配置管理:利用 Kalka消息中间件对数据的生产与消费进行管理;用 HDFS 对数据进行分布式存储:通过 Hive 和 HBase对数据进行分类和建模;最终通过数据治理 ADS 数据主题层,利用 Kylin对 ADS 进行 OLAP 即P席查询,同时采用 Metabase、Superset 和商用 BI 产品对数据进行分析与展示。

一、企业对数据的需求
近10 年来,各行各业因国际局势与市场情况等因素发生着刷烈的变化,企业的竞争日趋激烈。自2013年以来,我所处的通信工程行业以每年接近 50%的企业淘达率开启了无情的行业洗牌阶段,规模效应越来越明显,与我司类似的情况公司都面临着生存的压力和增长的挑战。随着利润率越来越低,客户要求越来越高,资金压力越来越大等一系列市场的压力,企业若固守传统的经营理念则注定是死路一条,唯有进行彻底的变革才是生存与发展之道,企业数字化转型应运而生。

以数字世界为视角,企业分为两类,一类是数字原生,企业,以 BAT 等互联网公司为代表,另一类是非数字原生企业,以传统行业为代表。企业数化转型的主力军就是广大的非数字原生企业,我司也是非数字原生,企业的典型,是以物理世界为业务开展的校心,认为迈向数字世界的成功关键就在于数据。在目前快速变化的市场格局下,企业在业务开展过程中需要大量的数据进行分柝、判断与决策,从量化的角度做出最优的选择才能让企业持续保持核心竞争力,这是企业对数据的基本需求。

同时,在数字化转型过程中,往往还伴随者新的业务拓展,而这些新业务的基础便是数据,这些数据是企业重要的数据资产,将这些数据发挥其价值就能为企业拓展出新的发展道路,这是企业对数据的发展需求。随着企业数字化转型的进程不断推进,各式各样的结构化与非结构化数据源源不断地产生,大量的数据资产需要进行管理,这是企业对数据的管理需求。随着数据更多的价值被持续地挖掘,这些有价值的数据将会成为企业的核心资产和竞争资源,这些数据牵扯到商业机密,业务活动与用户隐私,对数据进行安全可靠的管理将成为重中之重,这是企业对数据的安全需求。以上就是基于目前的行业和市场的背景,企业对数据的主要需求。

二、企业数据治理的痛点
在企业数字化转型过程中,信息化系统建设是必备的阶段,这些信息化系统建设往往都是围绕着局部的业务主体进行开展的。例如企业财务系统、ERP 生产资源管理系统、CRM 客户关系管理系统等,然而正是因为信息化系统建设的规划与变化问题,导致各种数据孤岛,财务、人事、运营等数据无法共享,管理层无法得到真实完整的数据从而判断公司的经营情况,更不要提决策支撑了,这是数据孤岛的痛点。

在信息化系统建设过程中,这些系统和应用往往是围绕业务流转为核心,而不是以数据应用为核心,这也直接导致了在数据生产过程中没有相应的标准与规范,导致大量的错误数据、脏数据、重复数据,并且这些数据占比之大,令人咋舌,在真正统计分析时才发现这些数据根本无法利用,即使可以使用,也需要花费大量的人力、物力对数据进行结构化处理和校对,企业真正想利用的数据少得可怜,这就是数据不规范的痛点。

在企业的某些部门,为了汇报材料中的数据,给基层和一线员工派发大量的数据表格要求填写,这些数据表格填报后再层层上报,最终由部分员工花费大量的时间精力进行整理和合并上交给公司进行汇报,给各级员工增加了大量的额外工作量,而这些采集的数据往往需要几周甚至几个月才能最终统计形成,效率极其低下,数据质量也无法考证,这是数据滞后与采集效率低下的痛点。以上数据洽理的痛点在企业中普遍存在,如何有效解决这些痛点并满足企业对数据的需求是企业數据治理过程中的关键。

三、数据治理的实施方法
管理大师德鲁克先生提出过,企业的首要职贵是创造经济效益,所以企业一定是需要面向业务面向市场的。既然如此。企业数据治理也一定是需要服务于业务和市场的,不能以单纯的技术标准和实施过程为目标。以我司数据治理为例,开展数据治理的首要工作是对企业主线业务进行识别与分析,例如 LTC 线索到现金管理主线,OTD 订单限行交付主线,1SC 采购供应链管理主线等。这些管理主线在企业中天然存在,是企业创造经济效益的血脉,也是数据生产和数据应用的主战场。所以识别企业主线业务并进行分析一定是数据治理的首要工作,其主要目的是确定数据治理的范围与目标。

在确定了数据治理的范围和目标后,需要对各生产数据的信息化系统和数据本身进行调研与分析。这个过程中的关键是按照不同的分类方式对现有数据进行分类,从数据来源对内部数据和外部数据进行识别:从结构化数据的角度对主数据、基础数据、事务数据、报告数据、观测数据、规则数据进行识别:从非结构化数据的角度对文件、图片、声音、视频等进行识别。此阶段的主要目的是按照标准的分类的体现对现有数据进行识别,基本对企业的数据情况有了详细的了解,根据识别的结果对数据治理实施工作进行规划。

接下来就是按照规划有序地开展数据治理实施工作,在这个过程中需要遵循一系列规范准则。对基础数据进行治理时需要以外部协同有效性为准则,例如“国家”“货币”“税率”等,不要按照企业自己的意愿对数据进行自定义,这样做的结果将会导致在内部和外部数据的交互过程中出现差异。主数据是企业生产交互的主要对象,针对主数据的治理需要遵从唯一性、联邦管控、单一数据源、数据流程IT协同、事前的数据质量策略,其中单一数据源一定是重中之重。

以我司对主数据治理为例,在过程中发现不同的 IT 系统都在生产主数据,例如“客户”主数据,在 CRM 系统中会产生“客户”,在财务系统中也会产生“客户”,这种专科直接导致了在对单一“客户”进行统计时,发生了许多差异,最终导致了统计不准确的结果。发现此类问题后,首先需要对数据的最初来源进行定义。以“客户”为例,其源头一定是从CRM 中而来,故在数据治理过程中需要对 IT 系统同步进行优化,保证数据的唯一性。其次,为了保证数据治理的有效性,公司需要明确各类数据的责任主体与贵任人,我司在数据治理中明确了数据责任人,谁负责的业务板块所生产的数据,谁就对这些数据负贵,这些制度的建立也有效地推动了数据治理的过程,提升了数据治理的有效性和质量。

【总结】
企业数据治理是一项庞大且系统化的工程,并且会伴随着企业的发展而发展。我司企业数据平台建设项目在历时1年后,按时 且圆满地完成了上线运行工作。在这个过程中,对数据治理的方法探索是项目成功的核心,经过以上对数据需求的分析、对数据痛点的挖掘、对数据治理方法的践行,我司基本完成了数据的实时性(Real-time)、按需定制(On-Demand)、全在线(All-online)、自助服务(DIY)以及社交化(Social),为公司数字化运营打下了坚实的基础。同时,我也深刻地意识到企业数据治理不仅仅只是1T 单方面的工作,这需要整个企业和广大员工对共同的愿景为之努力并付出,才能够真正地完成企业数据治理的目标,为企业积累核心数据资产,快速响应变化的市场环境,为企业拓展新的发展方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/diannao/96667.shtml
繁体地址,请注明出处:http://hk.pswp.cn/diannao/96667.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Seata原理分析

简介Apache Seata™ (incubating) 是什么?Seata 是一款开源的分布式事务解决方案,致力于在微服务架构下提供高性能和简单易用的分布式事务服务。在 Seata 开源之前,其内部版本在阿里系内部一直扮演着应用架构层数据一致性的中间件角色&#x…

力扣 30 天 JavaScript 挑战 第38天 (第九题)学习了 语句表达式的区别 高级函数 promise async await 节流

开始答题 版本一: /*** param {Function} fn* return {Function}*/ var once function(fn) {let runCount0return function(...args){runCountrunCount 1 ? return fn(...args) :return undefined} };/*** let fn (a,b,c) > (a b c)* let onceFn once(fn)…

25年八月份宁德时代社招部分岗位入职Verify测评演绎数字推理SHL题型变更、题库使用说明

开始测评前,请注意:1、挑选一个安静的环境,选择一台网速正常且无任何网络端口限制的电脑进行测评;2、移动设备无法兼容远程监考功能,请使用配备有可正常运作的摄像头的台式机或笔记本电脑,建议使用最新版本的Chrome,Fi…

【KO】前端面试四

以下是剩余题目的详细解答,结合前端知识体系和实际应用场景展开: 91. JS 放在 head 里和放在 body 里有什么区别? 对比维度 放在 <head> 放在 <body> 加载阻塞性 会阻塞页面渲染,需等待 JS 下载/执行完成后,才继续渲染页面 一般放在 </body> 前,页面渲…

[Vid-LLM] 数据集 | 基准测试

第5章&#xff1a;数据集与基准测试 在前一章中&#xff0c;我们探讨了**视频大语言模型(Vid-LLMs)**能够执行的各种"工作"或"功能"&#xff0c;从视频总结到充当智能代理。 我们了解了它们的构建方式和扮演的角色。 但这里有个关键问题&#xff1a;这些惊…

34、扩展仓储管理系统 (跨境汽车零部件模拟) - /物流与仓储组件/extended-warehouse-management

76个工业组件库示例汇总 扩展仓储管理系统 (跨境汽车零部件模拟) 概述 这是一个高级的仓储管理系统 (WMS) 模拟组件&#xff0c;专为展示跨境汽车零部件的复杂物流场景而设计。它模拟了从海外供应商发货&#xff0c;经过海运/空运、清关、质检&#xff0c;到最终入库上架&am…

nodejs koa留言板案例开发

包含功能 登录注册(不开放注册只是用固定的账号信息) 查看列表 查看详情 发布信息 编辑信息 删除信息 项目接口 npm init -y npm install koa --save npm istall koa-router --save (旧版本) 或者 npm install koa/router --save &#xff08;新版本&#xff09; npm instal…

4+ 图论高级算法

强连通分量 基础概念 强连通&#xff1a;在有向图 GGG 中&#xff0c;如果两个点 uuu 和 vvv 是互相可达的&#xff0c;即从 uuu 出发可以到达 vvv , 从 vvv 也可以到达 uuu , 则称 uuu 和 vvv 是强连通的。如果 GGG 中任意两个点都是互相可达的&#xff0c;则称 GGG 是强连通图…

从罗永浩访谈李想中学习现代家庭教育智慧

引言 在这个信息爆炸的时代&#xff0c;每个父母都在寻找培养孩子的最佳方式。在罗永浩与理想汽车创始人李想的深度访谈中&#xff0c;我们看到了一个成功企业家童年成长的真实样本。李想的成长经历为现代家庭教育提供了许多值得深思的启示。 一、正义感与乐观精神的种子 李想回…

AI实现超级客户端打印 支持APP 网页 小程序 调用本地客户端打印

核心思路都是&#xff1a;需要一个安装在用户电脑上的“中间人”程序&#xff08;本地客户端&#xff09;来接管打印任务&#xff0c;然后通过某种通信方式命令这个客户端进行打印。下面我将分平台详细阐述各种实现思路、优缺点和适用场景。一、核心思路与公共组件&#xff1a;…

Java集合(Collection、Map、转换)

✅ 推荐使用 ❌ 已过时 1. Collection Collection 是集合框架的根接口之一&#xff0c;它是所有单列集合&#xff08;如 List、Set、Queue 等&#xff09;的公共父接口。Collection 接口定义了集合的基本操作&#xff0c;比如添加、删除、遍历等。 Collection ├── List │ …

全国网络安全知识竞赛有哪些

全国范围内有多种类型的网络安全知识竞赛&#xff0c;涵盖国家级、行业级、高校、青少年和企业等多个维度。以下是主要的网络安全知识竞赛分类及详细介绍&#xff1a;一、国家级网络安全竞赛"强网杯"全国网络安全挑战赛主办单位&#xff1a;中央网信办、河南省人民政…

系统架构设计师备考第1天——系统架构概述

一、架构本质与角色定位架构 系统的骨架 ✅ 核心作用&#xff1a; 决定系统的健壮性、生命周期、扩展性衔接需求与实现&#xff0c;保障早期质量 &#x1f468;&#x1f4bb; 架构师核心能力&#xff1a;能力维度具体要求技术掌控力精通基础技术&#xff0c;洞悉局部瓶颈决策设…

c#实现鼠标mousemove事件抽稀,避免大数据阻塞网络

这个封装类可以独立于具体的网络传输逻辑&#xff0c;为任何需要减少鼠标移动数据量的应用提供灵敏度和数据量优化。 核心优化功能 1. 灵敏度调整 // 减少微小移动的数据发送 (2, 1) 0.5 → (1, 0) // 忽略微小移动2. 移动累积 // 累积多次小移动&#xff0c;批量发送 (1, 0) …

机器学习 [白板推导](十三)[条件随机场]

​ 17. 条件随机场&#xff08;Conditional Random Field&#xff0c;CRF&#xff09; 17.1. 背景 机器学习分类模型中&#xff0c;有硬分类和软分类两种主流思想&#xff0c;其中硬分类模型有支持向量机SVM&#xff08;最大化几何间隔&#xff09;、感知机PLA&#xff08;误…

调味品生产过程优化中Ethernet/IP转ProfiNet协议下施耐德 PLC 与欧姆龙 PLC 的关键通信协同案例

案例背景在食品饮料行业&#xff0c;生产过程的精准控制对于保证产品质量和安全至关重要。某知名食品饮料企业的生产线上&#xff0c;前处理、灌装和包装环节采用了基于 ProfiNet 主站的施耐德 M340 系列 PLC 进行控制&#xff0c;以确保生产过程的稳定性和精确性。而原料仓储和…

Elasticsearch vs 单表LIKE查询性能对比

关键因素影响 1、索引结构&#xff1a; .Elasticsearch使用倒排索引&#xff0c;特别适合文本搜索 .传统数据库即使有索引&#xff0c;对LIKE %keyword%这种模式也无法有效利用 2、查询复杂度&#xff1a; .简单查询&#xff1a;ES快5-10倍 .复杂组合查询&#xff1a;ES可能快1…

如何通过WordPress联盟营销获取潜在客户

您是否经营着一个销售周期较长的业务&#xff1f; 那么你就会知道&#xff0c;从首次访问者那里获得立即销售的机会是很少见的。 当然&#xff0c;您的潜在客户在进行重大投资之前需要时间进行研究、比较各种方案并建立信任。这时&#xff0c;联盟营销线索挖掘就成为您的秘密…

git实战(8)git高阶命令分析【结合使用场景】

以下是 Git 高阶命令分享&#xff0c;涵盖高效协作、历史重构、问题排查等场景&#xff0c;助你成为 Git 高手&#xff1a; 一、历史重构与清理 1. 交互式变基&#xff08;改写历史&#xff09; git rebase -i HEAD~3 # 修改最近3次提交操作选项&#xff1a; reword&#xff1…

生成一个竖直放置的div,宽度是350px,上面是标题固定高度50px,下面是自适应高度的div,且有滚动条

<!-- 我要生成一个竖直放置的div&#xff0c;宽度是350px&#xff0c;上面是标题固定高度50px&#xff0c;下面是自适应高度的div&#xff0c;且有滚动条。 --><style>html,body{/* height:100vh; */margin:10px; padding:10px;} </style><div style"…