产品中心

阿里云云原生一体化数仓 — 数据治理新能力解读

阿里云 DataWorks定位于一站式的大数据开发和治理平台,从下图可以看出,DataWorks 与 MaxCompute、Hologres 等大数据引擎紧密配合,在数据的 采、建、管、用 四个关键环节提供了丰富的产品功能,是阿里巴巴内部构建数据中台的核心平台型产品,支撑了电商新零售、广告营销、本地生活&出行、智慧物流、企业智能管理等几乎全部业务板块和企业运营管理的数字化建设工作需要。

随着数据建设的深入,我们愈发意识到数据治理是数据资产化建设、加速数据价值释放不可或缺的关键工作。在阿里集团内部,我们提出了构建 “质量可靠、安全稳定、生产经济、消费便捷” 的数据资产体系的目标,并围绕这个目标来开展数据治理工作。在DataWorks中也构建了相应的产品模块和能力进行支撑,比如上图所示的“数据质量管理”、“数据资产地图”、“数据安全管理”以及“数据治理中心”等。

数据治理的工作在很多企业已经广泛开展或正准备开展,数据治理实施,有以下四个方面的典型痛点:

开展数据治理工作,通常会参考DAMA或者DCMM理论体系,可以发现数据治理涵盖内容极为广泛。从哪里优先入手,以什么样的路径来推进,这是企业进行数据治理工作首先要回答的问题。数据治理的目标和执行路径不清晰,是第一个典型痛点。

无论是企业内部自发地开展、还是请专业的咨询机构,构建出数据治理咨询方案、产出一些列的规范和管理办法后,往往只能停留于纸面,没有恰当的治理平台工具来支撑落地,这是会面临的第二个典型挑战。

如何客观地评估治理、将治理成效量化、可视化。当这个工作没有做好时,治理的推进难度会显著加大。

数据治理的工作容易陷入“运动式治理”,通过集中的突击、在一段时间内看到一定的效果。但如果不融入到日常的数据开发生产链路中去,这项工作就不持续,不能长久地、从根本性地解决治理的问题。

在数据质量管理、元数据管理、数据安全管理等细分领域的工作完成之外,阿里巴巴集团创新地构建了如下一套全集团通用的数据治理体系,从 计算、存储、质量、安全、模型和成本等多个维度进行治理切入,采用统一的方法和策略,构建量化的评估模型,并使用统一的治理平台工具来承接落地,取得了显著的成效。

首先,明确治理的核心对象是与ETL作业中相关的任务和表。数据治理是治理客观的对象,不是治理人。但治理实施的一个关键前提,是对任务和表这些基本对象的确定归属,梳理并定义清楚对象的具体负责人,来确保治理问题有着落、有跟进。通过具体到人,进而汇聚到部门、到全集团整体,

其次,数据治理采取的实施路径是 “现状分析 – 问题定位 – 优化治理 – 效果评估”,构建一个闭环流程;

最后,数据治理的核心,要落在量化上:将问题量化、将成效量化。并基于局部的明细给出全局的决策建议,比如为全集团的资源调配、各部门的预算制定、成本优化目标的设定等,提供参考。并且,这些量化的评估和治理问题的发现、修复,都会通过一个统一的平台工具来承接。

这套在阿里巴巴内部多年实践证明行之有效的方法和能力,现在以产品化的方式正式对云上客户提供服务,这就是 DataWorks数据治理中心 这一全新产品模块。

数据治理中心基于治理问题驱动,构建了一个治理量化评估 – 问题发现/预防 -治理问题的优化处理的闭环提升机制。基于事前预防、事后整治相结合的方式,提供了几大核心产品功能。这里要说明下,我们将这个“事前”、“事后”的“事”,定义为 数据平台中,ETL作业的正式数据生产 这一个环节。

数据治理中心通过检查项的功能,可以做到在任务的提交、发布等关键环节,对于SQL代码的质量、性能消耗等进行自动扫描和检查卡点,来预防新问题的引入。这个有点类似于编译和优化的提示。

当前面临的一个现实问题是数仓、数据中台的建设可能已经进行了较长时间,会存在许多存量的问题需要优化治理。数据治理中心的治理项功能,就是为此而设计,可以发现系统中存量的需要优化的问题,并给出对应的解决办法。与检查项一样,这也是一种全自动的方式。

数据治理中心最具特色的,或者说是阿里巴巴内部数据治理实践的特色,是这套量化评估机制。基于治理“健康分”的概念,从“计算”、“存储”、“质量”、“安全”和“研发”五个基础维度进行量化评估,进而给出整体的治理健康度评估。便于治理实施前了解现状、同时也会数据治理实施后的成效提供客观评估。

此外,数据治理中心在成本优化治理方面,也提供了资源使用分析等一系列的产品能力,可以清晰了解单个任务、单张表粒度的的资源消耗、费用预估以及资源异动情况,帮助公司有针对性地进行计算和存储的优化治理,来达成降本增效的目标。

数据治理中心本质上是一款由(元)数据驱动的数据应用产品,大致可以分为数据层、应用层和管理运营层。

数据层:是整个产品模块的关键基础,数据治理中心汇聚了任务、表、模型、数据服务API等一系列的对象的元数据信息,并构建用以分析洞察的元数仓,来支撑上层的治理应用。

治理应用层:数据治理中心的主体功能所在。基于内置的方案模板,提供用于事前问题自动预防、事后存量问题的自动发现,以及对应的优化处理指南等系列的功能。资源使用分析是面向成本治理构建的产品能力,包含资源的明细和异动分析等,以及规划中的资源智能优化建议。对象360用于汇聚展示对象的全景信息,尤其是需要治理优化的问题,并全生命周期追踪对象的事件变化情况等。标签体系作为额外的支撑体系,便于有效的对任务进行类型打标区分,然后进行集中式的治理。场景化治理是基于PDCA理念构建,来帮助按照业务需要,灵活圈选需要治理的对象、评估现状、设定治理目标,并有效监督治理实施进度,最终来达成治理落地。

管理运营层:数据治理中心核心服务于数据治理管理员以及数据治理具体参与的一线同学两类用户群体。在管理运营层,提供了治理评估报告、治理健康分、治理排行榜和治理运营推送等一系列功能。

数据治理中心的使用,概要可以分为现状评估、治理实施和治理运营&成效查看三个环节:

数据治理中心提供了内置的模板功能,将在阿里巴巴内部的实践和服务外部客户过程沉淀下来的最佳实践,以模板的方式封装,提供开箱即用的能力。选定模板、开启产品模块后,即可使用数十种丰富的治理项和检查项,并查看整体的治理评估报告,也就是治理的健康分评估。

开启产品模块之后,可以看到治理的评估报告。数据治理中心会提供 租户全局、单个工作空间以及具体个人 三个视角的报告,覆盖 研发、质量、安全、计算和存储 五个维度,给出量化的具体评估。最关键的一点,对于不同的工作空间、不同的个体,这个评估模型采用的是同一套标准,保证评估的客观一致性。这份报告,可以作为治理工作正式开始实施前的一个基础参照。

数据治理健康分基于治理项发现的问题、按照定义的模型计算得出。采用的扣分逻辑为满分100。

留言

您的电子邮箱地址不会被公开。 必填项已用 * 标注