助力夯实数据底座,强化数据质量测评

2022-06-16

一、数据质量的重要性

数据质量是指数据对其期望目的的满足度,即从使用者的角度出发,数据满足用户使用要求的程度。目前,不论在制造业、金融业、医疗卫生领域,还是其他各个工业领域,不论企业规模大小,信息或数据质量问题均是工业界普遍认同的问题。

由于企业数据增长速度快,数据类型复杂,目前在数据质量方面存在的问题主要有三个方面:

(1)数据的多源性:同一数据可能来自多个数据源,由于角度不同可能产生理解偏差,导致数据质量问题;

(2)数据处理过程中技术环节的异常:数据在采集、传输、装载、处理、分析、共享和销毁等任一环节出现异常都会导致数据质量问题;

(3)数据处理流程设置不当:系统的建设容易忽视配套流程的制定和跟进。

面对快速发展的计算机技术以及爆炸式增长的数据量,企业需要关注数据质量问题,赢得先动者优势。高质量的数据有助于管理者高效地做出最优决策,是企业开发业务系统、提供数据服务、发挥数据价值的必要前提,也是企业数据资产管理的前提。而低质量数据(如不完整的、冗杂的、错误的数据)将会极大地影响决策者的判断,造成低效的资源分配和利用。

 

二、数据质量评价指标

参考《GB/T 36344-2018 信息技术 数据质量评价指标》,数据质量评价的主要指标如下:

规范性:数据符合数据标准、数据模型、业务规则、元数据或权威参考数据的程度;

完整性:按照数据规则要求,数据元素被赋予数值的程度;

准确性:数据准确表示其所描述的真实实体(实际对象)真实值的程度;

一致性:数据与其他特定上下文中使用的数据无矛盾的程度;

时效性:数据在时间变化中的正确程度;

可访问性:数据能被访问的程度。

 

三、数据质量测评服务

 

中国软件评测中心作为DCMM数据管理能力成熟度的授权评估机构,积极开展DCMM数据管理成熟度评估的研究和评估工作。在此工作基础上,中心依据全国信息技术标准化技术委员会提出的《GB/T 36344-2018 信息技术 数据质量评价指标》和中心数据质量测评规范,面向数据拥有方、信息技术服务方等企业推出专项数据质量测评服务,从而从数据源头规范数据,提高数据质量。

数据质量测评服务依据《GB/T 36344-2018 信息技术 数据质量评价指标》,根据内置数据标准和数据质量规则,并涵盖不同行业的自动化探索模型,通过自动化的手段分析数据内容、背景、结构和路径;识别数据成分、分析业务规则合规情况、分析数据间关系及资源匹配关联关系;识别数据转化机制、建立数据有效性及准确性规则、校验数据间依赖性等的过程,最终出具涵盖规范性、完整性、准确性、一致性、时效性等维度的科学、合理和客观的数据质量评测报告,同时可以根据客户需求,提供定制化数据质量诊断服务,并提供数据质量优化方案。

数据质量评测服务主要内容包括数据质量基础诊断服务和基于业务规则的合规性检查深度服务,分初、中和高三个级别提供服务。

 

序号

服务名称

服务内容

1

初级测评服务- 数据质量评测报告(基础)

数据质量指数及报告

数据缺陷及处理措施建议

异常情况分析及规则认定

2

中级测评服务--数据质量评测及分析报告

已有规则比对(有条件)

依照探查目标的规则发现

问题产生的原因及规则优化建议

优化实施方案

3

高级测评服务--数据质量评测及改进建议报告

综述

数据的基本现状描述

基于业务的数据关联分析

如何通过关联数据处理问题的机制及措施

后续推进计划和建议

 

四、数据质量评测流程

 

五、数据质量服务成效

数据质量测评服务的主要成效包括:

快速发现很多人工难以发现的问题,如包含的特殊字符、值后面的空格、数据冲突等,为后续数据管理提供事实依据;

基于数据质量测评服务协助该客户在进行大数据治理,快速找到数据规律,并形成数据处理规则与标准,建立标准参数值和标准库,搭建可重复循环、自动化数据清洗和优化的数据处理平台,有效节省数据清洗优化时的人工介入时间,提高数据处理效率和数据质量。

基于数据质量评估的结果,帮助客户快速明确数据问题,梳理后续数据治理路径图;

建立起企业数据标准化规范,建立企业级数据质量管理平台及数据字典管理规范,完善企业数据资产管理体系;

确立了客户数据治理的路径图及关键任务,同步建立数据质量检核、监控和治理长效机制,助力客户形成完整的数据治理方案体系。

 

联系人:郭经理

联系方式:010-88559245

通讯地址:北京市海淀区紫竹院路66号赛迪大厦 100048

 

3349381607