数据质量是大数据项目成败的关键因素

发布时间:2018-03-07 作者:王德政,王梅(中兴通讯) 阅读量:

数据质量已成为大数据项目的关键点

  大数据时代,数据是组织最重要的资产,掌握了数据就掌握了发展的命脉。所以,数据获取能力以及数据获取质量就成为项目成败的关键点。例如,一个综合性的系统,一般需要多个数据源提供数据,即使是在一个企业内部,往往也会有多套生产系统在同时运行,这些并行的生产系统共同为大数据平台提供数据。由于涉及数据的归属问题,以及企业内部业务流程的梳理问题等,在多数情况下所获数据的质量要比原先规划的差很多。

 

  数据质量是项目规划阶段很容易被忽略的关键问题。由于涉及组织与系统之间的对接与配合,数据源往往并没有意愿主动输出高质量的数据,特别是利用这些数据生成考核KPI的场景下,数据源甚至有可能故意提供虚假数据或不完整数据。长期低质量的数据输入,将导致整个系统难以产生有价值的分析结果。

 

  在项目规划初期,就需要考虑后期运营过程中,如何对数据源通过技术手段进行数据质量评估,并对数据源的质量辅以相应的考核机制。只有针对数据质量形成闭环反馈,才有可能在未来的运营过程中逐步提高数据质量;而没有数据质量控制的大数据系统,在运营过程中很可能会逐渐退化,甚至最终失败。

数据质量保障模型
 

  一个系统,如果要保证高质量的数据输入与采集,需要系统化的方法。如图1所示,可采用“检测双闭环”模式,对数据质量进行体系化的改进。


  首先,对于数据的质量,需要进行数据质量检测。即使是生产系统作为数据源向大数据系统提供数据的情况下,高质量的数据往往也是很昂贵的。数据源向大数据系统提供的数据,无论是结构化数据还是非结构化,都有可能存在数据质量低劣的可能性。

 

  在项目规划建设之初,需要对数据源进行梳理,识别出各类结构化数据、非结构化数据以及半结构化数据的种类,针对不同的数据类型,引入不同类型的工具,对数据的质量做校验。

 

  对于采用众包方式进行数据采集的互联网公司,为了保证数据的质量,往往付出很大的经济成本,采用构建专业数据团队的方式,对数据进行校验与分拣,才能保证数据的可用性。

 

  其次,依据数据质量检测的结果,需要形成数据质量闭环。采用技术手段或专业团队的模式对数据质量进行评判,这只是第一步。之后还需要定义数据质量的KPI,并通过图1所示的数据质量反馈环,向数据源实时反馈数据质量KPI,以促进数据源针对数据质量做改进。


 

  对于数据质量反馈环来说,技术手段是基础,除技术手段外,往往还需要行政考核或奖励作为辅助,才能使数据质量反馈环进入正反馈,逐渐提高数据质量。甚至仅仅是在业务部门公开发布数据质量的排名数据,就可以促进数据质量的改进。

 

  对于一个大型的大数据项目来说,可以考虑将数据质量反馈环作为一个独立的项目来实施,以保证数据质量反馈环的顺利工作。例如,对于类似于法院系统的大数据项目,上级法院的数据都是从下级法院采集而来,可以构建专门的子项目团队,开发数据质量评判的技术,对数据质量KPI进行评定,并公开发布,以促进数据的真实性与有效性。

 

  最后,数据质量如果要形成长效的正反馈,还需要建立业务反馈闭环。任何一个技术要获得大规模社会应用,产生社会效益,有两个前提,其一是技术可行性,其二是经济可行性,大数据技术也不例外。

 

  对于大多数应用,大数据已经满足技术可行性,但不满足经济可能性的话,将难以激励数据源提供高质量的数据,进而导致系统的退化。

 

  如图1,大数据平台通过收集生产系统产生的业务过程数据,以及对业务数据进行建模,对当前生产系统提出改进建议与分析报告,去除或改进现有系统中不合理的环节,提高系统生产效率,降低成本。例如,通过收集无线网络的网络覆盖相关的信息,可以对现网的网规网优工作进行指导,与传统依靠路测进行网规网优的模式相比,无论是资金成本还是时间成本,都急剧降低。再如,电子商务的推荐系统,通过电子商务网站产生的数据,分析用户的属性与标签,形成推荐结果后反馈给电子商务网站,以促进更多的电子商务销售,形成闭环反馈。

 

  当然,此处所谈及的“经济可行性”,也可以用其他的效益指标来替代与衡量,例如,城市的交通拥堵率、犯罪率等。一般来说,只有满足经济可行性,能够为生产系统带来实际价值的大数据系统,才有可能激励生产系统为其提供高质量的数据,并进行持续改进。经济可行性的闭环反馈,将有助于提高数据质量,提升项目成功的概率。

数据质量保障实例

 

  2017年,中兴通讯承接了某警务大数据项目,该项目主要任务之一就是对公安内外部的海量数据进行汇聚、整合,为公安各警种的上层业务应用提供数据服务,打破传统的烟囱式应用开发模式。为此,项目组需对公安内外部几十个生产系统的数据进行对接,对数十亿条数据进行汇聚与治理,通过多轮的数据汇聚、清洗、整合,为上层数十种业务应用提供其完整、可靠、一致的高质量数据。其数据治理过程主要分为数据质量检测检查改进与应用业务验证两个阶段(如图2)。


  首先,对于数据质量检查改进阶段,涉及多个维度,包括正确性、完整性、时效性、唯一性、参照完整性(数据项是否在主表中有定义)、依赖一致性、精确性、技术有效性、业务有效性等多维度的系统化检测。

 

  对于所发现的问题数据,能够靠平台自身修正的,则平台直接修正,例如规范化问题。对于平台不能处理的问题数据则存储到存疑数据库中,后续提交给生产系统整改,整改后再进行采集治理。同时,对生产系统的数据质量进行周期性统计,形成反馈闭环,促进生产系统主动改进数据质量。

 

  其次,对于应用业务验证阶段,为确保平台提供的数据真正符合应用需求,设置了专用的应用验证环境,接入新数据源时,会先采集一批数据,进行基础数据治理,被典型应用验证合格后才能进行正式部署。

 

  问题数据形成的原因很多,经过两个阶段处理后的数据,如果还存在治理不完全的情况,则将通过平台提供的电子化问题反馈渠道进行反馈,以便及时处理未被现有规则覆盖的问题数据。
 

 

  通过“检测双闭环”的模式,将有助于大数据项目数据质量形成长效的正反馈,在项目运行过程中,逐步改进数据质量,进而增加整个系统的价值。

 

  一个成熟的大数据系统,往往具备成熟的数据质量控制体系。反之,如果输入的数据质量不佳,将会逐渐导致整个大数据系统的应用效果下降,并形成负反馈,最终导致系统的失效。