基于本体的商业智能数据质量研究.docVIP

  • 4
  • 0
  • 约8.51千字
  • 约 16页
  • 2018-08-17 发布于湖北
  • 举报
基于本体的商业智能数据质量研究   摘要:针对商业智能中存在的数据质量问题,提出在应用层使用本体技术来提升数据质量的方法。根据商业智能中大部分应用以报表形式展现的特点,在应用层构建了报表本体库,以指标作为基本单位对应用数据进行清洗和加载,建立了以指标间逻辑关系为基础的数据质量检查机制。应用结果表明,该方法能够解决在应用层引起的各种数据质量问题,提高了数据的可解释性和可信性。   关键词关键词:本体;商业智能;数据质量;   中图分类号:TP392   文献标识码:A 文章编号文章编号2014)004010205   作者简介作者简介:祝衍军(1982-),男,硕士,东莞职业技术学院计算机工程系工程师,研究方向为企业信息化、商业智能;陈俞强(1982-),男, 博士,东莞职业技术学院计算机工程系副教授,研究方向为智能控制。   0 引言   商业智能(BI)是一种综合运用了数据仓库、联机分析处理(OLAP)和数据挖掘(data mining)技术来处理和分析数据的崭新技术,它能够将数据转变为信息和知识。商业智能已经广泛应用于各种大中型企业,从使用用户来看,商业智能从最初只给企业高层管理人员提供经营决策分析应用,扩展到给公司各层人员提供有针对性的专题分析应用[1,2],已经从企业的边缘系统发展为核心业务系统,用户通过该系统获取自己权限范围内的各种企业经营指标和业绩报告,一旦系统出现数据质量问题,将影响整个公司的日常运营和决策,给使用者带来极大的困惑,因此数据质量是商业智能系统的生命线。   商业智能系统的数据质量问题主要有:   (1)多个应用系统数据整合后造成数据不一致。商业智能数据来源于企业的各种业务支撑系统,如CRM(客户关系管理)、计费、OA等,需要对这些业务系统的数据进行整合后才能使用,而这些系统对于同一个业务对象的描述不尽相同,且这些系统通常不是由同一个生产厂家开发,因此在整合时很容易对业务实体理解产生偏差,一旦理解有偏差,则整合后的数据与用户期望会大相径庭。另外业务系统关注的只是自身业务操作问题,对其它业务描述信息不重视,因此在整合时各个业务系统自身也存在数据质量问题,如有些业务描述字段为空等。   (2)数据经过层层加工汇总后造成数据不一致。商业智能提供的数据是整个公司的经营分析数据,需要经过层层加工和汇总后才能得到,如国内电信行业的商业智能数据一般都是经过生产系统→ODS→EDW→专题数据集市的多层加工汇总后得到的,每层的数据加工和汇总通常使用ETL技术来实现,如果ETL程序员对业务理解有偏差或其它的技术原因,如数据传输过程中数据包丢失等,都会造成数据的不一致。   (3)数据反映的企业业务定义本身有歧义。商业智能系统当前更多地关注提供什么样的数据以及如何提供数据等问题,未能提供对各种业务概念统一管理的框架和技术,从而造成不同部门对同一个业务给予不同的含义和解释,进而导致同一个业务名称在不同的地方拥有不同的数据值以及业务数据与实际情况不一致等严重的数据质量问题,严重降低了数据的可解释性和可信性。   本文针对上述数据质量产生原因的第(2)和第(3)点,提出在应用层引入本体技术来提高商业智能数据质量的解决方案。   1 相关研究   数据质量可从应用角度与自身特性两个方面来看:①数据应用方面,可从是否满足指定应用的要求和用户的期望来衡量,也就是对应用而言数据是否是可信的和可解释的;②就数据质量本身而言,主要包括两个方面:一是数据本身的数据质量,主要包括数据真实性、数据自治性、数据完整性、数据逻辑一致性、数据精确性、数据时效性、数据可用性、数据可信性以及一些关于体现数据质量特征的属性;二是数据的过程质量,主要包括数据使用质量、数据存贮质量、数据传输质量[1,2],目前对数据质量研究主要还是集中在数据自身特性方面[35]。对于如何提高数据质量,从数据质量问题解决依赖的知识来看,数据质量提高策略可以分成两类:一类是不依赖特定业务规则,独立应用,如数据拼写错误、数据分布异常、某些缺失值处理等,这类问题的解决不依赖于特定的业务规则,可以从数据本身寻找特征来解决;另一类解决方法与特定业务规则相关,是应用依赖的,相关领域知识是消除数据逻辑错误的一个必需条件[5]。虽然当前研究主要集中第一类方法上,但通过如何应用相关领域知识来提高数据质量,也是一种很重要的数据质量提升方法。   数据质量问题产生的根本原因,在于人们对现实世界的同一实体有多侧面的认识和多形式的表达[6]。本文从应用要求和用户期望的角度出发,结合本体技术,应用公司经营分析领域知识来提高商业智能系统的数据质量。本体是关于概念以及概念间相互关系的明确的、形式化的规范说明,通过描述概念间的相互关系表达语义[1,4],作为一

文档评论(0)

1亿VIP精品文档

相关文档