管理信息系统中提高数据质量方法技术.docVIP

  • 3
  • 0
  • 约4.71千字
  • 约 11页
  • 2019-08-23 发布于北京
  • 举报

管理信息系统中提高数据质量方法技术.doc

PAGE PAGE 1 管理信息系统中提高数据质量方法技术   摘要:该文阐述了提高管理信息系统内数据质量的方法技术,并从数据质量的角度科学分类了管理信息系统内的数据。   关键词:管理信息系统;数据质量;数据预处理;数据挖掘;决策树;多维关联规则   中图分类号:TP311文献标识码:A文章编号:1009-3044(2013)04-0776-03   TheMethodsofEnhancingDataQualityinManagementInformationSystem   LIMing   (TroopNO.63908ofPLA,Shijiazhuang050000,China)   Abstract:Thispaperintroducesthemethodsofenhancingthedataqualityinmanagementinformationsystemandscientificallyclassifythedataofmanagementinformationsystemfromdataqualityangle.   Keywords:managementinformationsystem;dataquality;datapreprocessing;datamining;decisiontree;multidimensionalassociationrule   目前,管理信息系统被应用于各个领域,这些大大的加速了各行各业的现代化进程,但是,由于各种原因,使得管理信息系统内的数据质量无法得到保障,低劣的数据质量给精确化的管理和正确的决策带来了极大的危害,损失了社会效益和经济效益。该文就是为提高管理信息系统内数据质量,提出了相应应当采用的方法技术。   1数据质量内涵   从数据质量对管理信息系统内数据分类如下:   图1   2研究内容   管理信息系统内提高数据质量的研究内容包括:数据质量定量化评估、获取诊断规则、查找异常及错误数据、修正错误数据、填补不完整数据和剔除冗余信息等。   2.1数据质量定量化评估   数据质量评估是提高数据质量的基础和必要前提,它能对管理信息系统的整体或部分数据的质量状况给出一个合理的评估,从而可以帮助数据用户了解应用系统的数据质量水平,并采取相应的处理过程来提高数据质量。   定量化评估数据质量,是掌握管理信息系统内数据质量的有效途径,只有定量化的评估指标才能让数据用户做到对数据质量心中有数。   2.2获取诊断规则   对于管理信息系统中的异常及错误数据,查找它们是一个比较困难的工作。这就要求建立有效可行的诊断规则,按照诊断规则高效准确地查找数据中的异常和错误。   有很多获取诊断规则的方法技术,这些方法技术涉及数据挖掘、数理统计等。   2.3查找异常及错误数据   在诊断规则基础上,按照一定的策略,查找异常及错误数据。查找时,要求对异常及错误数据的定位要准确,减少连带正确数据的几率,对于大数据量的信息,必须高效率查找。   查找异常及错误数据涉及查找策略的制定、高效算法的生成等。   2.4修正错误数据   精确地修正错误数据是一项复杂而有难度的工作,采用的软件算法应当恰当而适用,如此,修正过的错误数据才能准确率高,整体提高管理信息系统内的数据质量。修正错误数据涉及软件算法的选择等。   2.5填补不完整数据   对于管理信息系统内存在的不完整信息,首先,分析判断出其是否为不完整信息,由于对于某些特定的数据字段,其并没有必须填写的内容,所以,对此不能判定为不完整信息;其次,与修正错误数据相同,也应当采用相应的软件算法。   填补不完整信息涉及制定规则、设计算法等。   2.6剔除冗余信息   冗余信息的产生是由于重复录入数据、多个数据源等原因造成的,在剔除冗余信息时,首先要分清两条记录信息是否是重复(冗余)的数据,其次剔除冗余信息。   剔除冗余信息涉及建立判别模型等。   3方法技术   目前,有较多研究提高管理信息系统内数据质量的方法技术,在此,加以阐述。   3.1分块多维关联规则算法   由于从不同属性对数据库进行分块,各分块中蕴含知识的可信度是不同的。因此,将不同可信度的数据混在一起进行挖掘,得到的知识效果不令人满意,为此,提出基于分块的多维关联规则挖掘方法。   数据分块的原则如下:   定义:[?A(A是数据立方体),?Ai,Aj,]使得[Ai]∩[Aj]=Φ且[Ai?A,Aj?A,](i≠j,且i,j=1,2,…,n),则称[Ai,Aj]是数据立方体A的分块。   应用多维关联规则挖掘Apriori_Cube算法对不同分块的数据集分别挖掘,得出相应的知识。   采用分块多维关联规则,可以获取诊断规则知识库。   3.2决策树   形成决策树的

文档评论(0)

1亿VIP精品文档

相关文档