可拓集的企业数据挖掘应用方案分析.docxVIP

可拓集的企业数据挖掘应用方案分析.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE 1 PAGE 1 可拓集的企业数据挖掘应用方案分析 数据本身的质量差造成数据挖掘结论的可信度低已经成为影响数据挖掘应用的重要因素,针对不完备数据设计的清洗算法、容忍算法等都不能从根本上解决这个问题。通过深入分析这一矛盾现象的原因,对企业数据建立物元可拓集合,提出基于可拓方法的数据挖掘企业应用方案。以数据挖掘所需的完备数据集做为条件物元,发觉数据质量差距,以事元“数据挖掘咨询”促使物元集可拓域的发展变换,推出以数据挖掘应用咨询带动数据质量改进的措施,从而解决了数据质量的矛盾问题,使数据质量不高的企业也可以实施数据挖掘项目,提高信息决策水平。 1数据挖掘应用现状及存在问题 近年来,数据挖掘在生物、金融、保险、零售等行业已得到较为广泛的应用,成为后信息化时代的关键技术,但在数据挖掘项目洽谈及实施过程中,常常会遇到各种矛盾问题。例如,数据本身质量问题和挖掘结论正确性的矛盾、海量数据与快速挖掘的矛盾、影响因素的无限性和挖掘属性选取的有限性之间的矛盾等等。其中,数据质量问题已成为影响数据挖掘应用的重要因素,存在有错误的或者不完整的、冗余的、稀疏的数据使得最终数据挖掘结论的可信度降低。因而,数据挖掘专家对数据质量差的企业得出的结论是不能做数据挖掘,做了结论精确性也很低,无法商业化应用;对企业而言,往往缺乏有效措施使数据精确,同时数据精确性无法有效检验,最终导致数据挖掘项目的沟通时间长,企业热忱由高到低,可能使数据挖掘项目的洽谈无法达成协议。 针对数据质量和挖掘结论精确性之间的矛盾,目前企业的做法通常是制定数据质量检验的标准,引入数据质量管理平台,加大数据误差的惩罚力度,购买新技术和新软件等,这些措施往往不能很好地解决数据的质量问题,企业信息化质量仍旧不高。数据挖掘专家则把精力集中在研究数据处理、清洗的技术、算法等,或者对低质量数据进行挖掘算法研究,但效果并不抱负。 本文拟从可拓工程研究的基本思想、工具和方法动身,将不相容问题进行形式化描述,建立条件物元和目的物元,将企业数据看作物元可拓集合,从可拓集合的变换角度进行分析,试图通过可拓变换解决数据精确性差和数据挖掘结论要求的可信度高之间的矛盾。 2数据质量问题的可拓分析 可拓学把物N、特征名c和N关于c的量值v构成的有序三元组R=(N,c,v)作为描述物N的基本元,称为一维物元。其中c和v构成的有序二元组M=(c,v)表示物N的一个特征。 依据可拓学的动态原理,任何物元都是参数t的函数,即R(t)=(N(t),c,v(t)),其中参数t可以是时间、空间或其他参数。 用于挖掘的数据是一个随时间、空间及信息化管理程度等动态变化的多维物元,记为 式中:N1(t)为数据记录,c为数据记录的特征名,v是N1(t)关于c的量值,t为一般参数。因此,可以从参数t为时间、空间和其他条件等方面来分析造成数据质量差的原因。 从时间角度分析,信息化初期的软件系统是面向操作的,以提高工作效率为主,内容不完整,补丁多,设计实施缺乏统一规划;从空间角度分析,企业中各个子系统相对独立,数据分散,不同的业务规范和基础数据编码,导致数据表达方式的多样性;从管理角度分析,数据存在不全都、不完整、数据重复、数据二义性甚至可能会有冲突等问题,但缺乏管理手段和工具发觉这些问题。此外,设计时没有供应合理有效的数据更新维护途径,缺乏数据质量监督管理措施也是原因之一。 数据质量差的最根本原因在于数据没有得到企业高层的有效分析和应用,原因是信息系统自企业部门级应用开始,受信息集成技术的限制,各部门数据形成信息孤岛,数据的完整性、全都性无法保证。这种不精确、不完整的孤立数据不利于面向主题的分析,更不能进行数据挖掘,无法有效地进行决策支持,因此,企业高层领导对数据的关切度降低,数据精确的推动力减小,从而使数据更不精确,形成恶性循环。 3基于可拓变换的企业数据挖掘应用方案 数据挖掘涉及3个多维物元和一个多维事元,用于数据挖掘的原始数据集可用式(1)所示的多维物元R1来表示;质量达到要求,可进行有效挖掘的数据集可用多维物元表示为 该物元为条件物元,数据挖掘过程可用多维事元表示为 其中bi(i=1…n)为动词的特征名,包括支配对象、施动对象、接受对象、时间、地点、程度、方式和工具等基本特征,ui为量值。 挖掘结论即目的物元,可用多维物元表示为 目前一般的数据挖掘过程都是先通过数据清洗、格式化等把R1,变换为R2,然后再采用see5、支持向量机、MCLP等数据挖掘软件工具实现挖掘变换,得到挖掘的结论R3。由于企业数据质量不高,数据清洗处理往往占用大量的人

文档评论(0)

130****2066 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档