- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘的知识处理研究
江建举葛运建唐毅
1)
(中科院合肥智能机械研究所合肥23003
摘要数据挖掘是当前信息处理领域的前沿研究课题,是人们从大量数据中获取知识的重
要手段之一。通过关联挖掘、序列挖掘等挖掘方法获得的大量知识怎样进行评估,
怎样进行表述,以便用户能够获得感兴趣的知识,成为研究的重要内容.本文研究
的就是数据挖掘的后期知识处理过程。数据挖掘的后期知识处理过程主要包括知识
评价和知识表述两个方面,本文就是在这两个方面提出一些新的观点和方法。
关键词数据挖掘;知识评价;知识表述;感兴趣度;
1引言
数据挖掘技术是当前信息处理领域的前沿研究课题,它是由人工智能、数据库技术以及
统计学等学科交叉而形成的。它的出现是用于解决所谓的‘数据丰富,而知识贫乏’的现象。
随着社会信息化程度的提高,大量的历史数据保存下来,对于海量的数据,应用以前简单的
统计学进行的处理已经不能满足人们的需要,因而数据挖掘技术就作为一种崭新的知识获取
手段脱颖而出,可以有效的从大量的数据中以数据驱动的方式获得感兴趣的知识,以协助人
们进行决策支持、客户关系管理等行为。
目前的大多数数据挖掘的研究集中在有效的关联规则挖掘、序列挖掘、分类挖掘和聚类
挖掘等挖掘算法上,并提出了一些高效的挖掘算法,从海量的数据库/数据仓库里面挖掘出大
量的模式和规则。但是这些大量的模式和规则大多数并不能对用户的有效决策提供帮助、即
大量挖掘出的知识中只有一部分是用户感兴趣的,怎样使普通用户很容易的利用这部分感兴
趣的知识,就成为数据挖掘过程至关重要的一环,即数据挖掘的后期知识处理过程。本文就
是对知识处理过程,包括知识评价和知识表述,进行深入的研究,提出一种新的知识处理方
法,进行有效的知识评价和知识表述,使最终用户能够很容易的获得自己感兴趣的知识。
2相关技术
数据挖掘过程如图1所示,主要包括以下几个步骤:数据预处理、数据挖掘、知识评估
以及知识表述,后两者因为相互关联,所以把两者共称为知识处理。
数据预处理是根据挖掘主题从原始数据库中抽取相关数据,并对数据进行净化、集成以
及完整性和一致性检验等加工,形成挖掘数据库、数据仓库。数据挖掘是指运用适当的知识
发现算法,从挖掘数据库、数据仓库提取知识,这些知识是以原始的表示方式,如产生式规
968
则等表示。而知识评价则是对挖掘出来的大量的模式进行价值评定以决定所得的规则是否是
用户感兴趣的,把大量的用户不感兴趣的规则剔除。知识表述则是把经过知识评价后的用户
感兴趣的规则以一种简单清晰的方式表述出来,以便最终用户能够很容易的利用这些挖掘出
来的有用信息。
图(1)数据挖掘过程简图
3知识处理相关研究
知识处理是数据挖掘的后期知识管理过程,包括知识评价和知识表述两个部分,这两个
部分是互相交叉影响的,高效的知识评价能够尽可能的去除用户不感兴趣的知识,因而使知
识表述更清晰易懂,而适当的知识表述方法又能促进知识评价更加完善。下面分别介绍知识
评价和知识表述以及一种新的知识处理算法。 ‘
(1)知识评价
知识评价主要是根据规则的感兴趣度来进行取舍的。其度量的标准主要包括知识的有效
性、新颖性和潜在有用性。有效性是指发现的知识对于新的业务数据仍然具有一定的指导意
义。新颖性则是指发现的知识是用户并没有期望得到的新的规则。潜在有用性是指发现的知
识对于用户的决策等行为能够提供支持。这些度量的标准的综合称为规则或模式的感兴趣度。
知识的感兴趣度根据其推理机制不同分为客观感兴趣度和主观感兴趣度,其中前者是数据驱
动的、后者是用户驱动。在知识评价过程中一般是两者综合运用。
当前感兴趣度研究的热点主要是客观感兴趣度,它是基于数据挖掘获得的产生式规则进
行评定。因为关联规则挖掘算法的大量应用,得
您可能关注的文档
最近下载
- 《新媒体传播》课件.ppt VIP
- 2025年安全员c2考试试题库(答案+解析).docx
- GBT45001-2020SO45001:2018 职业健康安全管理体系要求及使用指南.pdf VIP
- 个人业绩相关信息采集表含政治表现、最满意、主要特点、不足.pdf VIP
- 部编版六年级上册道德与法治教案:感受生活中的法律知识.docx VIP
- 货运保险与货损理赔通道整合2025年应用前景.docx VIP
- 《飞机构造基础》课件——第一章 飞机结构.pptx VIP
- 中医治疗“慢脾风”医案37例.doc
- 小学科学新教科版二年级上册第一单元 造房子教案(共6课)(2025秋).docx VIP
- 2025年广西公需科目第二套答案.docx VIP
文档评论(0)