知识发现与数据掘.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识发现与数据掘

知识发现与数据挖掘 提要: 本文介绍了知识发现及其数据挖掘的,数据挖掘常用技术及。  【关键词】知识发现,数据挖掘  1、引言  随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。进入九十年代,伴随着因特网(Internet)的出现和发展,以及随之而来的内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。当数据量极度增长时,如果没有有效的,由机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和“数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett) 惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识)。  面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应运而生了。  2、知识发现过程  知识发现(KDD)是从数据中发现有用知识的整个过程;数据开采(DM)是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。1996年,Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。  KDD过程是多个步骤相互连接、反复进行人机交互的过程。具体包括:  ①某个应用领域:包括应用中的预先知识和目标。  ②建立目标数据集:选择一个数据集或在多数据集的子集上聚焦。  ③数据预处理:去除噪声或无关数据,去除空白数据域,考虑时间顺序和数据变化等。  ④数据转换:找到数据的特征表示,用维变换或转换方法减少有效变量的数目或找到数据的不变式。  ⑤选定数据挖掘功能:决定数据挖掘的目的。  ⑥选定数据挖掘算法:用KDD过程中的准则,选择某个特定数据挖掘算法(如汇总、分类、回归、聚类等)用于搜索数据中的模式。  ⑦数据挖掘:搜索或产生一个特定的感兴趣的模式或一个特定的数据集。  ⑧解释:解释某个发现的模式,去掉多余的不切题意的模式,转换某个有用的模式,以使用户明白。  ⑨发现知识:把这些知识结合到运行系统中,获得这些知识的作用或证明这些知识。用预先、可信的知识检查和解决知识中可能的矛盾。  3、知识发现的核心――数据挖掘  所谓数据挖掘,就是从数据库中抽取隐含的、以前未知的、具有潜在应用价值的信息的过程。数据挖掘是KDD最核心的部分。数据挖掘与传统工具不同的是数据挖掘使用的是基于发现的方法,运用模式匹配和其它算法决定数据之间的重要联系。  数据挖掘算法的好坏将直接到所发现知识的好坏。大多数的都集中在数据挖掘算法和应用上。需要说明的是,有的学者认为,数据开采和知识发现含义相同,表示成KDD/DM.它是一个反复的过程,通常包含多个相互联系的步骤:预处理、提出假设、选取算法、提取规则、评价和解释结果、将模式构成知识,最后是应用。在实际,人们往往不严格区分数据挖掘和数据库中的知识发现,把两者混淆使用。一般在科研领域中称为KDD,而在工程领域则称为数据挖掘。  4、数据挖掘中常用技术  目前市面数据挖掘应用方面有着种类繁多的商品工具和软件,大致可以归纳为下列主要类型:  [1]传统主观导向系统:这是针对专业领域应用的系统。如基于技术分析方法对市场进行分析。采用的方法从简单的走向分析直到基于高深数学基础的分形和谱分析。这种技术需要有经验模型为前提。属于这类商品有美国的Metastak,SuperCharts, CandlestickForecaster和WallStreetMoney等[2]传统统计分析:这类技术包括相关分析、回归分析及因子分析等。一般先由用户提供假设,再由系统利用数据进行验证。缺点是需经培训后才能使用,同时在数据探索过程中,用户需要重复进行一系列操作。属于这类商品有美国的SAS,SPSS和Stargraphis等。由于近年来更先进的DM方法的出现和使用,这些厂商在原有系统中综合一些DM部件,以获得更完善的功能。以上两种技术主要基于传统的数理统计等数学的基础上,一般早已开始用于数据分析方面。  [3]神经元(NN)技术:神经元网络技术是属

文档评论(0)

woai118doc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档