基于背景知识的知识发现技术研究-模式识别与智能系统专业论文.docxVIP

基于背景知识的知识发现技术研究-模式识别与智能系统专业论文.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
novel novel approaches arc proposed.Based upon the domain theory of the life cycle of borer,a time window based data preproeessing algorithm is presented.Based upon the domain theory of the distribution ofnutrient elements in soil and the background knowledge ofthe error pattern ofthe soil data.a classification based olltlicr mining algorithm is proposed. Key words:constrained clustering,background knowledge,semi-supervised learning, machine lcamlng,knowledge discovery 中国科学技术大学博士论文 中国科学技术大学博士论文 第一章绪论 第一章绪论 1.1知识发现技术 随着计算机应用范围的不断扩大,存储子计算机中的数据以惊人速度增长。 在天文学领域,哈勃望远镜每天产生的数据量达5GB,而正在建设中的大口径 综合巡天望远镜日产数据量将达10TB[11。而在生物医学领域,人类基因工程可 能产生超过3.3109个核苷酸的数据集噬如何有效地利用海量数据,并从中发 现知识成为一个挑战陛的研究课题。 知识发现就是研究如何从数据中抽取隐含的、未知的、但却有用的信息[3】。 从数据中提取知识可能需要经过数据清理、集成、选择、变换、挖掘等等诸多过 程。其中,数据挖掘是直接实现从数据中提取知识的过程,是最为重要的一个步 骤。鉴于数据挖掘工作的重要性,其内涵常被扩大,通常已被认为是知识发现的 同义词[41。本文中的知识发现与数据挖掘两个术语在使用时如不强调,没有区别, 均为知识发现的含义。 知识发现是一个多学科交叉领域,与其相关的有数据库技术、机器学习、统 计学、知识库系统、高性能计算和数据可视化等众多学科[41。其中,它与机器学 习和统计学关系最为密切,是两者的实际应用。但由于面对海量的实际数据,知 识发现必须要考虑更多的实际问题:如何提高算法的执行速度、如何减少占用空 间,如何处理数据失真问题、如何有效地将领域知识结合入知识发现过程等等。 1.2知识发现过程中的背景知识 背景知识也称领域知识,是关于挖掘领域的知识。从知识发现的角度,背景 知识是任何能影响知识发现过程的知识。在数据量很小时,领域专家有时可能在 不需要计算机帮助的情况下,对数据进行分析,在分析过程中,其所具有的领域 知识扮演着重要角色。随着数据量的增大,人工分析数据已不太现实,只有利用 计算机自动来完成知识发现。现有的知识发现策略主要取自机器学习及统计学领 域,但统计学主要是数据驱动,没有考虑背景知识的应用[31。而机器学习对于背 景知识利用的研究也不深入,对于背景知识与一些常见的数据分析方法如聚类分 析策略的结合,研究得不多;另外,机器学习中对背景知识应用的研究常是~般 性的,对于一些特殊的背景知识应用,如昆虫的生命周期,则缺乏研究,随着知 中国科学技术大学博士论文 中国科学技术大学博士论文 第一章绪论 识发现应用领域的不断扩展,这些特殊的背景知识对于特定领域的知识发现却可 能有重要意义。 背景知识种类繁多,尚无广泛接受的分类方法。Han和Kamber在讨论关联 规则挖掘时将数据挖掘中的约束分为五类:知识类型约束、数据约束、维/层约 束、兴趣度约束和规则约束【4】。这~分类强调了知识发现的目标:如知识类型约 束是指定要挖掘的知识类型,兴趣度约束指定目标知识的支持度或置信度等,规 则约束指定要挖掘的规则形式。Wagstaff将聚类问题时可用的背景知识分为四 类:全局约束、类约束、特征约束和实例约束圈。这一分类强调了知识发现的数 据集,是根据约束作用的范围来分类的。王大铃等将数据预处理时可用的背景知 识分为四类:范围知识、层次知识、规则知识和类型知识is]。这一分类强调了数 据的属性,范围知识、层次知识及规则知识都是对属性进行约束的,并不包括对 单个数据对象或数据对象间关系的约束。Anand等人给出了一个结合领域知识的 数据挖掘框架,并将领域知识分为层次概化树、属性关联规则和基于环境的限制 三类仞。其中基于环境的

您可能关注的文档

文档评论(0)

131****9843 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档