数据挖掘本体模型调研.docxVIP

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘本体模型调研

数据挖掘中引入本体论的原因:数据挖掘(Data Mining,DM)技术一直是计算机工程领域的研究热点。由于该领域知识的不断扩充和更新,我们在使用数据挖掘过程中也遇到了一些问题。比如:1、对于新出现的领域知识,无法实现知识自动定义及归类,而需要领域专家的人工操作,造成定义及归类的人为差异等。2、没有一个统一的数据挖掘领域知识管理系统用于用户的知识检索。3、当一个不具备很多领域知识的普通用户提交一个数据挖掘任务时,可能得不到解决该挖掘任务的挖掘方法及算法的最佳组合。本体概念演变:本体(Ontology)最早是一个哲学上的概念,从哲学的范畴来说,Ontology是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质。在人工智能界,最早给出Ontology定义的是Neches等人,他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993年,Gruber给出了Ontology的一个最为流行的定义,即“Ontology是概念模型的明确的规范说明”。后来,Borst在此基础上,给出了Ontology的另外一种定义:“Ontology是共享概念模型的形式化规范说明”。Studer等认为本体是共享概念模型的明确的形式化规范说明。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇(术语)和词汇间相互关系的明确定义。领域本体(Domain Ontology)是专业性的本体,提供了某个专业学科领域中概念的词表以及概念间的关系,或在该领域里占主导地位的理论。数据挖掘与本体论结合研究的现状目前本体与数据挖掘的结合研究表现有以下三个大方面。一:本体学习,即利用数据挖掘技术来构建各种不同分类的本体。二:领域本体用于知识发现,即构建特定领域本体应用于不同领域的知识发现中。三:数据挖掘领域知识本体,即基于本体论来构建数据挖掘的领域知识,从而进行知识发现。本体学习本体学习技术,其目标就是利用数据挖掘技术(如:机器学习和统计等技术)自动或半自动地从已有的数据资源中获取期望的本体。针对不同的数据类型,本体学习技术分为3大类:基于结构化数据的本体学习技术、基于非结构化数据的本体学习技术和基于半结构化数据的本体学习技术。①基于结构化数据的本体学习技术:结构化数据主要包括关系数据库或面向对象数据库中的数据。关系型数据库采用的是关系模型,这种模型结构通常是用二维关系表格形式来表示。在关系数据库中,关系模式是型,元组集(即关系)是值。与关系模型相比,本体是一种具有更多语义、结构更为复杂的模型。所以,这类本体学习的主要任务就是分析关系模型中蕴涵的语义信息,将其映射到本体中的相应部分。②基于非结构化数据的本体学习技术:非结构化数据主要是针对没有固定结构的数据(例如:纯文本文件)。由于缺乏一定的结构,要使机器自动地理解纯文本并从中构建本体是一个困难的问题。要使机器能够自动地理解纯文本,并从中抽取出所需要的知识,则必须利用自然语言处理(NLP)技术对其预处理,然后利用统计、机器学习等手段从中获取知识。对于本体概念的获取,现有的方法可以分为3类:基于语言学的方法、基于统计的方法和混合方法。对于本体概念间关系的获取,常用的方法有:基于模板的方法、基于概念聚类的方法、基于关联规则的方法、基于词典的方法,或者这些方法的混和。③基于半结构化数据的本体学习技术:半结构化数据即针对Web中的XML格式和HTML格式的网页的数据源。由于这类数据是介于结构化和非结构化数据之间的一类数据,所以基于上述两种数据类型的本体学习技术也可以应用到这类数据源。应用领域本体用于知识发现在特定领域中构建不同的领域本体,主要是涉及特定领域的概念定义和概念之间的关系,提供该领域中发生的活动以及该领域的主要理论和基本原理等,从而将其应用于领域知识发现中。目前开发和涉及的领域包括语义网、企业本体、农业本体、医学本体、酶催化生物医学本体、陶瓷材料机械属性本体等。本体除定义关系外。还能定义属性的知识范畴,使子类能继承父类的属性。必须依靠本体(Ontology)处理相同概念但不同形式的同义关系。数据挖掘领域知识本体数据挖掘(Data Mining)是一个利用各种分析工具在海量数据中发现模型和数据间关系的过程,并通过这些模型和关系可以用来做出预测。由于数据挖掘是研究的热点,而数据挖掘领域知识又十分的繁杂,就产生利用本体的理论来构建数据挖掘的领域知识,以协助数据挖掘工作者。国内外对这方面的研究还不是很成熟。2002年,Bernstein等人提出了基于本体的方法来智能帮助数据挖掘过程。通过本体对数据挖掘过程进行描述,如:数据预处理、数据挖掘算法应用阶段和数据后处理。又对数据挖掘

文档评论(0)

youshen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档