面向智能搜索引擎本体学习研究.docVIP

下载本文档

0
0
约6.46千字
约 13页
2018-09-22 发布于福建
举报
版权申诉

面向智能搜索引擎本体学习研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向智能搜索引擎本体学习研究

面向智能搜索引擎本体学习研究　　摘要：智能搜索引擎是解决当前网络信息检索中存在诸多瓶颈问题的有效途径。智能搜索引擎需要获取、预处理、表示和集成不同层次的(如HTML/XML/RDF/OWL文档)的数据和信息，并最终转换成各领域的智能语义信息。领域本体是实行智能的关键。提出了一种实现从Web文档中(半)自动构建本体的学习系统框架，并讨论本体学习中概念的获取、相互关系的获取等关键问题。　　关键词：智能搜索引擎；本体；本体学习　　中图分类号：TP391.1 文献标志码：A 文章编号：1001-3695(2008)08-2362-04 　　　　Study on ontology learning for intelligent search engine 　　XIAO Ming??a,b??, HU Jin-zhu??a,b??, XIAO Yi??c 　　(a.Center for Language Language Education, b.Dept. of Computer Science, c.Dept. of Information Management, Central China Normal University??, Wuhan 430079, China) 　　Abstract:Intelligent search engine is an effective tool for solving many bottleneck problems in network information retrieval. It involves acquiring, preprocessing, representing and integrating data and information available at different levels of services (such as HTML/XML/RDF/OWL etc) and eventually converts them into useful intelligent semantic information of each domain. This paper proposed firstly a systemic framework for building (semi-)automatically ontology learning from Web pages and considered some key problems about extracting concepts and interrelationships in ontology learning. 　　Key words： intelligent search engine; ontology; ontology learning 　　　　0 引言　　　　因特网的广泛普及使得网上信息的数量和类型随之急剧增加，从而造成用户查找信息越来越困难。如何高质高效地检索到所需的信息，是当前信息检索领域迫切需要解决的问题。目前被普遍使用的检索方式是利用搜索引擎的快速查找。搜索引擎利用基于关键词的全文检索技术和基于主题分类的检索技术，其检索效果还不能令人满意。网络信息检索仍存在诸多瓶颈，主要表现在以下几个方面：a)用户表达模糊。一般情况下，用户很难简单地通过关键词或关键词串，准确地表达其真正想检索的内容。此外，对同一概念的检索，不同的用户可能使用不同的但相似或相关的关键词来查询。用户表达得不准确，造成检索的困难。b)检索过程机械，不理解语义。基于关键词匹配的检索技术，只是机械地把用户的查询请求以关键词的形式与全文中的词进行比较，而没能考虑到查询请求与文档语义上的匹配。一方面，检索结果中包含大量无关信息；另一方面，很多与关键词同义的信息却没能检索出来。c)出现“信息孤岛”。事物之间是紧密联系的，反映在概念上，概念之间也存在各种各样的联系。一个概念在被检索时，系统只作为一个孤立的检索词来处理，忽略了概念之间的联系，形成了“信息孤岛”。检索返回的结果只包含被检索词的文档，而不涉及与其相关的信息。d)检索结果缺乏知识。同一主题的相关信息，往往分布在多个不同的站点上，现有的检索技术只能返回与主题相关的一系列网址列表，却不能将相关信息合并后形成知识，为用户服务。　　本体机制是科学家为客观地解释对象的语义及它们之间的关系而建立的，反映了人们对语义的共识。本体将是实现智能信息搜索的前提。为实现智能信息搜索，需构建大量的本体（尤其是应用本体）来满足其需求。但本体和知识库从何而来？相对于因特网上海量信息而言，目前只有很少手工构建的本体如WordNet和Cyc，但