基于本体的Web文档值莫识获取的框架研究.docVIP

下载本文档

0
0
约4.37千字
约 8页
2017-08-19 发布于湖北
举报
版权申诉

基于本体的Web文档值莫识获取的框架研究.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于本体的Web文档值莫识获取的框架研究

基于本体的Web文档知识获取的框架研究摘要本文在分析了Web文本的知识获取途径之后，提出了一个基于本体的Web文档知识获取模型。该模型具有较好的适应性和可移植性，模型使用了可扩充标记语言(XML)，使得对知识库的处理更加简便。最后，通过一个临床实例对其流程进行了详细说明，并分析其在医院知识库系统中的应用。关键字知识获取；本体；Web文档1 引言互联网技术的发展为知识获取方法的研究带来了机遇和挑战。必须发展相应的知识自动获取技术。为了使语义网应用到实际中给人们提供知识服务，就需要解决从Web文档中获取知识的问题。尽管从Web页面的注释中我们可以发现部分信息，然而所获得的信息是不全面的，而且很难能获取元信息。有研究者将本体的概念引入到知识发现领域[1] [5]，但还没有充分发挥到本体的优势。本文中本体以概念和关系来划分知识类型，并且以获取知识的本体为指导来从非结构化的Web文档中发现知识。2 面向Ｗeb文本的知识获取途径互联网中存在大量的Web文档，其中记载着大量的信息。通过超链接逐页阅读相关文献来查找所需信息是初级的且效率较低的知识获取方式。从文本中发现知识并提供给用户从技术上讲有两条主要途径： (1)传统的途径，即通过使用如归纳程序等工具直接获取文本中的知识，或通过知识工程师或领域专家使用知识编辑、编译工具间接获取知识，然后构造专家系统知识库，通过专家系统间接为用户提供知识[2]。这种方法有如下不足：第一，专家系统知识库的表现形式不统一，存在知识难以共享的问题，且不适合逐页浏览；第二，在知识从文本转移到专家系统知识库过程中，存在信息丢失的弊端 [3]。 (2)自然语言技术，即直接从自然语言文本获取有用的知识并提供给用户[4]。但由于目前自然语言理解水平还比较低，主要是利用用户提供的样本进行训练，然后开发相应的程序来获取特定范围的知识。这种途径的缺点是有限的样本库资源限制决定了其应用范围的狭窄性。为此，需要有一种新的知识获取方法，它能以适当的方式及时地将适用的知识从众多的文本提供给用户。将知识表示技术处理技术及XML技术标准结合起来，构成了一种新的知识获取途径。3 基于本体的知识获取模型3.1 本体的基本概念本体的英文有两种写法：大写开头的Ontology 指哲学领域的本体论的概念。在哲学中Ontology 是一种存在的系统化解释，用于描述事物的本质。本体论的概念和方法被计算机领域采用，用于知识表示、知识共享和重用。小写开头的ontology 是计算机领域广泛使用的概念，翻译为本体，是某领域内共享概念的明确的形式化规范说明。虽然本体还没有一个明确的定义，AI领域普遍认同Gruber于1995年指出类似的概念：本体是“概念化(Conceptualization) 的显式( Explicit) 说明或表示”[6] 。直观地讲，本体是一个实体，是对某一领域应用本体论的方法分析、建模的结果，即将现实世界中的某个领域抽象为一组概念及概念之间的关系。3.2 基于本体的知识获取方法很多知识获取系统(如IE)能识别一些文档实体，例如张三是一个人，2004年6月是一个日期，但是如果不将这些信息通过它们之间的关系联系起来，就没有太多的实用价值了。因为它不能表达出张三出生于2004年6月的完整含义。这就要求有一种自动处理机制用于发现实体之间的关系，也就是要求信息向本体转化。基于本体的知识获取模型将知识获取工具与本体联系在一起，用本体来支持和指导知识获取，是零散的信息集中到一起形成知识，以不断地获取知识。知识获取工具通过搜索Web文档，将那些能与给定的规则结构匹配的知识提取出来，然后将它格式化为一种便于机器阅读的格式(如XML)，并将它存入知识库(KnowledgeBase)。在知识获取过程中起指导作用的本体本身也要采用一种字典扩展机制来扩展本体集合。3.3 基于本体的知识获取模型基于本体的知识获取模型包括知识获取、信息管理、和知识生成3大部分。其中知识获取工具利用搜索引擎技术从Web文档中一点一点地收集信息项(如句子和段落)。知识获取工具将所获得的信息片断和本体字典库中的元数据一起传送到本体服务器中，本体服务器存储并固化这些信息到知识库以备知识生成工具访问，当用户请求查询某条相关信息时，知识生成工具从知识库中获取信息并生成知识叙述通过用户接口返回信息给用户。其结构如图1所示。 1) 知识获取首先，用户向系统发出请求并提供相关的信息，如姓名，职业等；然后知识获取工具根据用户所提供的信息，利用Web搜索引擎在Web文档中进行检索，其检索到的信息项以句子和段落的形式，传送到本体库中；在本体库中，根据用户提供的信息在本体字典找到需要的元数据，并连同Web搜索引擎的结果一起发送到本体服务器上。 2) 信息管理信息管理模块主要由本体服