基于本体web信息抽取及本体构建实现与研究.docVIP

下载本文档

2
0
约7.99千字
约 8页
2016-10-04 发布于安徽
举报
版权申诉

基于本体web信息抽取及本体构建实现与研究.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于本体web信息抽取及本体构建实现与研究.doc

基于本体的web信息抽取及本体的构建实现研究贾赛1，乔鸿2 （1．山东师范大学管理与经济学院管理科学与工程系，山东济南 250014；2．山东师范大学管理与经济学院管理科学与工程系，山东济南 250014）摘要：基于本体的web信息抽取技术是一种当前热门的信息技术，对比两种基于本体的web信息抽取模型，为用户和应用程序服务；之后从本体构建的角度对他们进行微博人物信息实例分析，本体的设计与实现都是对他们的权衡指标，指导信息抽取行为。关键字：web信息抽取；本体；抽取模型；微博中图分类号：TP393 Ontology-Based Information Extraction from Web Sources and Realization of Ontology Construction JIA Sai1,QIAO Hong2 (1.School of Management and Economics, Shandong Normal University, Jinan Shandong 250014,China;2. School of Management and Economics, Shandong Normal University, Jinan Shandong 250014,China) Abstract: The technology of ontology-based information extraction is one of the current popular information technology to contrast the two models of ontology-based information extraction for the user and application service.Then from the angle of ontology construction we can use the instance analysis of microblog personal information to balance the design and realization of ontology method, direct activity of information extraction. Keywords: Web Information Extraction; Ontology; Extraction Model; MicroBlog 可以看到，在信息时代的今天，信息的增长速度已经是让我们瞠目结舌，随着web的发展，在web上的各种各样的信息也以不同的形式分布，我们该如何在这些繁多的，无结构的web信息中找到我们真正需要的，就成了我们现在急需要解决的问题；web信息抽取就是为了这个目的而存在，把web中的信息变成结构化的，更有语义的模式结构。而在web信息抽取技术中，基于本体的web信息抽取是其中一个比较重要的方向，它的实现可以帮助用户更方便地在信息海洋中找到自己需要的信息，减少应用程序的资源浪费，适合人们的需求。 1 相关概念 1．1 本体本体Ontology）的概念最初起源于哲学领域20世纪70年代末John McCarthy将这个哲学术语引入到计算机领域，在人工智能界，最早给Ontology定义的是Neches等人。他们将Ontology定义为“给出构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则定义”。1993年，Gruber给出了Ontology的一个最为流行的定义[1-2]，即“Ontology是概念模型的明确规范说明”。Ontology的目标是捕获相关领域的知识，提出供该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同的层次的形式化模式上给出这些词汇(术语) 和词汇间相互关系的明确定义。 1．2 领域本体领域本体(Domain Ontology)，是专业性的本体，描述的是特定领域中的概念和概念之间的关系，提供了某个专业学科领域中概念的词表以及概念间的关系，或在该领域里占主导地位的理论eb信息抽取(Web Information Extraction)是将web作为信息源的一类信息抽取。简单的说，web信息抽取是指从web页面中抽取用户感兴趣的信息而过滤掉不相关的信息，具体的是指研究如何将分散在半结构化web页面中的信息提取出来，并以结构化、语义更为清晰的模式表示，它为用户在web中查询数据、应用程序直接利用web数据提供了便利[3]。输入信息抽取系统的是原始文本，输出的是固定格式的信息点。其主要功能就是把信息点从各种各样的文档中抽取出来，然后以统一的形式集成