一种用于Web信息抽取页面信息本体自动学习方法.docVIP

下载本文档

3
0
约5.06千字
约 10页
2018-08-13 发布于福建
举报
版权申诉

一种用于Web信息抽取页面信息本体自动学习方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种用于Web信息抽取页面信息本体自动学习方法

一种用于Web信息抽取的页面信息本体自动学习方法　　摘要：针对基于Web页面信息本体的信息抽取中，需人工根据待抽信息项的概念和对应的实例值来建立本体的缺点，设计一个页面信息本体的自动学习方法。论文利用前期在基于DOM的页面相似路径归纳学习算法和基于PAT-tree的自动关键词识别算法上的研究成果，使用改进的TF#8226;IDF统计方法和复合事件的关联规则算法完成概念和概念间关系的学习，建立页面信息本体，减少建立本体的人工工作量。　　关键词：本体学习；信息抽取；PAT??tree;关联规则　　中图分类号：TP391.1 文献标识码：A 　　An Automatic Ontology Learning Approach Based on Web Information Items for Web Information Extraction 　　　　LIU Jia??gang??1，LONG Jun??2，LI Ze??jun??1 　　(1.Department of Computer Science, Hunan Institute of Technology, Hengyang 421002,China；　　2.College of Information Science and Engineering, Central South University, Changsha 410075,China) 　　Abstract:According to the weakness of building ontology needs manually designated concepts and instances from the basic information of web, an automatic ontology learning approach based on web information items is designed. Utilizing pre??research that an arithmetic of an inductive learning based on DOM for the similar path of information items and an approach for identifying automatic keyword based on PAT??tree, the learning for the concepts and the relation between concepts is implemented by using an approved TFIDF statistic method and an algorithm of composite event association rule, the information item ontology is built, the manual workload for building ontology is reduce 　　Key words:ontology learning;information extraction;PAT??tree;association rule 　　　　1 引言　　本体正在越来越多的计算机应用中发挥重要作用。基于概念模型的多记录信息抽取是通过设计构造描述特定内容的本体和基于本体的Web信息抽取规则来实现抽取［1］，这类信息抽取有比较高的抽取正确率。基于本体的Web信息抽取关键是建立本体模型和基于本体的Web信息抽取规则。本体的构建过程中，领域特性表现得极其明显，建立领域本体的过程需要领域专家的参与，过程复杂、周期较长［2］。文献［3］提出构建样本页面信息本体的方法，即在样本页面中对用户感兴趣的信息项构建本体。只要描述要抽取信息项的概念、类型和实例中的值，就能完成用户所需信息项的本体描述，这为基于本体的Web信息抽取提供了一种新的思考方法。但这种方法需要手工设定要抽取信息项的概念、类型和实例中的值来制定Web页面信息项本体，处理大量Web页面时，人工工作量仍然比较大。本文在文献［3］的页面信息本体定义的基础上，自动学习出页面信息项本体，为该方法的实际推广降低了人工工作量。　　2 页面信息本体定义　　一个网页中待抽取的信息项形式如图1，其中PreA…PreE表示网页中要抽取信息项的前导符、Content表示网页中要抽取的信息项。文献［3］中页面信息本体就围绕要抽取的信息项建立。　　图1网页的待抽信息项中所含的内容就是需要抽取的目标信息，因此可以根据本体形式化定义的格式对每一个所需要抽取的信息项建立本体。用形