- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息抽取研究综述
摘要:随着互联网技术的快速发展,Web信息呈现爆炸性增长,人们发现用信息检索的方法不能及时的得到想要的信息,于是出现了信息抽取。在回顾Web信息抽取基本理论的基础上,该文对Web信息抽取技术进行较全面的综述,通过分析信息抽取的概念、信息抽取的类型和功能等进行介绍,以此有助于本研究继续向前发展。
关键词:Web信息抽取;信息抽取技术;信息检索;综述
中图分类号:TP311文献标识码:A文章编号:1009-3044(2011)10-2279-02
The Summarize of Web Information Extraction Research
CUI Chun, GONG Jie
(School of Computer Science, Southwest Petroleum University, Chengdu 610500, China)
Abstract: Along with the rapid development of Internet technology, People with information retrieval method found not timely desired information, and then appeared information extraction. In reviewing the basic theories of Web information extraction, this paper is web information extraction technology of conducted a comprehensive summarize. Through the analysis of the concept of information extraction, types and functions of information extraction, so, it helps this research continues to advance.
Key words: Web information extraction; technology of information extraction; information retrieval; summarize
随着internet的快速发展,人们获得信息的方式越来越多,但是怎样快速的从海量信息中获得自己想要的信息已成为信息工作者研究的重点。在此背景下出现了传统的Web信息抽取,信息过滤等网络信息抽取系统。目前80%的网页属于隐藏网页(此类网页是由后台数据库生成),而搜索引擎无法从此类网页中获取数据,信息抽取能抽取出这些数据并以结构化的形式存储起来供以后使用。
1 WEB信息抽取概念、发展及功能
1.1 Web信息抽取的概念及功能
信息抽取其实质就是从无结构或者半结构的信息中识别出用户感兴趣的内容,然后将抽取出的结果转换为更结构化、语义更清晰的数据格式(XML、关系数据、面向对象的数据等)。信息抽取技术其实是一种文本处理技术,其目的是根据预定义的信息,从自然语言文本中抽取出特定的信息,并将其以结构化的形式存储在数据库中供用户查询使用。信息抽取不仅帮助人们快速的、深入的得到需要的信息,还能将抽取出的信息进一步用于数据挖掘、文本生成、情报检索等后续信息处理。信息抽取过程如图1所示。
图1 信息抽取过程图
1.2 Web信息抽取的发展
随着信息抽取技术的发展,国内外出现了一些典型的信息抽取系统,如基于自然语言处理(Natural Language Processing, NLP)方式的信息抽取系统有RAPIER, SRV, WNISK;基于包装器(Wrapper)归纳方式的信息抽取系统有STALK-ER, SOHTMEALY, WIEN;基于HTML结构的信息抽取系统有LIXTO等。但是各种信息抽取工具的分类方式并不是一成不变的,有些工具可以同时属于其中的两种或多种类型。信息抽取技术应用在中文方面的研究起步比较晚,其主要的工作集中在研究中文命名实体的识别方面,在中文信息抽取系统的设计研究方面还处于摸索阶段。
2 现有的Web信息抽取方法
2.1 人工获取规则处理方式的信息抽取
人工获取规则处理方式的信息抽取是技术人员依靠自身的知识,通过审阅某些待处理的文本文档,总结出相关信息出现的规律,再根据信息抽取系统内部的抽取规则格式表达出相关的抽取规则。由此可见,这种抽取系统的性能决定于技术人员在这一领域的知识技能水平如何。另外,如果web页面的内容与格式发生变化或者出现新一
文档评论(0)