web信息抽取现状和未来展望论文.pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web信息抽取现状和未来展望论文.pdf

2009年6月 廊坊师范学院学报 (自然科学版) Jun.2009 第9卷第3期 JournalofLangfangTeachersCollege(NaturnalScienceEdition) Vo1.9No.3 Web信息抽取的现状及未来展望 李海健 王晓丰 (廊坊师范学院,河北 廊坊 065000) 摘【 要】web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的 Web信息抽取方法基础上,对有待进一步研究的方向进行 了展望。 【关键词】 Web信息抽取;HTML;Web AnalysisofW ebInformationExtractionM ethods _ LIHa ian WANG X 0 A【bstract】 WebinformationextrationistheaDplicationbasisofWebdatamining,machinetranslationandSOon.Itisa studyintoday’Shotspots.Thispaperanalyzestheexistingwebinformationextractionmethods,andforecaststhefurther studyofWebinformationextration. 【Keywords】 WebInformationExtraction;HTML;Web [中图分类号]TP393 [文献标识码]B [文章编号]1674—3229(2009)03—0039—02 主要思想是用归纳式学习方法生成抽取规则。用户 1 现有的Web信息抽取方法 在一系列的网页中标记出需要抽取的数据,系统在 1.1 基于自然语言处理方式的信息抽取 这些例子的基础上归纳出规则。这些规则的精确度 使用 自然语言处理进行信息抽取 ,需要经过的 如何取决于例子的质量如何。如果能代表那些需要 处理步骤包括 :句法分析、语义标注、专有对象的识 处理的网页,这些例子就是高质量的。对于我们来 别(如人物、公司)和抽取规则。具体说来就是把文 说 ,提供好的样本网页要比提供明确的完整的规则 本分割成多个句子,对一个句子的句子成分(partof 要容易。 speech,简称为 POS)进行标记,然后将分析好的句 归纳学习法作为一种机器学习方法用来学习包 子语法结构和事先定制的语言模式 (规则)匹配,获 装器的规则,优于手动生成包装器等其他包装器生 得句子的内容即抽取信息。规则可由人工编制,也 成方法的地方在于:自动归纳规则 ,减轻了人力负 可从人工标注的语料库中自动学习获得。这类信息 担、减少了人为错误,并且当Web页面变化时,能对 抽取技术中所用的抽取规则主要建立在词或词类间 规则做适当调整,适应这种变化。 句法关系的基础上。 与 自然语言处理方式比较,包装器较少依赖于 基于 自然语言处理方式在含有大量 自由文本且 全面的句子语法分析和分词等复杂的自然语言处理 句子完整、适合语法分析的网页中的信息抽取取得 技术 ,更注重于文本结构和表现格式的分析。这种 了较好效果。这种方式的缺陷是: 方式更适合于Web页面的信息抽取,使用包装器能 (1)将 Web页面视为普通文本处理 ,没有充分 充分发掘 Web

您可能关注的文档

文档评论(0)

聚文惠 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档