- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
web信息抽取现状和未来展望论文.pdf
2009年6月 廊坊师范学院学报 (自然科学版) Jun.2009
第9卷第3期 JournalofLangfangTeachersCollege(NaturnalScienceEdition) Vo1.9No.3
Web信息抽取的现状及未来展望
李海健 王晓丰
(廊坊师范学院,河北 廊坊 065000)
摘【 要】web信息抽取是Web数据挖掘、机器翻译等应用的基础,是当今的一个研究热点。在分析了已有的
Web信息抽取方法基础上,对有待进一步研究的方向进行 了展望。
【关键词】 Web信息抽取;HTML;Web
AnalysisofW ebInformationExtractionM ethods
_
LIHa ian WANG X 0
A【bstract】 WebinformationextrationistheaDplicationbasisofWebdatamining,machinetranslationandSOon.Itisa
studyintoday’Shotspots.Thispaperanalyzestheexistingwebinformationextractionmethods,andforecaststhefurther
studyofWebinformationextration.
【Keywords】 WebInformationExtraction;HTML;Web
[中图分类号]TP393 [文献标识码]B [文章编号]1674—3229(2009)03—0039—02
主要思想是用归纳式学习方法生成抽取规则。用户
1 现有的Web信息抽取方法
在一系列的网页中标记出需要抽取的数据,系统在
1.1 基于自然语言处理方式的信息抽取 这些例子的基础上归纳出规则。这些规则的精确度
使用 自然语言处理进行信息抽取 ,需要经过的 如何取决于例子的质量如何。如果能代表那些需要
处理步骤包括 :句法分析、语义标注、专有对象的识 处理的网页,这些例子就是高质量的。对于我们来
别(如人物、公司)和抽取规则。具体说来就是把文 说 ,提供好的样本网页要比提供明确的完整的规则
本分割成多个句子,对一个句子的句子成分(partof 要容易。
speech,简称为 POS)进行标记,然后将分析好的句 归纳学习法作为一种机器学习方法用来学习包
子语法结构和事先定制的语言模式 (规则)匹配,获 装器的规则,优于手动生成包装器等其他包装器生
得句子的内容即抽取信息。规则可由人工编制,也 成方法的地方在于:自动归纳规则 ,减轻了人力负
可从人工标注的语料库中自动学习获得。这类信息 担、减少了人为错误,并且当Web页面变化时,能对
抽取技术中所用的抽取规则主要建立在词或词类间 规则做适当调整,适应这种变化。
句法关系的基础上。 与 自然语言处理方式比较,包装器较少依赖于
基于 自然语言处理方式在含有大量 自由文本且 全面的句子语法分析和分词等复杂的自然语言处理
句子完整、适合语法分析的网页中的信息抽取取得 技术 ,更注重于文本结构和表现格式的分析。这种
了较好效果。这种方式的缺陷是: 方式更适合于Web页面的信息抽取,使用包装器能
(1)将 Web页面视为普通文本处理 ,没有充分 充分发掘 Web
您可能关注的文档
- rsa算法中快速生成大素数方法改进论文.pdf
- rur系列快恢复整流二极管主要参数论文.pdf
- s7-200在气路测试控制系统中应用【论文】论文.pdf
- safenet和aladdin正式进行整合论文.pdf
- sbw系列稳压器原理和维护论文.pdf
- schwarzschild外场中proca光子短程线方程论文.pdf
- sjnapse印刷培训模拟全球大赛决战chinaprint论文.pdf
- sljl-08温室大棚自动卷帘机研制论文.pdf
- smart原则对高职学生制定就业目标启示论文.pdf
- sova(索华)kf-70w/1柜机工做原理和检修论文.pdf
- 2024-2025学年小学科学一年级上册青岛版(五四制2017秋)教学设计合集.docx
- 2024-2025学年高中化学必修第二册沪科版(2020)教学设计合集.docx
- 2024-2025学年小学美术一年级上册(2024)浙美版(2024)教学设计合集.docx
- 2024-2025学年初中美术九年级下册人教版(2024)教学设计合集.docx
- 2024-2025学年高中英语选择性必修 第三册人教版(2019)教学设计合集.docx
- 2024-2025学年小学劳动一年级上册人教版《劳动教育》教学设计合集.docx
- 2024-2025学年小学音乐一年级上册(2024)人教版(2024)教学设计合集.docx
- 2024-2025学年初中信息技术(信息科技)第二册青岛版(2019)教学设计合集.docx
- 2024-2025学年小学音乐六年级上册花城版(2024)教学设计合集.docx
- 2024-2025学年小学科学一年级上册(2024)湘科版(2024)教学设计合集.docx
文档评论(0)