Web信息抽取中的数据交叉定位.pdfVIP

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Web信息抽取中的数据交叉定位.pdf

华南理工大学学报(自然科学版) 第36卷第5期 JournalofSouthChina of V01.36No.5 UniversityTechnology 2008年5月 Science 2008 (Natural Edition) May Web信息抽取中的数据交叉定位木 陈天 黄敏 (华南理工大学软件学院,广东广州510006) 摘要:通常,当网页发生的变化超出包装器脚本的容忍度时,只能通过修改包装器脚本 来重新定位待抽取数据.为此,文中提出了一种基于交叉定位的数据定位方法.该方法通 过设立多个坐标系对待抽取数据进行定位,当一个坐标系失效后,其余坐标系能对失效坐 标系进行修复并能正确抽取数据.实验结果表明,使用交叉定位的Web包装器能在不降 低信息抽取性能的情况下,大幅提高包装器脚本对HTML页面变化的容忍度. 关键词:Web信息抽取;信息检索;包装器;交叉定位 中图分类号:TP391;TP393文献标识码:A Web信息抽取就是从无结构或半结构化的HTML 1 现有数据定位方法 页面中抽取用户感兴趣的信息,将它转换为结构化 的数据进行存储.为了有效地实现半结构化HTML 现有的Web包装器描述语言从数据定位方法 网页内容的识别与抽取,近年来人们进行了大量的 上可以分为三大类,第一类是将HTML页面看成纯 研究工作,取得了许多研究成果¨。5J.这些研究结果 粹的文本流,利用文本序列特征模式匹配、正则表达 中所采用的方法,都是由人工或者计算机自动归纳 J 式等方法从HTML页面中抽取数据,如IEPAD帕‘7 出某类HTML网页中的数据表示模式,并利用某种 就采取这种方法.这种方法具有信息抽取效率高、速 包装器描述语言记录下这种数据表示模式,再由信 度快等优点,但忽略了HTML文档树状结构所包含 息抽取程序利用包装器描述语言解释HTML页面 的有用信息,其约束性过强的抽取规则导致无法很 簇,实现数据的自动抽取.信息抽取过程可形式化表 好地容忍页面的细微变化.第二类是直接采用某种 示为 比较高级的脚本语言,如VBScript脚本语言,利用脚 W:S.D, 本语言预定义好一些可用对象进行数据定位.这种 其中,5表示HTML源文档集合{|s。,.s:,…,5。};S,, 方法的特点是灵活性高,具有较强的表达能力,但脚 S:,…,|s。的HTML结构具有相似性;D表示结构化 本语言往往会比较复杂,不利于计算机自动归纳生 的数据集合{D。,见,…,D。},可以是数据库或XML 成,WebL【8o就属于这种类型.第三类方法是将HTML 格式的数据;D。,D:,…,D。的结构相同;W是.s到D 文档转换为一棵DOM树,然后用一个路径表达式 的映射,即信息抽取

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档