面向DeepWeb基于页面分块的信息抽取对象模型.pdf

面向DeepWeb基于页面分块的信息抽取对象模型.pdf

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
-1- 。(cx07b-122cz)江苏省研究生创新计划项目资助 年度([2006]221-41), 2007年度江苏省软件和集成电路业专项经费项目2006 ,(06-E-037)项目”大人才高峰 六“年江苏省2006 ,(205059)年度教育部科研重点项目2005 , 基金项目:国家自然科学基金项目 2相关概念 页面往往需要关注多个块,多块之间关联度较紧。DeepWeb页面往往只有一个正文块,而 SurfaceWeb 页面;再次,DeepWeb页面模板化程度要远远低于SurfaceWeb面是动态的;其次, 页DeepWeb页面是静态的,而SurfaceWeb 页面有很大的不同,首先,DeepWeb页面和Web Surface的网页,我们在项目研究的过程中发现SurfaceWeb以上的方法能够较好的处理 。 的挖掘上,通过其表现出的特征提取信息Tree )DocumentObjectModel(DOM [12] 取方面的制约,但却严重依赖浏览器,性能上存在较大问题。另一大类方法集中在 代码本身在信息抽html)算法,这种算法摆脱了半结构化的VIsionbasedPageSegmentation( [11]VIPS之间的内在联系。还有基于视觉的信息抽取,典型代表就是微软亚洲研究院提出的 归档方面的应用,但都没有从整体角度看待一个网页,割裂了各语义块web 正文信息抽取、 也都从各种不同的角度论述了页面分块在去噪、10] 、9 、8 、7 、6 、[5 与页面之间的关系。 通过对网页分块提取其中信息的办法,但只把信息块看作独立的存在,没有分析块与块、块 template面结构相同部分称作模板( 中提出一种[4]认为模板在网络上是普遍存在的。文献, ) 中,作者将页[3]提出了许多信息抽取模型,做了大量的工作,取得了较好的效果。在文献 网页内容之前,进行信息抽取整合就是非常重要的一项工作。人们开发了很多信息抽取系 统, 文档存放的是结构化信息,因此用户在能够效利用这些XML音内容,也不象关系数据库或 网络上虽然有大量的网页,但它不像传统的文本那样整齐、干净,其中包含有一些噪 1相关工作 。如何利用这笔宝贵的资源,研究人员投入了大量的精力。而且还在快速增长 [2] 450,000年有2004倍,而且包含着更多有价值的资源。据估计500 的Web 个在线数据库, Surface资源容量约为DeepWeb , 公司技术白皮书BrightPlanet据而言)的研究。SurfaceWeb [1] (相对于DeepWeb面的强烈需求,但这些传统的搜索引擎也有自身的不足,催生了人们对 等,这些公司短时间内的高速成长,证明了用户这方baidu 、google 明了搜索引擎,诸如: 人们发,网页的数量以指数的形式增长,为了有效的利用网上的信息,随着互联网的发展 0引言 :A文献标识码文献标识码 :TP311中图分类号 中图分类号 献标识码文 图分类号中 信息抽

您可能关注的文档

文档评论(0)

qicaiyan + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档