面向DeepWeb基于页面分块的信息抽取对象模型.pdf

下载文档

1
0
约1.38万字
约 8页
2020-07-03 发布于宁夏
举报
版权申诉
保障服务

面向DeepWeb基于页面分块的信息抽取对象模型.pdf

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

-1- 。(cx07b-122cz)江苏省研究生创新计划项目资助年度([2006]221-41), 2007年度江苏省软件和集成电路业专项经费项目2006 ，(06-E-037)项目”大人才高峰六“年江苏省2006 ，(205059)年度教育部科研重点项目2005 ，基金项目：国家自然科学基金项目 2相关概念页面往往需要关注多个块，多块之间关联度较紧。DeepWeb页面往往只有一个正文块，而 SurfaceWeb 页面；再次，DeepWeb页面模板化程度要远远低于SurfaceWeb面是动态的；其次，页DeepWeb页面是静态的，而SurfaceWeb 页面有很大的不同，首先，DeepWeb页面和Web Surface的网页，我们在项目研究的过程中发现SurfaceWeb以上的方法能够较好的处理。的挖掘上，通过其表现出的特征提取信息Tree ）DocumentObjectModel（DOM [12] 取方面的制约，但却严重依赖浏览器，性能上存在较大问题。另一大类方法集中在代码本身在信息抽html）算法，这种算法摆脱了半结构化的VIsionbasedPageSegmentation（ [11]VIPS之间的内在联系。还有基于视觉的信息抽取，典型代表就是微软亚洲研究院提出的归档方面的应用，但都没有从整体角度看待一个网页，割裂了各语义块web 正文信息抽取、也都从各种不同的角度论述了页面分块在去噪、10] 、9 、8 、7 、6 、[5 与页面之间的关系。通过对网页分块提取其中信息的办法，但只把信息块看作独立的存在，没有分析块与块、块 template面结构相同部分称作模板（中提出一种[4]认为模板在网络上是普遍存在的。文献, ）中，作者将页[3]提出了许多信息抽取模型，做了大量的工作，取得了较好的效果。在文献网页内容之前，进行信息抽取整合就是非常重要的一项工作。人们开发了很多信息抽取系统，文档存放的是结构化信息，因此用户在能够效利用这些XML音内容，也不象关系数据库或网络上虽然有大量的网页，但它不像传统的文本那样整齐、干净，其中包含有一些噪 1相关工作。如何利用这笔宝贵的资源，研究人员投入了大量的精力。而且还在快速增长 [2] 450,000年有2004倍，而且包含着更多有价值的资源。据估计500 的Web 个在线数据库， Surface资源容量约为DeepWeb ，公司技术白皮书BrightPlanet据而言）的研究。SurfaceWeb [1] （相对于DeepWeb面的强烈需求，但这些传统的搜索引擎也有自身的不足，催生了人们对等，这些公司短时间内的高速成长，证明了用户这方baidu 、google 明了搜索引擎，诸如：人们发,网页的数量以指数的形式增长，为了有效的利用网上的信息,随着互联网的发展 0引言 :A文献标识码文献标识码 :TP311中图分类号中图分类号献标识码文图分类号中信息抽