基于布局特征与语言特征网页主要内容块发现.docVIP

基于布局特征与语言特征网页主要内容块发现.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于布局特征与语言特征网页主要内容块发现

基于布局特征与语言特征网页主要内容块发现   摘要:本文综合分析了网页内容块各方面的特征,提出了一个联合使用布局特征和语言特征的网页主要内容块发现方法,有效地解决了以往模型中通用性与高准确率不能共存的缺点。该方法使用网页视觉块树表示网页,对网页内容块的布局特征和语言特征分别建立了独立的分类器,然后组合这两个分类器来进行网页内容块分类。实验结果表明,在保持非噪音块召回率在90%以上的同时,组合分类器的准确率达到85%,比只使用布局特征的分类器提高5个百分点,比只使用语言特征的分类器提高15个百分点;在5个站点上的分类结果表明组合分类器在不同站点上性能稳定,具有良好的通用性。   关键词:计算机应用;中文信息处理;网页清理;主要内容块发现;网页切分;布局特征;语言特征   中图分类号:TP391   文献标识码:A      1 引言      随着互联网的发展,网站和网页数量呈现出爆炸式的增长,一方面极大地增加了互联网的知识总量,另一方面也对信息处理的技术,特别是信息检索领域,提出了新的技术挑战。   因为互联网上的绝大部分信息以网页HTML文本的方式进行存储,相应地,人们将应用于传统文本的技术移植到互联网信息处理的领域里来。但是,不同于传统的文本,网页存储的信息具有以下两个特点:   (1)多主题:在网页中,一个网页可能分成多块,每一块里描述了相对独立的主题。   (2)噪音信息:网页中不仅仅包含网页设计者所要表达意思的信息,网页中还混杂有其他的许多噪音,比如广告条、浏览框、修饰的图片、公司logo等等。   由于网页具有这些特点,使得处理传统文本的技术应用到网络文本时,效果不尽理想。这使得有必要在应用传统的文本技术之前,对网页进行一个预处理,使得网页适合于传统文本处理技术。   本文的目的是提出一个预处理网页的方法,解决网页的第二个特点即噪音信息导致的问题。噪音信息很大程度上影响了许多传统文本处理技术的效果,比如信息检索的精度问题。本文提出的解决方法是构建一个模型,融合网页内容块多方面的特征,找出网页中的主要内容块,滤除网页中的噪音块。   本文按如下方式进行组织:在第二节描述了网页主要内容块发现的任务,第三节中介绍了已有的相关工作,第四节中描述了本文网页主要内容块发现的方法,第五节介绍和分析了实验设计以及实验的结果,第六节中对本文以及已有工作的问题进行了总结,同时展望了进一步的工作方向。      2 网页主要内容块发现任务描述      网页设计者设计一个网页时,首先在心里构思有网页的一个设计草图:将网页划分成几块,哪一块放置什么内容,在什么地方放置浏览条,在什么地方放置主要内容等等。这个构思一直指导他完成这个网页。但是,这个网页的设计草图信息,并没有显式地存储。当网页被展示给用户时,这些信息对用户来说是模糊的,只能靠猜测来判断。而网页主要内容块发现,就是利用网页的特征和用户长期以来积累的经验知识,重构网页设计者对网页的划分,并且在其中找到网页设计者放置的主要内容块的一个过程。   总的说来,网页主要内容块发现涉及到两方面的内容:一是网页结构的表示,即如何用一个结构表示网页设计者对网页的划分情况;二是网页主要内容块识别模型,即在网页结构表示的基础上,如何找出哪些是主要内容块。      2.1 网页的结构特点及其表示   传统文本使用其固有的词、句、段落等结构来表示一篇文章。相比于传统文本,网页结构的表示要复杂许多,根据文献[1]的描述,主要是由于网页具有以下两个特点:   (1)两维的逻辑结构(Two-Dimensional Logi-cal Structure)。不同于一般文本,网页是一个二维的逻辑结构,其内在的内容结构也更复杂。网页中的每一个区域都可能与其相邻的四个方向的区域存在联系,也有可能与包含这个区域的块和这个区域的子块存在联系。一个好的网页结构表示应当能够方便地表示这些联系。   (2)视觉上的布局信息(Visual Layout Pre-sentation)。为了方便浏览和吸引用户,网页通常在HTML标签中包含了丰富的视觉信息,这些信息在浏览器显示网页时体现出来。通常,这些信息包括行、图像、空白区、分割条、修饰条、颜色、字体等等。视觉上的信息也有助于发现网页的结构表示。   在目前已有的网页结构表示中,主要有三种。第一种是将网页结构简单化,认为网页就是一篇文章,具有与传统文本一样一维的文本结构,这种方法简单易处理,但是只能表示网页很少的一部分内在的结构。第二种方法是使用网页的内在HTML标签的结构,即使用网页的DOM Tree来表示网页,DOM Tree在一定程度上确实表示了网页的视觉与内在的排版信息,但是,这种信息不是显性的,需要通过浏览器的呈现才能显

文档评论(0)

130****9768 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档