基于文本及符号密度的网页正文提取方法.pdf

基于文本及符号密度的网页正文提取方法.pdf

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

基于文本及符号密度的网页正文提取方法

洪鸿辉;丁世涛;黄傲;郭致远

【摘要】大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信

息.这些额外的内容亦被称为噪声,通常与主题无关.由于这些噪声会妨碍搜索引擎对

Web数据的挖掘性能,所以需要过滤噪声.在本文中,我们提出基于网页文本密度与

符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还

可以保留原始结构.通过与现有的一些算法对比,可以体现该算法的精确度,同时该算

法可以较好的支持大数据量网页正文提取操作.

【期刊名称】《电子设计工程》

【年(卷),期】2019(027)008

【总页数】5页(P133-137)

【关键词】文本密度;算法;噪音;正文提取

【作者】洪鸿辉;丁世涛;黄傲;郭致远

【作者单位】武汉邮电科学研究院湖北武汉430000;武汉邮电科学研究院湖北武

汉430000;武汉邮电科学研究院湖北武汉430000;武汉邮电科学研究院湖北武汉

430000

【正文语种】中文

【中图分类】TP391

自互联网问世以来,经过多年的发展,互联网站点的数量在不断的增长,互联网上

的信息也在不断的增加,然而,由于商业因素的问题,这些网站在为我们提供有价

值的信息的同时,还会包含其他信息,例如广告或其他网站的链接。链接可能是图

片,文字。这些相对于正文内容无用的信息会降低我们的阅读效率,而且这些无用

的文字可能会被搜索引擎作为索引关键词,不仅降低了搜索的效率还影响了用户的

体验。

很多互联网公司也发现了这一问题,所以现在越来越多的网页都会支持RSS。若

一个网页支持RSS,我们就可以很轻易的提取网页的正文内容,但大多数网页还

是不支持RSS,所以关于正文提取这一方面的研究工作一直没有停止。网页的类

型有很多种,比如新闻网站,博客网站,论坛等。新闻类网站的正文提取一直是研

究的主要方向,新闻类的文章通常要提取正文内容,标题,时间,作者等。文章通

常要提取正文内容,标题,时间,作者等。一方面,网页正文提取结果的好坏会影

响着文本聚类,去重,语义指纹等结果。另一方面,网页正文提取在大数据时代也

是一项不可或缺的环节。

1相关工作

1.1VIPS

2003年,微软公司亚洲研究所提出了一种网页进行视觉分块[1]算法—VIPS[2]算

法。该算法的思想是模仿人类看网页的动作,基于网页视觉内容结构信息结合

Dom树对网页进行处理。简单的说就是把页面切割不同大小的块,在每一块中又

根据块网页的内容和CSS的样式渲染成的视觉特征把其分成小块,最后建立一棵

树[3]。

但是,VIPS必须完全渲染一个页面才能对其进行分析。这就导致VIPS算法占用

的内存资源以及CPU运算资源较多。由于该算法在提取一个网页时消耗的资源过

多,所以这种网页提取方法在面对海量网页处理时并不适用。

1.2基于块分布网页正文提取

该方法由哈尔滨工业大学的陈鑫提出。该方法大致过程如下:

1)将网页中的html标签全部去掉,再去掉空白行和空白部分,得到文本。

2)将文本的行按照一定的数量分成一个一个的文本块。

3)对这些块进行分析,找出骤升和骤降的块,最后分析取出骤升和骤降块之间的

内容。

这个算法代码不到100行,可以在O(n)的时间复杂度内提取出网页正文,但是

该方法的准确率在95%左右,而且无法保留原有的html标签。这对于一些特殊

场景并不适用。

1.3Readability

网页提取中,应用最广泛的就是Readability,该算法需要解析DOM树,因此时

间复杂度和空间复杂度较高。

在使用过程中,发现该算法有很多种语言实现,虽然使用方便,但是提取的网页正

文的时间比较长。

1.4基于网页模板的抽取算法

总的来说,基于模板的网页抽取算法是通过移除所有输入的网页中相同的部分。通

过URL判断出所输入的网页是否有相同的结构。页面中相同的部分为非正文,页

面间相差较大的是正文[4-5]。

例如,在很多网页中,导航栏,页眉,页脚等都是一样的,这些就不是正文。这是

一种较为精确的方法,但这种方法需要对每个网站进行建模,所以也是很繁重的一

种算法。而且每次网站改版以后,原有的模板就不能用了,必须重新生成一次模板。

所以如果不是有针对的对某些网站进行爬取的话,这种方法并不是很好[6]。

2网页正文提取设计

2.1系统设计

系统功能:本系统输入网页文件或者URL

文档评论(0)

185****5197 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档