基于文本及符号密度的网页正文提取方法.pdf

下载文档

0
0
约7.63千字
约 10页
2024-05-08 发布于四川
举报
版权申诉
保障服务

基于文本及符号密度的网页正文提取方法.pdf

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于文本及符号密度的网页正文提取方法

洪鸿辉;丁世涛;黄傲;郭致远

【摘要】大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信

息.这些额外的内容亦被称为噪声,通常与主题无关.由于这些噪声会妨碍搜索引擎对

Web数据的挖掘性能,所以需要过滤噪声.在本文中,我们提出基于网页文本密度与

符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还

可以保留原始结构.通过与现有的一些算法对比,可以体现该算法的精确度,同时该算

法可以较好的支持大数据量网页正文提取操作.

【期刊名称】《电子设计工程》

【年(卷),期】2019(027)008

【总页数】5页(P133-137)

【关键词】文本密度;算法;噪音;正文提取

【作者】洪鸿辉;丁世涛;黄傲;郭致远

【作者单位】武汉邮电科学研究院湖北武汉430000;武汉邮电科学研究院湖北武

汉430000;武汉邮电科学研究院湖北武汉430000;武汉邮电科学研究院湖北武汉

430000

【正文语种】中文

【中图分类】TP391

自互联网问世以来，经过多年的发展，互联网站点的数量在不断的增长，互联网上

的信息也在不断的增加，然而，由于商业因素的问题，这些网站在为我们提供有价

值的信息的同时，还会包含其他信息，例如广告或其他网站的链接。链接可能是图

片，文字。这些相对于正文内容无用的信息会降低我们的阅读效率，而且这些无用

的文字可能会被搜索引擎作为索引关键词，不仅降低了搜索的效率还影响了用户的

体验。

很多互联网公司也发现了这一问题，所以现在越来越多的网页都会支持RSS。若

一个网页支持RSS，我们就可以很轻易的提取网页的正文内容，但大多数网页还

是不支持RSS，所以关于正文提取这一方面的研究工作一直没有停止。网页的类

型有很多种，比如新闻网站，博客网站，论坛等。新闻类网站的正文提取一直是研

究的主要方向，新闻类的文章通常要提取正文内容，标题，时间，作者等。文章通

常要提取正文内容，标题，时间，作者等。一方面，网页正文提取结果的好坏会影

响着文本聚类，去重，语义指纹等结果。另一方面，网页正文提取在大数据时代也

是一项不可或缺的环节。

1相关工作

1.1VIPS

2003年，微软公司亚洲研究所提出了一种网页进行视觉分块[1]算法—VIPS[2]算

法。该算法的思想是模仿人类看网页的动作，基于网页视觉内容结构信息结合

Dom树对网页进行处理。简单的说就是把页面切割不同大小的块，在每一块中又

根据块网页的内容和CSS的样式渲染成的视觉特征把其分成小块，最后建立一棵

树[3]。

但是，VIPS必须完全渲染一个页面才能对其进行分析。这就导致VIPS算法占用

的内存资源以及CPU运算资源较多。由于该算法在提取一个网页时消耗的资源过

多，所以这种网页提取方法在面对海量网页处理时并不适用。

1.2基于块分布网页正文提取

该方法由哈尔滨工业大学的陈鑫提出。该方法大致过程如下：

1）将网页中的html标签全部去掉，再去掉空白行和空白部分，得到文本。

2）将文本的行按照一定的数量分成一个一个的文本块。

3）对这些块进行分析，找出骤升和骤降的块，最后分析取出骤升和骤降块之间的

内容。

这个算法代码不到100行，可以在O（n）的时间复杂度内提取出网页正文，但是

该方法的准确率在95%左右，而且无法保留原有的html标签。这对于一些特殊

场景并不适用。

1.3Readability

网页提取中，应用最广泛的就是Readability，该算法需要解析DOM树，因此时

间复杂度和空间复杂度较高。

在使用过程中，发现该算法有很多种语言实现，虽然使用方便，但是提取的网页正

文的时间比较长。

1.4基于网页模板的抽取算法

总的来说，基于模板的网页抽取算法是通过移除所有输入的网页中相同的部分。通

过URL判断出所输入的网页是否有相同的结构。页面中相同的部分为非正文，页

面间相差较大的是正文[4-5]。

例如，在很多网页中，导航栏，页眉，页脚等都是一样的，这些就不是正文。这是

一种较为精确的方法，但这种方法需要对每个网站进行建模，所以也是很繁重的一

种算法。而且每次网站改版以后，原有的模板就不能用了，必须重新生成一次模板。

所以如果不是有针对的对某些网站进行爬取的话，这种方法并不是很好[6]。

2网页正文提取设计

2.1系统设计

系统功能：本系统输入网页文件或者URL

您可能关注的文档

文档评论（0）

185****5197 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

基于文本及符号密度的网页正文提取方法.pdf