- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于文本及符号密度的网页正文提取方法
洪鸿辉;丁世涛;黄傲;郭致远
【摘要】大多数的网站的网页除了主要的内容,还包含导航栏,广告,版权等无关信
息.这些额外的内容亦被称为噪声,通常与主题无关.由于这些噪声会妨碍搜索引擎对
Web数据的挖掘性能,所以需要过滤噪声.在本文中,我们提出基于网页文本密度与
符号密度对网页进行正文内容提取,这是一种快速,准确通用的网页提取算法,而且还
可以保留原始结构.通过与现有的一些算法对比,可以体现该算法的精确度,同时该算
法可以较好的支持大数据量网页正文提取操作.
【期刊名称】《电子设计工程》
【年(卷),期】2019(027)008
【总页数】5页(P133-137)
【关键词】文本密度;算法;噪音;正文提取
【作者】洪鸿辉;丁世涛;黄傲;郭致远
【作者单位】武汉邮电科学研究院湖北武汉430000;武汉邮电科学研究院湖北武
汉430000;武汉邮电科学研究院湖北武汉430000;武汉邮电科学研究院湖北武汉
430000
【正文语种】中文
【中图分类】TP391
自互联网问世以来,经过多年的发展,互联网站点的数量在不断的增长,互联网上
的信息也在不断的增加,然而,由于商业因素的问题,这些网站在为我们提供有价
值的信息的同时,还会包含其他信息,例如广告或其他网站的链接。链接可能是图
片,文字。这些相对于正文内容无用的信息会降低我们的阅读效率,而且这些无用
的文字可能会被搜索引擎作为索引关键词,不仅降低了搜索的效率还影响了用户的
体验。
很多互联网公司也发现了这一问题,所以现在越来越多的网页都会支持RSS。若
一个网页支持RSS,我们就可以很轻易的提取网页的正文内容,但大多数网页还
是不支持RSS,所以关于正文提取这一方面的研究工作一直没有停止。网页的类
型有很多种,比如新闻网站,博客网站,论坛等。新闻类网站的正文提取一直是研
究的主要方向,新闻类的文章通常要提取正文内容,标题,时间,作者等。文章通
常要提取正文内容,标题,时间,作者等。一方面,网页正文提取结果的好坏会影
响着文本聚类,去重,语义指纹等结果。另一方面,网页正文提取在大数据时代也
是一项不可或缺的环节。
1相关工作
1.1VIPS
2003年,微软公司亚洲研究所提出了一种网页进行视觉分块[1]算法—VIPS[2]算
法。该算法的思想是模仿人类看网页的动作,基于网页视觉内容结构信息结合
Dom树对网页进行处理。简单的说就是把页面切割不同大小的块,在每一块中又
根据块网页的内容和CSS的样式渲染成的视觉特征把其分成小块,最后建立一棵
树[3]。
但是,VIPS必须完全渲染一个页面才能对其进行分析。这就导致VIPS算法占用
的内存资源以及CPU运算资源较多。由于该算法在提取一个网页时消耗的资源过
多,所以这种网页提取方法在面对海量网页处理时并不适用。
1.2基于块分布网页正文提取
该方法由哈尔滨工业大学的陈鑫提出。该方法大致过程如下:
1)将网页中的html标签全部去掉,再去掉空白行和空白部分,得到文本。
2)将文本的行按照一定的数量分成一个一个的文本块。
3)对这些块进行分析,找出骤升和骤降的块,最后分析取出骤升和骤降块之间的
内容。
这个算法代码不到100行,可以在O(n)的时间复杂度内提取出网页正文,但是
该方法的准确率在95%左右,而且无法保留原有的html标签。这对于一些特殊
场景并不适用。
1.3Readability
网页提取中,应用最广泛的就是Readability,该算法需要解析DOM树,因此时
间复杂度和空间复杂度较高。
在使用过程中,发现该算法有很多种语言实现,虽然使用方便,但是提取的网页正
文的时间比较长。
1.4基于网页模板的抽取算法
总的来说,基于模板的网页抽取算法是通过移除所有输入的网页中相同的部分。通
过URL判断出所输入的网页是否有相同的结构。页面中相同的部分为非正文,页
面间相差较大的是正文[4-5]。
例如,在很多网页中,导航栏,页眉,页脚等都是一样的,这些就不是正文。这是
一种较为精确的方法,但这种方法需要对每个网站进行建模,所以也是很繁重的一
种算法。而且每次网站改版以后,原有的模板就不能用了,必须重新生成一次模板。
所以如果不是有针对的对某些网站进行爬取的话,这种方法并不是很好[6]。
2网页正文提取设计
2.1系统设计
系统功能:本系统输入网页文件或者URL
您可能关注的文档
- 基于单片机的心电监测系统设计.pdf
- 基于单片机的抢答器的设计.pdf
- 基于单片机的按摩机的控制设计.pdf
- 基于单片机的数字万用表设计.pdf
- 基于单片机的数字电子秤设计.pdf
- 基于单片机的智能电子秤设计.pdf
- 基于单片机的智能鱼缸控制系统的设计与实现-毕业论文.pdf
- 基于单片机的流水灯系统设计与实现.pdf
- 基于单片机的火灾报警系统设计.pdf
- 基于单片机的电动轮椅用手柄控制器设计-电子信息工程单片机课程设计.doc.pdf
- 幼儿教师资格证(考试资料)《幼儿保健知识与能力》新版初级练习卷有答案与.docx
- (附答案)川农12月《中药化学》作业考核-.docx
- (附答案)川农12月《园林植物保护学(本科)》作业考核-.docx
- (附答案)川农12月《有机化学(专科)》作业考核-.docx
- (附答案)川农12月《植物保护学(本科)》作业考核-.docx
- (附答案)东师《教育心理学》在线作业2-1(1).docx
- (附答案)川农12月《药剂学》作业考核-.docx
- (附答案)川农12月《配方饲料制造工艺与技术(专科)》作业考核-.docx
- 幼儿教师资格证(考试资料)《幼儿保健知识与能力》新版基础知识题库带解析.docx
- 幼儿教师资格证(考试资料)《幼儿保健知识与能力》基础知识模拟押题卷.docx
文档评论(0)