一种基于标点密度网页正文提取方法.docVIP

下载本文档

10
0
约6.86千字
约 12页
2018-08-13 发布于福建
举报
版权申诉

一种基于标点密度网页正文提取方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种基于标点密度网页正文提取方法

一种基于标点密度的网页正文提取方法　　摘要：本文提出了一种基于DOM树的正文提取方法。该方法是在基于DOM树的文本密度的正文提取算法的框架上改进而来的。基于对文言文翻译网站的观察，本方法使用标点符号密度取代原方法的文本密度。通过随机选取50篇文言文翻译网页作为测试集，本文提出的方法获得了更好的准确率、召回率和F值。　　关键词：DOM；标点密度；文本密度；正文提取　　中图分类号：TP312 文献标识码：A 文章编号：2095-2163（2015）04- 　　A Method of Webpage Content Extraction based on Point Density 　　YANG Qin， YANG Muyun 　　（School of Computer Science and Technology， Harbin Institute of Technology， Harbin 150001， China）　　Abstract： This paper proposes a DOM based content extraction method. It is improved from the DOM based content extraction via text density. Based on the observation of classical Chinese translation websites， the paper uses point density to replace text density.50 classical Chinese translaiton webpages are randomly chosen as the test data set， the proposed method obtains better precision， recall， and F-measure. 　　Keywords： DOM； Point Density； Text Density； Content Extraction 　　0引言　　互联网的快速发展使其已经成为一个天然庞大的数据来源，而且其影响也正在日渐提升之中。搜索引擎、网络数据挖掘等技术正是使用这些网络数据来发现有用的信息和知识。具体来说，这些技术的研究对象就是网页的正文内容。但在现实状况下，网页的正文却通常是和网页的其他内容如导航信息、广告、版权说明等混合掺杂在一起。这些内容和网页的主题并无任何关系，而只是噪声信息，因而对有关网页课题的探索研究造成全局性的复杂且重大的影响。　　基于此，为了提升网络数据挖掘和信息检索等的设计研究性能，即可利用网页正文提取技术从网页中去除噪声信息提取网页正文。总体来说，正文提取可以提升相关研究的工程实际性能，并已在现实中获得了广泛的应用。使用WEB作为语料库吸引了自然语言处理领域众多的研究者的关注参与。通过自动下载相关网页，并进行正文提取，就可以较短的时间，较小的代价构建一个大型语料库。此外，移动手机的大量普及则使得网页需要适应较小的屏幕。综上可知，针对网页进行正文提取的需求已是日显迫切。然而，提取网页正文却是一个困难的任务。早在2005年，Gibson等[1]就估计出网络上的噪声信息的比例将在40%～50%，并且准确预言了这个比例还会不断上升。现如今，网页的布局和风格已比从前更趋复杂，这一现象也随即愈加严重。现在的网页大多使用格式标签和等代替结构标签来展示网页的格式信息。但诸多较早使用的正文提取方法却已无法适应这一变化，其表现则呈显著大幅下降态势。根本原因在于，近年来的网页很多都不再使用如、等特定的HTML线索，而那些正文提取算法中使用的却仍是这些经典标志。　　在本文中，提出了一个从网页中提取正文的高效算法。该算法不仅可以提取网页正文，而且保持了原有的网页结构信息。文中的正文提取方法主要基于对文言文翻译网站的观察：网站中的噪声信息往往是一些导航和其他链接信息，基本没有标点符号；而网页的正文则含有大量的标点符号。同时，噪声信息和正文信息在网页中总是作为整体出现，因此在DOM树中属于某一个祖先节点。　　首先，研究提出了衡量网页标签重要性的指标：标点符号密度（简称标点密度，记为PointDensity）。当一个网页用一颗DOM树来表示后，即需计算DOM树中每个节点的标点密度。标点密度高的节点表示这个节点在网页中对应的标签的内容更可能是正文，相反则更可能是噪声信息。此后，则将沿用基于DOM树的文本密度的正文提取框架，并使用标点密度和（PointDensitySum）来提取完整的正文。最终仿真实验表明，本文提出的方法快速、准确，且可获得比文本密度方法更好的结果。