基于树先剪枝网页正文抽取方法探究.docVIP

下载本文档

2
0
约6.37千字
约 11页
2017-12-06 发布于福建
举报
版权申诉

基于树先剪枝网页正文抽取方法探究.doc

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于树先剪枝网页正文抽取方法探究

基于树先剪枝网页正文抽取方法探究　　摘要：本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析，提取按照信息熵定位的正文网页，把该正文网页转化成DOM树，再删除噪音节点，生成抽取公共路径，抽取相关网页。经过试验验证，该方法降低了搜索的复杂度，提高了搜索的准确度，提高了搜索效率。关键词：剪枝技术；信息熵；DOM树；网页 1 引言许多新闻网站使用模板来自动生成新闻网页，但是很多噪音严重影响网页新闻正文的抽取，如：导航栏、广告等等。文章把一个网页转化为一个简单树，使用简单树匹配算法来对网页进行聚类分析，从而解决了大规模数据效率低下问题。本文使用信息熵来判定样本树的公共抽取路径。在文献[1]中Reis只用RTDM（Restricted Top-Down Mapping）算法来计算两个树之间的相似度，这个算法是基于树编辑距离。它不但可以抽取给定网页的相关的文本，而且可以判断出噪音。文献[2]使用简单树匹配算法来计算两个树之间的相似度，简单树匹配算法是通过计算两个树最大的匹配值。通过研究发现来自同一网站的网页有很多相同之处，计算相似度没有必要匹配两个树的所有节点，因此不需要使用RTDM来计算两个树的相似度，这篇文章对STM算法进行了修改来解决计算两个简单树相似度的问题，由于这里只构建了一个包含标签孩子节点的简单树，因此复杂度远远小于RTDM。从实验结果来看，精确度也很理想。Reis对网页进行聚类后，把每个类生成一个ne-pattern，这里需要比较每个类中的所有网页，因此代价比较大。我们发现在同一个类中的网页分享一个相同的抽取路径，这个路径开始于标签。我们设计了一个高效的算法来找出每个类的抽取路径。文章的主要贡献是：（1）构建了简单树并修改了简单树匹配算法。（2）使用信息熵来判定公共抽取路径。 2 相关工作目前有很多研究是关于如何生成模板和抽取正文。Yang.SH[3] 使用统计学、结构化和可视区域的特征来检测模板。 Shuyiz[4]模拟人类行为依靠模板提出了一个抽取方法。LanY[5]构造了一个称作SST（Site Style Tree）新的树，来获取内容和格式，一般的噪音也可以被发现[6]。使用信息值来为每个节点赋权重。DonglinC[7]有信息值来界定提交内容和评价内容的边界。他使用了可视信息和有效文本来定位正文.试验中我们发现因为空白区域和一些其它标记，有效文本的计算可能失真。DengC[8]，提出 VIPS（VIsion-based Page Segmentation）算法来抽取网页的语义结构。这里的语义结构是一个层级结构，每个节点对应一个块。[9]使用相同块出现的的次数来判断非文本区域。[10]根据标签的开始和结束，使用堆来帮助分块。Lin [11]对网页进行分块，然后构建数据向量。使用熵来判定块是否包含信息。 3 构建简单树和聚类每个网页都可以转化为一棵DOM树，并且可以获得每个节点的属性。RTDM 算法包含了替换、删除和插入等操作，我们认为一棵树一旦被编辑后，树的结构也就发生了变化，这会影响到抽取的效果。我们实验发现来自同一网站的新闻网页结构基本相同。比如， Yahoo 许多新闻网页有，标签，而且它们的顺序和属性是相同的，新闻正文也保存在相同的标签中，因此我们可以根据网页结构对网页进行聚类，我们修改了简单树匹配算法使其可以计算两个简单树的相似度，这里的简单树不是包含所有树节点，这个树是节点的直接孩子，这里每个节点代表一个块[3]。定义简单树匹配算法：相似度的计算公式如下：这里使用80%作为阀值。 4 判定公共抽取路径这部分讨论如何找出公共抽取路径。在文献[1]中Reis通过文本长度来定位正文所在位置。这种方法有一定的局限性。为了解决这个问题，本文使用信息熵来定位正文位置。本文的假设条件如下：（1）节点区域越大，则该节点包含正文；（2）节点中包含的超链接越少，则该节点包含正文。因为每个类中的网页有相似的网页结构，因此只要找出类中任意一个页面的抽取路径，则该类的所有网页都共享此抽取路径。找出公共的抽取路径，需要找出包含正文的节点。公共抽取路径的获取步骤如下：（1）从每个类中随机的选取一个样本页；（2）构造DOM树，同时对树进行先剪枝；（3）生成公共抽取路径；下面来讨论为什么要进行树先剪枝，以及如何进行树先剪枝和获取公共抽取路径。对网页进行树解析，我们会得到一个复杂的DOM树，其中树的节点包括：DOCTYPE html、head、body、style、script、div、span、comment、link、image、h2、u