基于树先剪枝网页正文抽取方法探究.docVIP

基于树先剪枝网页正文抽取方法探究.doc

  1. 1、本文档共11页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于树先剪枝网页正文抽取方法探究

基于树先剪枝网页正文抽取方法探究   摘 要:本文提出了基于树先剪枝技术和信息熵的抽取网页正文新方法。该方法通过对网页上的各种模板和正文进行分析,提取按照信息熵定位的正文网页,把该正文网页转化成DOM树,再删除噪音节点,生成抽取公共路径,抽取相关网页。经过试验验证,该方法降低了搜索的复杂度,提高了搜索的准确度,提高了搜索效率。 关键词:剪枝技术;信息熵;DOM树;网页 1 引言 许多新闻网站使用模板来自动生成新闻网页,但是很多噪音严重影响网页新闻正文的抽取,如:导航栏、广告等等。文章把一个网页转化为一个简单树,使用简单树匹配算法来对网页进行聚类分析,从而解决了大规模数据效率低下问题。本文使用信息熵来判定样本树的公共抽取路径。在文献[1]中Reis只用RTDM(Restricted Top-Down Mapping)算法来计算两个树之间的相似度,这个算法是基于树编辑距离。它不但可以抽取给定网页的相关的文本,而且可以判断出噪音。文献[2]使用简单树匹配算法来计算两个树之间的相似度,简单树匹配算法是通过计算两个树最大的匹配值。通过研究发现来自同一网站的网页有很多相同之处,计算相似度没有必要匹配两个树的所有节点,因此不需要使用RTDM来计算两个树的相似度,这篇文章对STM算法进行了修改来解决计算两个简单树相似度的问题,由于这里只构建了一个包含标签孩子节点的简单树,因此复杂度远远小于RTDM。从实验结果来看,精确度也很理想。Reis对网页进行聚类后,把每个类生成一个ne-pattern,这里需要比较每个类中的所有网页,因此代价比较大。我们发现在同一个类中的网页分享一个相同的抽取路径,这个路径开始于标签。我们设计了一个高效的算法来找出每个类的抽取路径。 文章的主要贡献是:(1)构建了简单树并修改了简单树匹配算法。(2)使用信息熵来判定公共抽取路径。 2 相关工作 目前有很多研究是关于如何生成模板和抽取正文。Yang.SH[3] 使用统计学、结构化和可视区域的特征来检测模板。 Shuyiz[4]模拟人类行为依靠模板提出了一个抽取方法。LanY[5]构造了一个称作SST(Site Style Tree)新的树,来获取内容和格式, 一般的噪音也可以被发现[6]。使用信息值来为每个节点赋权重。DonglinC[7]有信息值来界定提交内容和评价内容的边界。他使用了可视信息和有效文本来定位正文.试验中我们发现因为空白区域和一些其它标记,有效文本的计算可能失真。DengC[8], 提出 VIPS(VIsion-based Page Segmentation) 算法来抽取网页的语义结构。这里的语义结构是一个层级结构,每个节点对应一个块。[9]使用相同块出现的的次数来判断非文本区域。[10]根据标签的开始和结束,使用堆来帮助分块。Lin [11]对网页进行分块,然后构建数据向量。使用熵来判定块是否包含信息。 3 构建简单树和聚类 每个网页都可以转化为一棵DOM树,并且可以获得每个节点的属性。RTDM 算法包含了替换、删除和插入等操作,我们认为一棵树一旦被编辑后,树的结构也就发生了变化,这会影响到抽取的效果。我们实验发现来自同一网站的新闻网页结构基本相同。比如, Yahoo 许多新闻网页有 , 标签,而且它们的顺序和属性是相同的,新闻正文也保存在相同的标签中,因此我们可以根据网页结构对网页进行聚类,我们修改了简单树匹配算法使其可以计算两个简单树的相似度,这里的简单树不是包含所有树节点,这个树是 节点的直接孩子,这里每个节点代表一个块[3]。 定义简单树匹配算法: 相似度的计算公式如下: 这里使用80%作为阀值。 4 判定公共抽取路径 这部分讨论如何找出公共抽取路径。在文献[1]中Reis通过文本长度来定位正文所在位置。这种方法有一定的局限性。为了解决这个问题,本文使用信息熵来定位正文位置。本文的假设条件如下:(1)节点区域越大,则该节点包含正文;(2)节点中包含的超链接越少,则该节点包含正文。因为每个类中的网页有相似的网页结构,因此只要找出类中任意一个页面的抽取路径,则该类的所有网页都共享此抽取路径。找出公共的抽取路径,需要找出包含正文的节点。 公共抽取路径的获取步骤如下: (1)从每个类中随机的选取一个样本页; (2)构造DOM树,同时对树进行先剪枝; (3)生成公共抽取路径; 下面来讨论为什么要进行树先剪枝,以及如何进行树先剪枝和获取公共抽取路径。对网页进行树解析,我们会得到一个复杂的DOM树,其中树的节点包括:DOCTYPE html、head、body、style、script、div、span、comment、link、image、h2、u

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档