基于行块分布函数的通用网页正文抽取.pdfVIP

下载本文档

92
0
约6.93千字
约 9页
2017-09-13 发布于重庆
举报
版权申诉

基于行块分布函数的通用网页正文抽取.pdf

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于行块分布函数的通用网页正文抽取陈鑫 (Xin Chen) 哈尔滨工业大学社会计算与信息检索研究中心（HIT-SCIR ） / Google Code 开源网址址:/p/cx-extractor/ 新浪微博: /cx3180 腾讯微博: /cx3180 欢迎意见和建议: xchen@ 前言对于Web 信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准确的将一个页面的正文抽取出来，并做到在大规模网页范围内通用，这是一个直接关系上层应用的难题。采用建 DOM 树的方法虽然直观也有效，但建树和搜索是多项式时间，且饱受病态HTML 的痛苦；采用机器学习或数据挖掘的方法未免有些小题大做。本算法首次将网页正文抽取问题转化为求页面的行块分布函数，并完全脱离 HTML 标签。通过线性时间建立行块分布函数图，由此图可以直接高效、准确的定位网页正文。同时采用统计与规则相结合的方法来解决系统的通用性问题。本系统的设计与实现只为践行“简单的事情总应该用最简单的办法来解决”这一亘古不变的道理。整个算法实现不足百行代码。我却相信：量不在多，在法。一、选题背景正文抽取在信息检索系统中有重要的作用。大多数网页中除了包含有用信息（正文）外还包含许多噪声信息，例如网站的导航信息、相关链接和广告以及一些脚本语言等。如果一个信息检索系统是基于网页正文内容进行的，那么当用户输入查询关键词后，系统只是查找出正文部分和用户查询匹配的网页返回给用户，这样使得检索出的网页与用户需要更加匹配，从而使用户可以更快地找到自己所需的内容。另外，基于正文的网页去重、分类聚类以及文摘等的结果都会更加准确。如果把完成一个完整通用的信息检索系统类比为烹制一顿美味佳肴，分词看做是切菜，那么正文提取则是切菜前必需的原料级加工——择菜。因为再出色的厨师也无法将带有黄叶和泥巴的菜做成佳肴，所以正文提取的任务就是把菜择好。二、系统功能本系统分在线和离线两种运行方式。在线状态下，输入是一文本文件，里面包含要进行正文抽取的URL，每个URL 单独一行；离线状态下，输入是一文件夹，里面包含了所有要进行正文抽取的 HTML 源文件。哈尔滨工业大学信息检索研究中心 (HIT-CIR) 两种运行状态下的输出都是经过正文提取后的文本，具体格式如图1 所示。图1：系统输出文件的格式，包括题目、关键字、发布日期和正文等三、系统框架图2：系统流程图四、现有方法的不足 1 哈尔滨工业大学信息检索研究中心 (HIT-CIR) 现有第一类方法：基于Dom 树 1、利用开源包HTML Tidy 处理HTML，更正其中错误或不规范的地方； 2、根据较规范的 HTML 建立 Dom 树，然后递归遍历 Dom 树，比较并识别各种非正文信息，包括广告、链接群和非重要节点信息；  广告信息移除：需要建立经常更新的广告服务器列表；  链接群移除：计算网页包含的链接个数同非链接的词个数的比例； 3、非正文信息移除后，Dom 树中剩余的内容就是正文信息，直接从余下的树节点中抽取。存在问题：Dom 树的建立对HTML 是否良构要求较高，而且树的建立和遍历时空复杂度高，树遍历方法也因HTML 标签不同会有差异。代表性论文： [1]基于结构树解析的网页正文抽取方法, 刘秉权,王喻红等； [2]基于统计的网页正文信息抽取方法的研究, 孙承杰,关毅；现有第二类方法：基于网页分割找正文块 1、网页正确分割后，正文提取工作简化为对正文块的判断； 2、分割是利用 HTML 标签中的分隔线以及一些视觉