通用论坛正文提取算法一、背景介绍.PDFVIP

下载本文档

53
0
约3.25千字
约 6页
2017-05-27 发布于天津
举报
版权申诉

通用论坛正文提取算法一、背景介绍.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

通用论坛正文提取算法一、背景介绍.PDF

通用论坛正文提取算法一、背景介绍在当今的大数据时代里，伴随着互联网和移动互联网的高速发展，人们产生的数据总量呈现急剧增长的趋势,当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息，已成为政府和企业的一个重要数据来源，互联网数据处理也已成为一个有重大需求的热门行业。借助网络爬虫技术，我们能够快速从互联网中获取海量的公开网页数据，对这些数据进行分析和挖掘，从中提取出有价值的信息，能帮助并指导我们进行商业决策、舆论分析、社会调查、政策制定等工作。但是，大部分网页数据是以半结构化的数据格式呈现的，我们需要的信息在页面上往往淹没在大量的广告、图标、链接等 “噪音”元素中。如何从网页中有效提取所需要的信息，一直是互联网数据处理行业关注的重点问题之一。网页通常采用超级文本标记语言（英文缩写：HTML）来编写，页面上的不同元素如作者、主题、发布日期等出现在一对特定的标记符之间。例如当我们看到如下一个论坛网页：图1 我们可以通过查看这个网页的源代码，查看到与之对应的信息（1）标题信息：图2 （2）题主信息：图3 （3）题主发帖内容图4 （4）回帖信息图5 图中的网页源代码就是超级文本标记语言（HTML），关于超级文本标记语言百度百科中是这样描述的：超级文本标记语言是标准通用标记语言下的一个应用，也是一种规范，一种标准，它通过标记符号来标记要显示的网页中的各个部分。网页文件本身是一种文本文件，通过在文本文件中添加标记符，可以告诉浏览器如何显示其中的内容（如：文字如何处理，画面如何安排，图片如何显示等）。维基百科中对HTML 语言的标记、元素、属性、数据类型等也有详细的描述和样例说明。对于给定的一个具体网页，通常的做法是，人工分析这个网页的源代码，找到特定内容对应的标签，然后通过关键字匹配（例如标签匹配）的方法就可以从网页源代码中获取到我们所关心的数据，如下表所示：表1 HTML 标签与内容的对应标题：h1 class=atl-title 题主：div class=atl-info 发帖内容：div class=bbs-content clearfix 回帖信息：div class=atl-reply 但是，不同网站甚至网页所使用的网页格式、网页结构和标签体系都可能是不一样的，对于从互联网中获取的海量网页的批量处理，如果还利用传统的方法去对每个有差异的网页逐一做人工分析，是不可行的。如何从这些存在差异的网页中快速有效的提取所需信息，就成为互联网数据处理中一个急需解决的问题。在传统的网页结构化数据提取智能分析实践中，已经有很多开源的智能提取算法来分析新闻、文章类数据，但是这些方法只适用于提取有大段文本的页面结构数据信息，如：网页的作者(author)、标题(title)、正文内容(content)、发布时间(publish_date)。对于BBS 论坛类的网页，由于文本在网页上相对分散，提取的字段更多，传统的算法不再适用，需要重新设计通用提取算法，针对主题帖(post)和回帖(reply)进行有效地分析提取。本赛题是针对当前互联网数据处理行业的这一实际需求而提出，旨在研究如何高效、智能地从海量论坛网页中自动地进行内容抽取，提炼出其中的有价值信息。请实现以下目标对于任意BBS 类型的网页，获取其HTML 文本内容，设计一个智能提取该页面的主贴、所有回帖的算法。如下面的网页截图所示，提取主贴和回帖的区域，提取出相应数据字段（只需要提取文本，图片、视频、音乐等媒体可以直接忽略），并按规定的数据格式（Json 格式）存储。