面向BBS通用提取算法分析与设计.docVIP

下载本文档

6
0
约4.49千字
约 9页
2018-09-22 发布于福建
举报
版权申诉

面向BBS通用提取算法分析与设计.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向BBS通用提取算法分析与设计

面向BBS通用提取算法分析与设计　　摘要：BBS型网站作为整个互联网生态中的重要一环，其中蕴含着海量的数据，也是我们获取信息的重要来源。如何针对这些不同类型的论坛网页，设计一种通用的算法，对其主题贴和回帖等有价值的信息进行提取，是文章所研究的主要内容。文章在基于对不同类型网页结构的深入分析，并充分考虑了论坛网页类型的不一致性、单个网站的易爬取性及通用爬虫的不可靠性，设计了一种基于网页纵向分析的提取方案，并详细叙述了主题爬虫的算法方案。　　关键词：BBS；噪音处理；聚类分析；符号匹配　　中图分类号：F724.6 文献标志码：A 文章编号：2095-2945（2018）09-0132-02 　　Abstract： As an important part of the whole Internet ecology， BBS-type website contains a huge amount of data， and it is also an important source of information. How to design a general algorithm for these different types of forum pages to extract valuable information such as theme posts and reply posts is the main concern of this paper. In this paper， based on the in-depth analysis of different types of web pages， the inconsistency of web page types， the accessibility of individual web sites and the unreliability of common crawlers are fully considered. An extraction scheme based on longitudinal analysis of web pages is designed， and the algorithm of topic crawler is described in detail. 　　Keywords： BBS； noise processing； cluster analysis； symbol matching 　　引言[1] 　　在当今的大数据时代里，伴随着互联网和移动互联网的高速发展，人们产生的数据总量呈现急剧增长的趋势，当前大约每六个月互联网中产生的数据总量就会翻一番。互联网产生的海量数据中蕴含着大量的信息，已成为政府和企业的一个重要数据来源，互联网数据处理也已成为一个有重大需求的热门行业。借助网络爬虫技术，我们能够快速从互联网中获取海量的公开网页数据，对这些数据进行分析和挖掘，从中提取出有价值的信息，能帮助并指导我们进行商业决策、舆论分析、社会调查、政策制定等工作。而大部分网页数据是以半结构化的数据格式呈现的，我们需要的信息在页面上往往淹没在大量的广告、图标、链接等“噪音”元素中。如何从网页中有效提取所需要的信息，一直是互联网数据处理行业关注的重点问题之一。　　但是，不同网站甚至网页所使用的网页格式、网页结构和标签体系可能是不一样的，对于从互联网中获取的海量网页的批量处理，如果还利用传统的方法去对每个有差异的网页逐一做人工分析，是不可行的。因此，如何从这些存在差异的网页中快速有效的提取所需信息，就成为互联网数据处理中一个急需解决的问题。尽管在传统的网页结构化数据提取智能分析实践中，已经有很多开源的智能提取算法来分析新闻、文章类数据，然而这些方法只适用于提取有大段文本的页面结构数据信息，如只包含网页作者、标题、正文内容及发布时间等内容的网页。而对于BBS论坛型网页，由于文本在网页上相对分散且要提取的字段较多，传统的算法不再适用，需要重新设计通用提取算法，针对帖子内容进行有效地分析提取。　　基于上述背景，本文提出一种新的算法，并详细描述了该算法的具体实现过程和原理　　1 整体思路分析　　通过对论坛网页结构的深入分析，发现不同类型的论坛网页具有一定的共性，比如所有网页都有发回帖时间，且所有网页的有效信息均散落在噪声中。如果能先对噪声做预处理，把主题帖和回帖从页面结构中抽离出来，然后再对帖子内部的噪声做处理，最后得到的文本信息即是需要提取的信息。　　2 算法过程　　2.1 外部噪声处理　　通过对网页结构的深入分析，可以发现在需要提取的有效信息周围，有很多的噪声。由于本题对图片音频视频不作