基于热点文件下载网络舆情信息挖掘方法研究.docVIP

下载本文档

2
0
约4.32千字
约 10页
2018-08-30 发布于福建
举报
版权申诉

基于热点文件下载网络舆情信息挖掘方法研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于热点文件下载网络舆情信息挖掘方法研究

基于热点文件下载网络舆情信息挖掘方法研究　　【摘要】网络信息量的逐年增长，使得获取网络敏感的舆情信息并做出相应的监控处理变得十分重要，网络舆情信息挖掘技术研究十分活跃。本文介绍舆情挖掘步骤及其核心算法，分析互联网热点文件下载曲线与网络舆情发展曲线的关联，通过关联关系对互联网文件下载数据进行信息挖掘，从中找出是否存在符合曲线发展规律的热点文件，最终将文件的主题与当时的网络舆情信息进行比对，对结果进行验证，为网络舆情的监测提出了一种新的方法。　　【关键词】热点文件下载数据曲线网络舆情信息挖掘　　随着互联网的快速发展，网络信息变得多样化，网络的虚拟性、隐蔽性、开放性等特点，使网络舆情信息仅靠人工统计监测更加困难。因此，如何从海量的网络数据中自动提取数据，成为国内外学者研究的热点。近年来，网络舆情信息挖掘技术作为一种跨学科技术受到人们越来越多的关注，其应用范围被用于信息安全、主题跟踪、热点话题检测与预警等方面。本文基于网络舆情信息挖掘技术，通过分析热点文件发展曲线与舆情文件发展曲线的特点，对下载数据进一步挖掘分析，为网络舆情的监测提供了一种新的参考。　　一、信息挖掘步骤　　首先介绍互联网文件下载的网络舆情信息挖掘的主要步骤，其流程图如下：　　图1 网络舆情信息挖掘流程　　如上图（图1）所示，基于互联网文件下载的网络舆情信息挖掘共分3个步骤：样本数据的准备阶段、样本数据的训练阶段、测试数据的挖掘阶段，最终得到数据挖掘结果。下面针对各个阶段的内容进行介绍[1]。　　1.1 样本数据准备阶段　　采集一段时间内的互联网文件下载的数据，并将其分为两类：一类是包含舆情主题的热点文件，它包含当时相关的舆情主题，其发展曲线也和网络舆情发展曲线类似。一类是普通下载文件，它是任何类型文件，其下载发展曲线较平稳，没有热点文件的特征。　　1.2 样本数据的训练阶段　　根据采集的样本数据进行数据挖掘训练，形成训练集，该训练集将成为后续测试数据信息挖掘的分类评判标准。　　1.3 测试数据信息挖掘阶段　　对大量的互联网文件下载的数据进行信息挖掘，分类的评判标准采用上一阶段所生成的训练集，将所有测试数据进行分类。信息挖掘过后对于每个互联网下载文件将产生一个类型标签，代表该下载文件是属于互联网热点文件还是普通下载文件。　　二、网络舆情信息挖掘技术　　根据信息挖掘步骤，网络舆情挖掘技术分为爬虫技术、网页解析技术、分类技术、聚类技术及数据处理技术。其中常用的分类技术有中心法（向量空间模型）、朴素贝叶斯分类、支持向量机（SVM）、K最近邻算法（KNN）等。下面将主要介绍本文选用的KNN算法。　　KNN 算法是一种非参数分类算法，现已广泛应用于数据挖掘的各种领域[2]。算法的基本思想可以简单定义为：假定每一个类包含多个数据样本，每个数据都有唯一的类标记表示这些样本属于哪一个分类。通过计算待分类的样本x与训练样本中每个文本的相似度，找出与x最接近的k个样本，然后根据这k个样本的类别标签确定x的类别。　　KNN算法的优点：首先，原理简单，易于实现；其次，KNN虽遵守极限定理，但是待分类文本只与相近样本有关，因此很好的避免了样本不平衡，同时相似度根据样本的所有特征值计算，也减少了由于特征选择不当造成的误差。　　然而，KNN本质上属于一种懒惰的学习方法，当数据分布不均匀、倾斜现象严重时，大类别样本的特征参数出现的频率增长，这会影响KNN分类的性能。同时，KNN的相似度需要对待分类样本与训练样本逐个计算，因此，距离机制是KNN算法实现的关键[3]。　　三、基于热点文件下载的相似度计算　　直观分析热点文件下载曲线和网络舆情发展曲线（如图2），对两条曲线进行相似度计算，这里引入增长率、增长向量、曲线相似度的概念。　　其中，上式中Rise（t1|t2）为从tl到t2这段时间的曲线增长率，Numt1为tl时间点的数量，Numt2为t2时间点的数量，通过计算增长率完成单纯的增长情况的目的[4]。　　3.2增长向量：在计算出两条曲线每日的增长率后，以曲线的一个周期时间为向量的维数。从曲线图（图3）中可以看出，设定曲线的周期为30天，由此定义一条曲线的增长向量如下：　　其中，上式中Rise（ti|tj）代表ti到tj这段时间的增长率，所以上式中增长率向量GN表示的是30天内曲线的增长情况。　　3.3曲线相似度：常用计算相似度的算法有余弦夹角、内积、Jaccard系数等。余弦相似度就是简单的对每个文档的向量进行单位化，然后进行内积计算，得出的结果可以严格控制在[0，1]之间，这不仅易于判断，而且降低了处理较大数据的计算代价[5]。因此，余弦相似度在目前得到了广泛的应用。余弦夹角计算相似度的公式