- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
?
?
网络舆情中的大数据分析方法研究
?
?
常卫东+刘完芳
摘要:网络舆情是指在网络空间中对网民和生活中的社会事件尤其是一些突发事件的看法和态度。网络舆情通常涉及社会的热点事件,因而经常在网络中快速传播,成为人们谈论的焦点。因而,对网络舆情进行分析和正确的引导显得尤为重要。文章采用大数据分析方法分析网络数据,通过聚类的方法发掘网络舆情中的热点问题。实验证明该分析方法具有较高的热点挖掘能力和及时的能力。
关键词:网络舆情;大数据分析;统计方法
一、舆情信息的获取
舆情分析的第一步是要对网页中的信息进行抓取,第二步是对抓取的网页的信息进行预处理。
对网页信息抓取主要采用网络爬虫,爬虫的主要作用是将互联网上的网页下载到本地形成一个互联网内容的镜像备份。它既可以爬取网页链接,又可以爬取网页的文本信息和图像信息。它通过关键字的搜索将对应的统一资源定位为相关的网页页面进行抓取,通過对其进行文本和图像的解析,提取对应网页的文本和图像信息并进行保存。本文中主要提取的是网页的文本信息。
而中文分词是把中文中的汉字系列分割为一个个独立的中文词汇。由于中文词汇与词汇之间的界限远不如英文单词那样清晰,因此,中文分词也是一个技术难点。当前中文分词主要是从主要包括字符串匹配分词方法和机器学习的统计分词方法。字符串匹配分词方法是事先通过一定的方法建立一个庞大的数据库字典,按照一定的方法把待分词的词汇与数据库字典中的词进行匹配从而实现分词的方法。机器学习的统计分词方法是通过词汇出现的频率和在文中的含义等信息对汉字的这些特征进行训练,从而实现分词。字符串匹配分词方法比较准确,但缺乏灵活性,机器学习的统计分词方法能对词的语意进行识别,但由于算法的不完善,准确率不高,因此,在实际中通常是将这两种结合来实现分词。
中文分词的词性主要包括名词、动词、形容词和副词等,形容词和副词常表示事物的状态和特征,因而经常能表明作者对事件的喜怒哀乐之情;动词一般就是用来表示动作或状态,它是对事物采取的动作的直接体现。这些词在舆情分析中就显得尤为重要。
二、文档特征的提取
一个网页的文本通过分词后会有成百上千个中文词汇,如果直接对其分类会影响分类的效率和准确性。因此,在分类前要去除一些无关的词语,留下最能代表文档特征的一些分词作为文档的特征。文档特征提取最主要的方法是把文档的内容和词频进行结合。
文档特征提取的是在不损伤文本核心信息的情况下尽量减少要处理的单词数,从而降低向量空间维数。其中最重要的方法是分析词频。其基本原理是一个词在一个文本中出现的次数越多,通常它在文本中就越重要。因此,可以计算词在文档中出现的概率即词频,来对文档的特征进行提取。另外,如果一个词在很多的文档中出现,表明它在该文档中的重要性越低,这个词就不能代表该文档的特征,文档的贡献度应该就越小,也就是通过这个词来区分文档的区分度越小,可以用逆文档频率(idf)来度量词在该文档中的重要性。某一特定词语的IDF,可以由总文件数目除以包含该词语之文件的数目,再将得到的商取对数得到。
设文档d中词w出现次数为count(w,d),文档d中总词数为size(d),则词w在文档d中的词频tf由下式计算。
即tf(w,d)=count(w,d)/size(d)。
词w在整个文档中的逆向词频idf为文档总数n与词w所出现文档数docs(w,d)比值的对数。
即idf=log(n/docs(w,d))。
如果要对逆向词频归一化可以采用如下的公式:
idf=log((n+0.5)/docs(w,d))/log(n+1)
tf-idf模型根据tf和idf为每一个文档d和由关键词w[1]...w[k]组成的查询串q计算一个权值,用于表示查询串q与文档d的匹配度
tf-idf(q,d)
=sum{i=1...k|tf-idf(w[i],d)}
=sum{i=1...k|tf(w[i],d)*idf(w[i])}
三、文档特征的分类
文本特征的分类是在事先确定的分类标准下,根据文本的内容确定待分类的文本已知文本之间的类型关联。它和普通的数据分类方法是一致的,原则上现有的数据分类方法都可以实现这一功能。这一具体过程主要包括输入训练和分类两个步骤,对应的数据库包括训练数据库和检测数据库。训练数据库为带有分类标记的n个特征的若干个向量X组成的集合,x=(w1,...wi...,wn,y),其中wi是文档向量的一个特征,y为该文档的分类标记。检测数据库同样是带有n个特征的若干个向量X组成的集合只是缺少分类标记。输出数据为标记号的集合即检测数据的分类标记。本文采用SVM分类方法对文本分类,对于一组训练数据x=(w1,...wi...,wn,y),在线性可分的
文档评论(0)