统计学最近邻分类方法在网络舆情分析中的运用..docVIP

下载本文档

18
0
约2.97千字
约 6页
2018-11-23 发布于广东
举报
版权申诉

统计学最近邻分类方法在网络舆情分析中的运用..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

统计学最近邻分类方法在网络舆情分析中的运用..doc

统计学最近邻分类方法在网络舆情分析中的运用【】随着计算机网络的迅速发展，生活中发生的突发事件通过网络瞬间传播和扩散，这些带有倾向性的网络信息即网络舆情迅速成为人们谈论的焦点。怎样对网络舆情进行分析和正确的引导成为网络安全领域一个新的热点问题。文章通过采用统计方法对网络数据进行分析，对网络舆情进行分类处理，从而发掘网络舆情中新的热点问题。由于分类算法采用分类统计技术简单、高效从而保证了分析的准确性和即时性。【关键词】网络舆情；最近邻分类；统计方法导语随着互联网的迅猛发展，网络成为全社会所有人发表和传播自己言论的场所，生活屮的突发事件在网络屮被迅速传播，其屮对突发事件的评论冇相当一部分言论被各种政治团体和敌对势力所控制，通过错误的言论控制人们的思想，因此，对网络中这些热点通过计算机进行分析、发掘并进行正确的引导是目前网络舆情中需亟待解决的问题。网络舆情监控系统通常采用复杂的机器学习技术对舆情中的话题进行分类，由于算法的复杂性速度较慢，文章通过把数学统计学中的距离运算引入到舆情分析，采用最近邻分类方法对舆情进行分类，解决了分类的实时性，从而提高舆情检测的实用性。舆情数据的提取网络舆情文木的捉取一般通过爬虫实现。网络爬虫会选取一些备用的网址并把它们放入要抓取的网址队列中，通过域名解析得到对方的ip并将网页保存到下载网页库中。爬虫通过分析已抓取网页的各种链接通过一定的抓取策略一个链接一个链接抓取下去，直到达到系统的某些条件时冰停止下来。舆情数裾的预处理网络舆情数据的预处理包括背景噪声的去除，中文的分词，词性的标注和停顿词的去除等几个步骤。被抓取后的网页除网页本身的信息外还有一些和网贞无关的内容，如各种广告、游戏等内容。这些内容往往与网页本身无关，如果拿来分析会降低舆情分析的准确率，因此要去除这部分内容。广告、游戏这些背景噪声往往会链接到多个页面，即多个页面的链接出现的是同一个链接地址，因而，通过删除这些里复的链接地址对应的网页即可消除背景噪声对舆情分析的影响。中文分词是把中文的一篇文章、一段文字或者一个语句分割为一个个单独的词。0前主流的分词算法主要包括基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。主流的分词工具包括中国科学院计算技术研宂所研制的汉语词法分析系统ICTCLAS，该系统采用多层隐马尔可夫模型实现中文的分词、词性标注和新词识别等功能。其词典除自带的以外还可按用户的要求进行手动的更新因而使用十分方便。CSW中文智能分词DLL组件则可讲一段文本自动的按常规汉语词组进行拆分，并以指定方式进行分隔，且可对其拆分后的词组进行语义、词性和词频标注。中文分词的词性主要包括名词、动词、形容词和副词等，其中的形容词和副词往往表示的情感取向和对某个事件的善恶态度因而它们决定了对舆情的价值取向，其中的动词往往表示的动作和采取的行动，是情感对外直接的体现，因而这些分词对舆情的分析是非常重要的。停顿词是指词本身无明显词意与文本的内容无太多关系的词。绝大部分的助词如“的”，“地”，“得”等属于这一类。这些词在文本中出现的频率很高，对舆情分析的准确率存在较大的影响，因此在网络舆情数据的预处理时要去除这些停顿词。文档特征的提取文档特征的提取是屮文分词后提取最能代表文档特征的一些分词作为文档的特征，这样既减小了分类算法的计算数据量又能提高分类的准确性。文档特征的提取最本质的方法是分析词频，因为词频在很大程度上决定了的情感和态度，因此目前文档特征提取的方法很大一部分是在分析词频的基础上发展起来的。目前在文档特征提取中常用的方法冇信息增益法、期望交叉熵、互信息、x2统计以及TF-IDF (词频-逆向文件频率) 分析方法。其中TF-IDF运用最广泛，TF — IDF算法的核心是统计词频并比较词语在单个文档和整个文档之间出现频率的差异，并认为区分度最人的词语是在单个文档出现频率较高而在所有文档集合中出现的频率较低。它将词频分为单个文档中的词频和所有文档中的逆向词频两类，通过比较这两类词频找出文档的特征。其基本原理如下：设词w在文档d中的词频tf (Term Frequency),同时词w在整个文档中的逆向词频为idf则词频tf为词w在文档d中出现次数count (w, d)和文档d中总词数size (d)的比值。即 tf Gv，d) =count (w, d) /size (d) 整?？文档中的逆向词频则为idf = log (n/docs (w，D)) 即为文档总数n与词w所出现文档数docs (w, D)比值的对数。 tf-idf模型根掘tf和idf为每一个文档d和由关键词w[l]. . . w[k] 组