- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题发现的舆情分析系统的设计与实现.pdf
2012年 2月 北京联合大学学报(自然科学版) Feb.2012
第 26卷第 1期总87期 JournalofBeijingUnionUniversity(NaturalSciences) V01.26No.1Sum No.87
基于主题发现的舆情分析系统的设计与实现
黄美璇
(黎明职业大学 机 电工程系,福建 泉州 362000)
[摘 要] 开发 了一套由中文分词、向量空间模型建立 (VSM)、特征提取、降维处理和文本聚类
等模块组成的舆情分析系统,实现互联 网舆情信息的主题发现 ;在舆情分析系统的实现过程 中,
提 出了一种 K—means改进算法。实验证明,改进后的算法在查全率和查准率上都有 了一定的提
高,能够得到较高且稳定的准确率。
[关键词] 中文分词 ;VSM;特征提取;文本聚类
[中图分类号] TP311 [文献标志码] A [文章编号] 1005-0310(2012)01—0033-04
TheDesign andtheImplementation ofthePublicOpinion
AnalysisSystem BasedonTopicDiscovery
HUANG Mei.xuan
(ElectricalandMechanicalEngineeringCoIlege,LimingUniversity,QuanzhouFujian 362000,China)
Abstract:AsetofChinesewordsegmentation,vectorspacemodel(VSM)andfeatureextractionisdevelopedto
reducethedimensionsandtextclusteringandothermodulesofpublicopinion information analysissystem andto
realizepublic opinion topic discovery. In public opinion analysissystem implementation process,a K-means
algorithm isproposed.Experimentalresultsshow thatthealgorithm enhancestherecallratioand theprecision
ratioandgainsahighandstableaccuracyrate.
Keywords:Chineseword segmentation;VSM ;Featureextraction;Textclustering
新、变化快和新类别层出不穷 的特点。而文本聚类
O 引言
无需训练样本 ,所划分的类是未知的,能够应用于
“网络舆情”是较多关于社会中各种现象、问题 面向一段时间内有代表性 的网络文本 ,主动发现该
所表达的信念 、态度、意见和情绪等等表现的总和。 阶段互联网的主题 。
网络舆情形成迅速 ,对社会影响巨大。组织力量开 目前 ,国内已有许多专家 、学者就舆情分析技
展互联网信息分析 ,对于及时应对网络突发的公共 术提出主题发现的若干改进算法 ,如陆蓓等人 提
事件和全面掌握社情民意很有意义。 - 出了一种基于改进蚁群聚类的热点主题发现算法;
舆情分析的核心技术在于舆情分析引擎。基 杨震等人 在 网络舆情内容分析 中,提出基于字符
于文本内容的分析技术 ,主要是文本分类和文本聚 串相似性聚类 的网络短文本舆情热点发现技术 ;李
类。文本分类是 已知一批训练文本的标签 ,通过机 若鹏等人 则把基于密度 的聚类 思想引入传 统
文档评论(0)