- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于主题模型网络舆情监控系统设计
基于主题模型网络舆情监控系统设计
摘要:网络舆情是近年来研究的热点。现有的舆情监测系统大多采用基于统计和特征关键词的方法,这种方法没有考虑到文字背后的语义关联,可能在两个文档共同出现的单词很少甚至没有,但两个文档是相似的。而主题模型正是近年来大量使用的语义挖掘的方法,其中LDA主题模型使用最多。结合了基于统计和LDA主题模型两种方法,应用于网络舆情监控。在基于统计的基础上进一步进行语义的挖掘,能够对舆情信息更加准确的分析。
关键词:网络舆情;舆情监控;主题模型;LDA;语义挖掘
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2015)07-0090-04
Abstract: Network public opinion is a research hotspot in recent years. Most of the existing public opinion monitoring system used the count of word or key-word, in this way, lost the semantics of the document. Topic model is a good semantics mining model, and is very popular in recent years. LDA is most commonly used. Combining the statistics and LDA topic model, designed a public opinion monitoring system. Based on counting of key-word, mining the semantics of documents, can exactly analyses the public opinion.
Key words: network public opinion; opinion monitor; topic model; LDA; semantics mining
1 引言
互联网是一个开放的信息平台,随着互联网的发展,互联网上的信息也是以指数级的方式增长,互联网上的信息也是鱼龙混杂。由于任何人都可以使用互联网,除了可以从网络上获取信息,同时还能够通过网络发布信息、转载别人的信息、对别人发布的信息发表自己的看法。对于多数人们都关心的话题很容易形成热点,金字塔式的扩散。尤其对于一些民生事件,很容易形成网络舆情。所以以需要能够对网络舆情[1,2]进行监控。
近年来,对于网络舆情的监控已经取得了很大的成果,不少网络舆情监控系统也建立了起来。目前对网络舆情监控系统所以使用的方法基本上是基于TF-IDF[3,4]的词频统计的方法,利用向量空间模型(VSM)[3,4]对文本进行表示,通过计算向量之间的余弦值来计算文本之间的相似度,采用聚类和分类算法来进行舆情热点挖掘和跟踪。目前对于这种方法的研究已经趋于成熟。但是这种存在一些缺陷,1)使用TF-IDF词频统计的方式只考虑了词语的频率,并没有能够真正体现词语的含义;2)向量空间模型来表示文本时,其数据空间的维度有可能是非常高的,这会使得计算非常复杂。
另一方面,学者们开始着手于从语义方面对文本的分析进行研究,LDA[5]主题模型就是目前使用最多的语义分析方法。LDA模型对文档集进行建模,挖掘出其中隐含的主题分布,其主题空间[6]的规模是K×N,与文本集规模无关。虽然LDA主题模型于2003年就已经提出,而且已经应用于很多数据挖掘的领域当中,但是在舆情监控方面的应用暂时还没有。
因此本文针对传统舆情分析基于统计方法的缺点跟LDA主题模型的优点,提出把LDA主题模型应用于舆情监控当中,同时把基于统计的方法跟LDA主题模型相结合,能够更准确的分析出网络舆情,更好的跟踪舆情的发展态势。
2 网络舆情监控
网络舆情监控与分析的流程大体可以如图1所示。
2.1 信息采集
通过网络爬虫(又称网页蜘蛛[6],网络机器人)不断的从互联网上,按照一定的规则,自动的抓取互联网上页面,形成一个巨大的网页文本集。爬虫的原理是从一个或若干个初始网页的URL开始,获取初始网页上的URL,在抓取的过程中不断的从当前页面上抽取新的URL放入队列,直到满足系统的一定停止条件。
2.2 信息预处理
由于爬虫抓取的网页是原始网页,网页中的数据非常复杂,多以无结构和非半结构化[6]结合的方式掺杂在一起,其中除了我们需要的主体内容外还有很多其他无用的信息,如广告,版本等。因此需要把没用的信息过滤掉,只提取出其中的主体文本内容。
同
您可能关注的文档
最近下载
- 海军概况(中国人民解放军海军指挥学院)网课期末测试答案(卷一).pdf
- 天津市建筑标准设计图集(2012版)12J3-1外墙外保温.pdf VIP
- 2025年秋新人教版生物八年级上册全册教案(优化版).docx
- 2025年4月26日浙江省事业单位招聘考试《职业能力倾向测验》笔试试题(含答案).docx VIP
- 国开03592-电气传动与调速系统机考复习资料.docx
- 海南省陵水黎族自治县国土空间总体规划(2020-2035)公示稿.docx VIP
- 国家开放大学电大专科《机械制图》机考网考形考网络纸考题库及答案.pdf VIP
- 柴油机移动泵车培训ppt课件.pptx
- GJC4使用说明书.pdf VIP
- 片冰机教程详解.ppt VIP
原创力文档


文档评论(0)