- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
广西民族大学学报 (自然科学版 )
第 18卷第 4期 J0URNALoFGUANGXIUNIVERSITY FOR NATIONALITIES VO1.18NO.4
2012年 12月 (NatnralScienceEdition) Dec.2012
基 于 层 次 聚 类 的 微 博 敏 感
话 题 检 测 算 法 研 究
潘大庆
(柳州市委党校,广西 柳州 545006)
摘 要:针对微博对社会舆情影响力日趋增大,设计了基于层次聚类的微博敏感话题检测算法,通过对
微博 内容的 自动抓取,利用层次聚类算法实现对微博 内容的智能识别,并以敏感话题为单位对
微博 内容进行分类.重点对层次聚类算法的实现过程进行研究,引入 了词频、词性等关键参数因
子 ,提高层次聚类算法分类精度.通过测试表 明,检测算法的检测分类精度为 95.3%,话题误判
率不超过 6%.
关键词 :敏感话题;层次聚类;检测;微博;词频;词性
中图分类号:TP18 文献标识码 :A 文章编号:1673—8462(2012)04—0056—04
0 引 言 对 BBS话题模型、话题相似度 、话题检测评价标准 以
随着信息时代的迅猛发展,网络舆论对 国家和社 及话题趋势的分析和研究 ,采用了基于内容分析的中
会 的稳定与发展有着十分重要的影响作用u .而近 文 BBS话题检测算法 ,该算法在 BBS论坛测试取得
年来,在网络上新出现的微博这种信息发布和传播方 良好效果 .郑斐然 ,苗夺谦 ,张志飞等针对微博这种
式 ,在很短的时间内受到广大用户的青睐,并且利用 新的新闻媒体形式 ,提出一种在线检测微博消息中大
微博进行信息的发布 已经成为当前形成和传播社会 量突现的关键字 ,并对它们进行聚类从而找到新闻话
舆论的一个重要途径.为了能够对通过微博发布和传 题的方法 ,该方法能有效的从大量消息中检测 出新闻
播的社会舆论更好地跟踪和识别 ,有必要开展对微博 话题 引.
舆论的监测和识别算法 的研究. 但是根据之前所公开的网络引擎研究与识别算
目前 ,针对 网络上的娱评分析和研究的相关工 法的设计情况可以看出,当前所形成的网络舆情识别
作,在数年前已经有一系列的研究成果.比如 :洪宇 , 算法,主要是针对互联 网上 的静态网页进行分析 ,以
张宇等通过介绍话题检测与跟踪的研究背景 、任务 、 及通过一些官方媒体渠道公布的新 闻信息进行分析
定义 、评定方法 以及相关技术 ,分析 了 目前 TDT领 与追踪 .这种舆情分析与追踪过程 中所使用的语
域的研究现状展望未来 的发展趋势 .洪宇,张宇 ,范 料基础来源相对单一 ,语料的格式和待处理的信息量
基礼等提 出基于语义域语言模型的关联性检测方法 都 比较易于控制.因此,针对这些情况能够 比较高效
来检测任一新 闻报道是否为论述 同一话题 ,显著改进 的设计出舆情分析算法.然而针对微博这一新型的信
了现有检测系统 的性能 J.赵艳红 ,聂哲提 出一种针 息发布和传播途径,传统的舆情分析算法并不能完全
* 收稿 日期 :2Ol2—1O一12.
基金项 目:广西哲学社会科学课题 “基于物联 网技术 的图书馆服务模式研 究”(11BTQ001).
作者简介 :潘大庆(1970一),男,广西柳州人 ,柳州市委党校副教授 ,工程硕士,研究方 向:计算机 网络安全
万方数据
56
2012年
文档评论(0)