金融领域中文微博情感分析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
金融领域中文微博情感分析∗ 朱浩然 梁循 马跃峰 纪阳 李启东 马超 (中国人民大学信息学院经济信息管理系,北京100872) 摘 要: 自 2009 年微博登陆中国,到今天已然影响着社会生活的方方面面。相对于中文新闻、论坛 来说,微博语言具有着口语化表达多、主观性强、句式复杂、符号繁多等特点。为了准确地提取金融领域 微博以及对金融领域微博的情感进行分类,本文分别提出了一种基于 Entropy * (TF-IDF-L) 的关键词字典构 建算法,以及一种基于 SVM 的多特征情感极性判别模型。并使用2012 年的腾讯微博数据进行实证研究。 实验结果表明利用 Entropy * (TF-IDF-L)算法能够较为准确地构建出关键词词典。基于 SVM 的多特征情感 极性判别模型,并在金融领域微博的情感极性判断上有良好的分类效果。 关键词:中文微博;情感分析;信息熵 1 引言 从白宫 Twitter 官方微博账号被盗导致美国三大股指突然间大幅下挫,到证监会发文要求券商建立微 博联系人制度,微博这个舆论平台对金融系统的影响也越加凸显。 1.1 微博的出现及其研究现状 随着 web2.0 的发展,微博这一新兴事物应运而生。微博(MicroBlog )是一个基于用户关系的信息传 播以及分享平台,用户以 140 字左右的文字更新信息,即时分享,并逐渐发展成可以推送图片、视频、音 频以及链接的多媒体。 国外对微博的研究,主要包括对微博用户的关系研究、微博舆情的传播规律研究以及微博的文本内容 挖掘。Boyd 等以 Twitter 为研究对象,利用一系列的案例研究和经验数据提出微博用户之间的关系除了单 向对称或双向不对称,还会存在三元闭合关系[1]。现在关于 Twitter 的研究有很多,在预测方面,Asu 等 通过构建一个线性模型[2],利用 300 万条 Twitter 数据预测电影的票房收入走向,准确率达到 98% 。 对中文微博的研究,主要集中在微博的用户分析、微博对传统媒介的影响、社区发现、热点事件发掘 以及对微博的观点挖掘方面。杨小朋等以腾讯微博的数据为研究对象,提出“博文魅力指数”概念。“博 文魅力指数”与收录博主人数正相关,并将微博用户分成“信息获取型”、“草根名人型”、“普通社交 型”三类[3]。鲁军通过对《第一财经周刊》的新浪官方微博在2010 年 10 月到 2011 年 9 月间发布的 1091 条官方微博的研究,发现其存在互动特性利用率低、页面内容识别度差等问题[4]。 在对中文微博的文本挖掘方面,2011 年末以来逐渐增多。在热点事件发掘方面,蔡淑琴等[5]通过微博 平台 API 的结构化元数据,设计元数据模型。并以数据预处理技术为核心,结合短文本聚类、微博传播路 径、用户行为,构建微博热点发现模型。童薇等综合考虑了微博数据的文本特征、语义特性、时间特征和 社交关系,提出了一种有效的基于微博数据的事件检测算法(EDM )[6]。在用户观点的挖掘方面,郑斐然 等结合短文本中的词频及其增长速度判断词语是否是新闻词汇,使用上下文相关度模型,能够有效地从大 量信息中挖掘出新闻话题[7]。唐晓波等根据微博的社会性特点提出了针对微博产品的评论挖掘模型[8]。有 的学者甚至研究对微博出现的图像信息进行了初步探索,阳锋等设计了MICA 观点挖掘系统,针对微博中 的图像进行特征提取[9]。 1.2 文本情感分析研究现状 情感分析分析是指利用计算机挖掘、提取出互联网信息的褒贬态度和意见。并且,情感分析的结果能 够有效地运用到商务智能、舆情监控等领域中。 国外对英文文本的情感分析的研究主要分为“词典”、“句子”、“篇章”、“海量数据集”这四个 级别。在词语级别,Taboada 等提出一个基于字典的情感提取算法[10],使用语义取向计算器(SO-CAL ) 标注语义的极性和强度。在句子级别,Kim 构造了一个四步分类系统[11],能够发现持有相同主题的个体 和每个观点的情感倾向。在篇章级别,Turney 提出一非监督的学习算法来对电影评论等进行情感倾向分析 ∗ 国家自然科学基金)和北京市自然科学基金(4132067 )

文档评论(0)

baihualong001 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档