- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
话题型微博语言特点及其情感分析策略研究 中国传媒大学国家语言资源监测与研究中心有声媒体语言分中心 侯敏 滕永林 陈毓麒 李雪燕 郑双美 周红照 侯明午 论文框架 1.简介 2.话题型微博语言特点 3.话题型微博情感分析采取的策略 4.实验和分析 5.启示和思考 论文框架 1.简介 2.话题型微博语言特点 3.话题型微博情感分析采取的策略 4.实验和分析 5.启示和思考 简介 话题型微博语言特点 话题型微博情感分析采取的策略 实验和分析 启示和思考 1.简介 本文在深入分析了话题型微博的语言特点的基础上,提出了基于短语情感词典及语义规则的观点句识别及评价对象提取的策略。实验和评测结果证明,这些策略和方法取得了较好的效果。 简介 话题型微博语言特点 话题型微博情感分析采取的策略 实验和分析 启示和思考 2.话题型微博语言特点 2.1 句子简短,单句多 微博有字数限制,因而往往短小。话题型微博又因为有一个明确的话题,话题型微博中句子相对简短,单句居多。 文体形式 文本数 汉字数 句子数 平均句长(字) 语言舆情评论文 400 356511 9366 38.06 话题型微博 20 68726 3416 20.11 2.话题型微博语言特点 2.2 观点负面倾向多 话题型微博的形成是基于一定的社会话题和社会事件,而当今社会引起关注的话题负面性较多,这就使得话题型微博在表达观点时,以否定倾向居多。 文体形式 句子数 观点句数 负面倾向句子数 负面倾向句比例(%) 语言舆情评论文 9366 6190 3083 49.81 话题型微博 3416 2207 1766 80.02 2.话题型微博语言特点 2.3 表达情感强烈,理性评价淡化 网络环境的特点使得用户不愿也不易使用逻辑性强的理性话语表达观点,因而理性评价淡化,脏话、粗话等表现力强的不雅语汇大量出现,这也成为话题型微博观点句在表达情感和态度时一种较广泛的表达方式。 2.话题型微博语言特点 2.4 口语色彩浓重,情感因子颗粒度大 微博具有浓重的口语色彩,体现句子观点的情感因子颗粒度加大,往往不再是词,而是短语。 (1)#90后暴打老人#什么玩意了。 (2)#官员财产公示#有个鬼用,公示出来的也要有人信吖? 2.话题型微博语言特点 2.5 观点表达的隐晦、非直接性 在话题型微博中,除了用一些很“给力”的词语明确表达观点外,人们还会采用一种隐晦的、非直接的方式,以言外之意表达观点。 (1)#食用油涨价#我可以说脏话吗? (2)#三亚春节宰客#当地的政府部门这么做的用意是什么?掩耳盗铃?越抹越黑?还是让游客永远不去三亚?应该去测测智商了! 2.话题型微博语言特点 2.6 评价对象省略 微博用户往往可以直接对整个话题或话题的某一部分进行评价和表达态度,所以,话题型微博的评价对象常在文本中省略。 (1)#菲军舰恶意撞击#抗议! (2)#菲军舰恶意撞击#真可恶 (3)#菲军舰恶意撞击#…欺人太甚 (4)#菲军舰恶意撞击#可悲啊…… 2.话题型微博语言特点 2.7 语言不够规范 含有大量非规范性的语言文字以及其它噪音,也是话题型微博语言的一个特点。 (1)#疯狂的大葱#找点空闲,找点时间!带着钱包常去/1T8Gpq淘宝小店去看看! (2)#假和尚搂女子#真TM不要Face。 简介 话题型微博语言特点 话题型微博情感分析采取的策略 实验和分析 启示和思考 3. 话题型微博情感分析采取的策略 整体思路: 情感分析,目前主要有两种基本方法。一种是基于语义的词典及规则方法,一种是基于标注语料的机器学习方法。 我们主要采取的是基于语义的词典加规则的方法,针对话题型微博,我们主要采用了加大情感因子颗粒度,构建基于短语的情感词典、通过短语规则确定句子极性、重点研究否定形式、建立基于话题的OBJ表单等策略。 3. 话题型微博情感分析采取的策略 3.1 构建基于短语的情感词典 话题型微博情感表达颗粒度大,因而仅仅依靠传统的情感词典,依靠句子中是否有情感词来进行观点句的判断,会造成很多错判,因此我们构建了一部基于短语的情感词典。 短语情感词典将明确表达观点的情感短语甚至短句都收录其中。 不得好死、不咋的、扯犊子、就好了、瞎折腾个屁、不是找抽吗、什么玩意儿 一些明确表达观点的口语词、网络用语和脏话也必须收录到情感词典中 得瑟、傻逼、狗逼、操蛋、犯贱、傻B、欠揍、找死 3. 话题型微博情感分析采取的策略 3.2 通过短语规则确定观点句及其极性 我们建立了短语规则库,试图解决情感短语词典不能处理的那部分句子是否观点句以及句子的极性问题,主要是长距离搭配形成的
您可能关注的文档
- 汽车构造-制动系课件.ppt
- 鸿门宴(第3课时)课件.ppt
- 汽车机械基础在专业中的地位和作用课件.ppt
- 汽车检测技术课件课件.ppt
- 胡春玲201110700088课件.ppt
- 汽车检测与诊断技术Inspection and Diagnosis of Automobile课件.ppt
- 胡家小学 冯巨梅课件.ppt
- 胡汝坤2008.12.02课件.ppt
- 汽车检修实务期末报告汽车Efuel氢气汽车引擎除碳机课件.ppt
- 汽车结构与拆装课件.ppt
- 2025年九年级历史上册重难点汇总(统编版)拜占庭帝国和《查士丁尼法典》(课件).pdf
- 2025年浙江省金华市六校联考中考数学模拟试卷+答案解析.pdf
- 2025-2026学年九年级道德与法治上册同步系列(统编版)夯实法治基础(课件).pdf
- 工业机器人应用编程· 中级(汇博)王志强,禹鑫燚,蒋庆斌 著课后习题答案.pdf
- Kubernetes容器部署与应用实战(项目式微课版)杨运强, 吴进, 黄鑫, 主编课后习题答案.pdf
- 国际贸易基础张宗英, 张华, 主编课后习题答案.pdf
- 大数据技术与应用孔华锋课后习题答案.pdf
- 数值分析(基于MATLAB) 周金明、吴小太课后习题答案.pdf
- Visual Basic程序设计基础(双色)陆立波课后习题答案.pdf
- 单片机应用技术(第2版)[C语言版](双色)(含微课)周君芝课后习题答案.pdf
最近下载
- 河北唐山社区工作者考试题库.pdf VIP
- 中职 信息技术(基础模块)(下册)任务3 制作简单数字媒体作品教学课件 工信版.pptx VIP
- 詹新惠-网络与新媒体概论-第7章.pptx VIP
- 《防治煤与瓦斯突出细则》重点环节解读课件.pptx VIP
- 《中华人民共和国广告法》培训解读课件.pptx VIP
- 2025届四川新高考物理复习“指向关键能力培养”的备课策略.pdf VIP
- 基于多元化数据融合的虚拟货币地址实体识别方法及系统.pdf VIP
- 适老化改造施工中的工程质量监控与验收标准.docx VIP
- 美剧剧本绝望主妇台词本中英文对照精排版第一季第一集.pdf VIP
- 《团结就是力量》《没有共产党就没有新中国》 课件 花城版七年级上册.pptx VIP
文档评论(0)