- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于词典与机器学习的中文微博情感分析.doc
基于词典与机器学习的中文微博情感分析
摘 要
目前,社会正处于一个微博崛起的时代,一切有关于微博的问题都被社会广泛关注,并得到了工业界和学术界的高度重视。微博从出现以来,取得了良好的发展,并拥有大众的普遍关注和应用。微博的超大信息量和高速度的更新等,都是值得研究的话题。同时,微博处理自然语言已经成为当前最新型和热门的研究课题,而其中最值的探讨的热点课题就是中文微博情感分析。
【关键词】词典 机器学习 中文微博 情感分析
在当前众多社交网络平台中,微博以新型的信息发布手段具有重要的社会影响力。根据我国相关数据统计可以发现,我国微博用户使用量已经高达3.5亿,并处于逐年上升的趋势,占全国网络居民中的百分之五十。微博情感分析是按照主观倾向性将微博文本分为三类:第一是正向;第二是负向;第三是中性。
1 情感的分析方法
目前,主要通过两种技术来对情感进行分析。第一类是根据情感词典来进行,微博文本中所包含的正向情感词和负向情感词都通过情感词典来进行统计分析,而文本的情感极性则依靠所取得的差值来决定。第二类是机器学习的使用方法,对测试预料和训练词进行相关的标注,再使用分类器对情感进行分析,其中分类器包括有:
(1)KNN;
(2)最大熵;
(3)支持向量机等。
另外,Wang与相关研究人员对Twitter情感分析系统进行了构建,其能对相关评论信息的情感倾向性进行较为实时的分析。Agarwal与相关人员通过对极性词语的特征研究,对微博文本通过树内核模进行了情感分类研究,其也获得了一定的成绩。Jiang及其成员对微博文本的情感分析使用了主题无关和主题相关的方式进行了分类,一种是正向情感,一种是负向情感。
与英文微博相比,中文微博具有很大差异,其中主题较为发散是中文微博的主要特点,且内容十分繁杂丰富,并与英文微博的行文习惯也有很大区别。因此,部分研究人员通过多种计算方法对微博的情感分析进行了全方位的分析,其中所包括的算法有:
(1)三种特征选择方法;
(2)三种及其学习算法;
(3)三种特征权重计算方法,但该方法对微博文本的行文特点并没有考虑到位,导致在整条微博中,微博表情符号直接影响了文本的情感极性。
同时,其他研究人员提出了微博情感分析的层次结构分析方法,但由于表情符号的规则原因,其有了提高分类效果的作用,但却使微博文本中的极性信息被忽视。由于中文微博主题发散和内容简短,以及不规范的用语和未登录词较多等问题,使中文微博文本目前的情感分析效果未取得一定的进展。由于词典方法和及其学习方法都存在各自的问题,针对中文微博的文本内容简短、口语化国多和主题不集中等特点,提出了有关于结合词典和机器学习的方法,以对中文微博情感进行更为准确的研究。
2 基于词典与机器学习的中文微博情感分析
基于中文微博的特点研究,采用词典与机器学习相结合的方式,进一步分析研究中文微博文本的情感倾向性。
2.1 特征降维
经过分析微博文本可以看出,其中的形容词和动词是最主要的情感词语,也能够准确反映文本情感的倾向性,所以特征的选择应当主要以形容词和动词为主。微博文本中所包含的所有形容词和动词都被特征空间所集合包含,当产生较大训练文本集时,则具有非常高维数的特征空间。同时,中文微博中还较频繁出现表情符号,并还含有多个词或是十多个词,使绝大多数维上的值在特征向量中显示为0,导致数据稀疏性的问题出现在特征空间中,所以,必须使用降维来对特征空间进行缓解。
常用的特征降维方法有两种:
(1)特征选择;
(2)特征抽取。
但特征抽取具有大计算量和储存方面的问题,对于处理文本具有一定的局限。特征选择在性能方面十分良好,通过特征降维的统计法后,依然出现特征空间的严重数据稀疏性问题,则需进一步对特征空间进行降维操作。在聚类词语方面,层次聚类算法具有明显的作用。所以,可以采取统计法融合层次聚类算法的层次结构来实现降维。特征选择在进行统计法后,可以对特征空间进行初步的维数降低,并依靠层次聚类算法实现特征空间的有效降维,保证特征空间维数的进一步降低,最终实现特征降维的有效目的。
2.2 特征极性值
中文微博中的修饰词和情感词所构成的极性值短语为极性特征的极性值。绝对值越大的极性值,具有越强的情感极性,反之越小的绝对值,其情感极性越弱。在微博文本中可以出现很多次同一个极性特征,每出现一次,则极性副词彼此之间都有不同的顺序,也导致每次的极性值计算都有所差异。所以,该极性特征可以通过极性值的平均算数值来作为最终极性值。中文微博中的评论性所使用的符号表情,对于本人的立场和情感都有真实的反应和重要作用,能使该条文本的情感极性进一步增强。如果在微博文本中,正向极性特
您可能关注的文档
最近下载
- 必修 中外历史纲要(上)第2课诸侯纷争与变法运动 课件(共24张PPT).pptx VIP
- 分析化学英文课件CH01 Introduction 0830.ppt VIP
- 【新】珠海市纳税百强企业名单(权威).docx VIP
- 某水厂反恐应急预案范本.pdf VIP
- 2025河南省红十字血液中心招聘合同制人员12人笔试备考题库及答案解析.docx VIP
- 道德经全文和译文.doc VIP
- 一种永磁同步电机旋变零位初始角自学习方法及系统.pdf VIP
- 2025年交管学法减分考试题库以及答案(160题完整版) .pdf VIP
- GB50068-2018建筑结构可靠性设计统一标准.doc VIP
- 化工单元过程及操作练习题(附答案).docx VIP
文档评论(0)