基于支持向量机的消极性文本识别研究.docVIP

下载本文档

4
0
约2.4千字
约 3页
2017-05-20 发布于广东
举报
版权申诉

基于支持向量机的消极性文本识别研究.doc

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于支持向量机的消极性文本识别研究.doc

　　基于支持向量机的消极性文本识别研究摘要：随着移动互联网技术地不断发展，网民针对各种话题发出的博文、评论呈爆炸式增长。该文针对各大网站产生的海量新闻、微博文及其评论信息，将网络中海量的新闻、微博文及其评论转变为文本信息进行分析，识别出其中的消极性信息，对于现代商业企业、政府舆情监控具有较高应用价值。中国 8/vie 　　关键词：支持向量机；消极性短文本；识别　　中图分类号：TP393 文献标识码：A ：1009-3044（2017）06-0209-03 　　随着互联网技术、特别是移动互联网的迅速发展，网络已经成为了人们获取信息，发表意见的新媒介。各类网络论坛、新闻点评、微博等渐渐成为了网络舆论重要力量，无处不在的网络，让网民们可以极为容易地通过网络发表自己的意见和观点，各种博文、评论呈爆炸式增长。而在当前的社会意识形态下，因不少网民热衷于对消极性的，甚至带有攻击性、贬低性色彩的帖子进行围观、转发和评论，导致类似负面情绪主导舆论走势，产生了消极甚至恶劣的影响，所以对负面评论较正面或客观性评论的识别在舆情导向中就显得更为重要。　　在以往的研究中，人们主要针对网民的情感倾向进行分类研究，也就是褒贬性进行了计算和分析。而在实际的生活、工作、学习中，网民对某一事物进行围观、转发、探讨以及寻求建议，往往更加注意到的是对该事物的消极性评价上，这种特点更加体现在购物和突发舆情事件上面。本文在不同的语言模型下提取文本特征，利用支持向量机分类方式，对消极性文本情感识别进行了研究和对比，取得了一定的效果。　　1 相关工作研究　　情感分析，也称为意见挖掘，是指通过计算技术对文本的主客观性、观点、情绪、极性的挖掘和分析，对说话者的情感倾向做出分类判断。随着移动互联网的发展，人们越来越容易，也越来越趋于在网络上发表自己的观点和意见，同时，也越来越受到网络上他人的观点和意见的影响，这就决定了情感分析研究的重要现实意义。当前，情感分析在网络舆情监测、企业营销策略、突发事件检测、经济分析预测等方面均有着较好应用。在中文情感分析领域，涉及文本预处理、语言模型、文本分类等方面工作。　　1.1 文本预处理　　文本预处理是为了提取文本中对于情感文本分类有价值的信息因素。首先，中文不像英文，词与词之间有用空格符号进行分隔，而是一个句子与另一个的句子之间才有标点符号进行间隔。这样就需要将本是一个个句子的文本处理成为一个个词或者词组，因此，在各项处理前，首先要对文本进行分词。其次，文本中经常性地含有大量人名、地名、时间、助动词等词语，这些词语不仅与情感分析无关，还会提高情感分析的维度，致使分类的复杂度提高，而且还会严重影响分类的效果。文献[1] 专门对适应不同领域的中文分词方法进行了研究，对不同专业领域分词起了较好领路作用。　　目前，分词技术有基于词典匹配、统计分析和语义分析三类。基于词典匹配是使用已有或者自建的情感词典，采取正/逆向最大匹配方式与词典中的词条进行逐条匹配，匹配成功就认为是一个词，但是，当文本中有新的情感词语出现时不能很好识别。统计分析的方法是基于统计相邻汉字出现的次数，次数越多，说明它们是词的可能性就更大，这就有效地避免了基于词典匹配带来的弊端。常用的分词系统中科院的ICTCLAS分词系统，清华大学的SEGATG中文分词系统，复旦大学的中文分词系统，哈尔滨工业大学的统计分词系统，微软公司汉语句法分析器中的自动分词系统等。　　1.2 语言模型　　词袋模型（Bag of bedding）是自然语言和文本分析中最为常见的两种模型。词袋模型是假定一个文本，不顾词的顺序和语法结构，仅仅将其视为是词的集合，将每一个词都看成是独立的出现，而不是依赖于其他词是否出现。这种假设将文本有效地进行了简化，便于模型化处理。词向量模型则是文本中的词语处理?橄蛄浚?然后将所有向量置于一起形成一个向量空间，每一个向量视为空间中的一个点，这时，在空间中加上“距离”这个概念，这样就可以计算向量间的相似度来衡量文本之间的相似度。下面，对本文使用到的词袋模型中的词频TF（Term Frequency）、词频―逆向文档频率TF―IDF（Inverse Document Frequency）和词向量模型中的doc2vec特征提取办法进行阐述。　　1.2.1 词频TF 　　词频TF是一种常见的、但比较简单的权重计算方法，其思想是统计词语在文本中出现的频数，如果某个词或短语在一篇文章中出现的频数高，TF越大，而在其他文章中却出现不多，则认为该词语具有很好的类别区分能力。　　对于某一文档dj来说，假设文档中某一特定词语wi共出现了n次，则该词语对于文档区分的重要性为：　　ni，j指wi在文档dj出现的次数，则表示文档中所有词出现次数之和。