基于SVM中文微博情感识别与分类研究.docVIP

下载本文档

11
0
约5.22千字
约 11页
2018-08-28 发布于福建
举报
版权申诉

基于SVM中文微博情感识别与分类研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于SVM中文微博情感识别与分类研究

基于SVM中文微博情感识别与分类研究　　【摘要】微博是当下社交网络中最流行的社交工具典型代表，微博信息具有及时性，流动速度快，内容情感色彩丰富，微博的分析是对社会学、信息学、计算机科学、统计学等多学科交叉领域的研究，成为了其新的热点研究方向。鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统，对中文微博的情感进行识别与分类研究。系统使用爬虫技术，抓取微博的文本内容，然后利用支持Java开发语言的ICTCLAS分词工具进行分词，去停用词，文本规范等预处理操作，再抽取情感特征，对文本情感识别与分类，最终输出分类结果。实验中通过多种方法对比，选择实验效果较好的方法，最终实验结果表明：朴素贝叶斯的主客观句识别效果优于支持向量机分类方法，基于支持向量机一对一多步识别中文微博文本情感类别效果优于一对其余一次识别方法，且准确率达到63.76%，召回率达到74.4%，总体实验结果较传统粗粒度研究有明显进步。　　【关键字】微博网络爬虫情感识别情感分类支持向量机　　引言　　随着web2.0的快速发展，社交网络逐渐从各个方面影响着中国网民。微博成为了社交网络中社交工具的典型代表。网民使用微博在互联网上的活动主要是获取信息与发布信息，发布的信息含有自己对某事物的看法、观点、感知等个人情感。　　它们主要以文字，表情符号（新浪微博默认表情及标点符号）形式出现。通过用户之间的互动传播（一个微博用户具有双重角色，即博主与粉丝），这种社交网络媒体具有传播速度快，传播范围广等特点。因此对微博情感识别与分类就显得尤为重要。　　对微博文本的情感进行识别与分类，不仅能让企业及时了解客户需求寻找到潜在的客户群体，通过实时、准确地评估其情感。能够获得客户市场反馈信息及客户的消费习惯，帮助企业进行有效的需求管理及企业战略调整，从而快速应对市场变化，提高企业竞争力。还能帮助政府部门实时监控民众情绪，对负面情绪及时采取措施，防止不法分子企图通过微博平台传播谣言，以此保证社会的和谐稳定，政府了解民意，为制订国家政策提供参考。　　同时也能协助医生分析心理障碍者，及时掌握患者情绪波动，准确对患者病情进行有效的对症下药。避免了患者不能准确描述病情，而带来的不相关治疗。　　因此对微博情感进行研究具有重要的理论与实践意义。文章意在为政府或企业等利用到微博情感分析数据的领域提供基础。　　鉴于自主采用Java语言开发的新浪微博的情感识别与分类系统，对中文微博的情感进行识别与分类研究。系统使用爬虫技术[1]，抓取微博的文本内容，然后进行分词，去停用词，文本规范等预处理操作，再抽取情感特征，对文本情感识别与分类，最终输出分类结果。　　一、相关工作　　1.1文本获取及预处理　　对微博数据资源的获取有两种形式，一种是用户以普通文本形式直接在系统前台相应位置输入待分析的文本，系统可以自动进行情感识别与分类；另一种是用户以微博文本URL形式输入，系统对用户输入URL连接采用网络爬虫技术抓取微博正文内容。　　网络爬虫结构先将用户输入URL作为爬虫起点，通过web协议（主要是HTTP协议）采集页面，使用多线程或并列技术获取网页数据信息，网络爬虫结构也提供了链接过滤模块（过滤掉不符合URL规范的链接），页面数据库模板（存储已经爬取到本地的原始页面数据，以备预处理阶段建立索引使用）。　　为了提高分类的准确率，减少获取文本内容不必要干扰，对文本进行预处理操作十分必要。系统的预处理操作主要包括：　　1.文本规范化处理，判断待处理的文本是否含有由两个#组成的话题标签，若有则删除两个#及它们之间的文字内容。　　2.使用正则表达式判断微博文本是否含有以下三种含@微博标签，若有将它们删除①以@开头，以：结尾②以@开头，以空格结尾③以回复@开头以：结尾。　　3.判断英文词语是否含有感情色彩，删除不必要的英文词语。　　4.用中文描述替代含有感情的“？”和“！”去除一些标点符号。　　5.使用得到普遍认可的支持Java开发语言的ICTCLAS分词工具分词，去除停用词。　　1.2文本特征抽取　　文本特征抽取[2-3]是从文本中选取一部分能够反应其内容信息的特征词汇并计算其特征权重。特征抽取的主要目的是为了降低向量空间的维度，消除无关特征的噪音，通过选择可区分性强的少量特征来提高分类器的分类精度和效率。常用的特征选取方法有：文档频率、信息增益法、期望交叉熵等。文档频率[4]（Document Frequency ）一种简单的特征约减技术，常用自动特征选择，通过设置目标特征的文档频率阈值来进行特征的抽取。DF是含有该目标特征的文档数与所有文档数的比值，可表示为　　信息增益法[5]是指文本包含该特征项与不包含该特征项时的信息熵的差