- 1、本文档共20页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于监督学习中文情感分类技术比较研究
基于监督学习中文情感分类技术比较研究
摘 要:情感分类是一项具有较大实用价值的分类技术,它可以在一定程度上解决网络评论信息杂乱的现象,方便用户准确定位所需信息。目前针对中文情感分类的研究相对较少,其中各种有监督学习方法的分类效果以及文本特征表示方法和特征选择机制等因素对分类性能的影响更是亟待研究的问题。本文以n-gram以及名词、动词、形容词、副词作为不同的文本表示特征,以互信息、信息增益、CHI统计量文档频率作为不同的特征选择方法,以中心向量法、KNN、winnow、NaiveBayes和SVM作为不同的文本分类方法,在不同的特征数量和不同规模的训练集情况下,分别进行了中文情感分类实验,并对实验结果进行了比较,对比结果表明:采用BiGrams特征表示方法、信息增益特征选择方法和sVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。
关键词:计算机应用;中文信息处理;情感分类;文本分类;语言模型;中文信息处理
中图分类号:TP181 文献标识码:A
1 引言
随着越来越多的人使用互联网作为一种信息交流的手段,免费可用的在线产品和服务评论也呈现快速上升的势头。对于那些想要获得购物指导的消费者来说,尽管有这么丰富的资源可以利用,但各种评论浩如烟海,且充斥了肯定和否定术语,想判断这些评论的极性(肯定还是否定),仍然具有相当大的难度。再者,有的消费者只想阅读某种产品的负面评论,以便了解该产品的缺点,而不愿意花时间阅读其正面评论;反之,对于一部影片感兴趣的影迷只想阅读它的正面评论,以便了解该影片的看点。一篇评论的极性是正面还是负面,可通过某种分类方法赋予一个数值来表达,该数值所对应的分类结果被定义为评论的全面观点极性(Overall Opinion Po-larity,OvOP),简称极性。全面观点极性的分类过程称为全面观点极性辨识(Overall Opinion PolarityIdentification,OvOPI),简称观点鉴别。观点鉴别有别于通常所说的自动文本分类,自动文本分类关心的是文档的主题,如文档是属于娱乐类的还是属于体育类的,观点鉴别主要用来辨识自然语言文字中表达的观点、喜好以及与感受和态度等相关的信息,因此有些文献也称其为情感分类(SentimentClassification),为了表达的一致性,本文中将其统一表述为情感分类。
由于情感分类可以在一定程度上解决网上各种评论信息杂乱的现象,方便用户准确地定位所需信息,因此,情感分类已成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段。近年来,相当多的厂家、公司和贸易团体对信息的情感分类有着很强的需求,该领域的研究得到了很多专家的重视。情感分类对于自动处理用户反馈、寻找广告对象和分析消费走势等都能起到相当大的作用。另外,情感分类在电子邮件过滤和博客态度分析上也有着较为普遍的应用。
目前,关于英文情感分类的文献,大多见于在国外召开的国际会议,这些文献采用的研究方法主要可归纳为以下两点:(1)使用有监督的机器学习的方法对英文数据集进行情感分类;(2)使用英文情感词典提取数据集中与情感相关的元素作为情感分类的依据。从最新研究进展来看,由于自然语言理解领域还存在一些关键技术尚待研究,方法(2)相比方法(1),其性能并无明显优势。在情感分类的研究中,英文和中文的分析方法有所不同,如特征提取方法和情感词典构建等方面都存在一定差异。目前国内针对中文情感分类的研究相对较少。
要很好地利用庞大的中文网络评论资源,还有许多亟待解决的问题:(1)各种有监督的学习方法在中文数据集上的情感分类效果孰优孰劣;(2)文本特征表示方法和特征选择机制等因素对中文情感分类的性能将产生什么影响;(3)文档集的哪些情感特征对情感分类的精度具有决定性影响,等等。本文旨在解决前两个问题,通过分析常规分类方法的特点,研究了各种特征表示和特征选择方法对情感分类结果产生的影响,并对实验结果进行了详细对比分析。实验表明,采用n-Gram特征表示方法、信息增益特征选择方法和SVM分类方法,在足够大训练集和选择适当数量特征的情况下,情感分类能取得较好的效果。
本文是这样组织的:第二部分介绍了和情感分类相关的研究工作;第三和第四部分对文本特征表示和压缩、监督学习分类方法进行了概要的阐述;第五部分列举了不同实验环境下进行情感分类的实验结果,并对其进行了详细的分析;第六部分给出了结论,并对今后的工作提出了展望。
2 相关研究工作
迄今为止,介绍情感分类研究工作的文献以国外刊物和会议为主。这些研究工作可归纳为以下几个领域。
2.1 客观性分类
客观性分类是将Web上
您可能关注的文档
- 基于电力载波通讯自组网路灯远程监控.doc
- 基于电力运营监控可视化研究与应用.doc
- 基于电力运行检修技术管理分析.doc
- 基于电力通信中心站网管平台电子值班系统研究.doc
- 基于电力通信及其在智能电网中应用初探.doc
- 基于电力通信电源新技术以及运用分析.doc
- 基于电力运行检修技术管理要点探究.doc
- 基于电动机滚动轴承装配工艺浅论.doc
- 基于电动汽车与传统汽车碳排放量对比效益前景分析.doc
- 基于电动机电流信号双谱分析齿轮传动故障诊断初探.doc
- 第18讲 第17课 西晋的短暂统一和北方各族的内迁.docx
- 第15讲 第14课 沟通中外文明的“丝绸之路”.docx
- 第13课时 中东 欧洲西部.doc
- 第17讲 第16 课三国鼎立.docx
- 第17讲 第16课 三国鼎立 带解析.docx
- 2024_2025年新教材高中历史课时检测9近代西方的法律与教化含解析新人教版选择性必修1.doc
- 2024_2025学年高二数学下学期期末备考试卷文含解析.docx
- 山西版2024高考政治一轮复习第二单元生产劳动与经营第5课时企业与劳动者教案.docx
- 第16讲 第15课 两汉的科技和文化 带解析.docx
- 第13课 宋元时期的科技与中外交通.docx
文档评论(0)