- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Web评论文本情感分类方法研究-计算机科学与技术专业论文
万方数据
万方数据
Research on Sentiment Classification Methods of Web Review Texts
A Thesis Submitted to Chongqing University in Partial Fulfillment of the Requirement for the Doctor’s Degree of Engineering
By Zhang Pu
Supervised by Prof. He Zhongshi
Specialty: Computer Science and Technology
College of Computer Science of Chongqing University, Chongqing, China
October, 2015
中文摘要
摘 要
随着电子商务及社会媒体的快速发展,用户越来越习惯于在互联网上针对商 品、新闻事件、公众人物等各种对象及主题发表评论。面对不断涌现的海量 Web 评论文本,传统的人工方式难以对其中的观点信息进行全面有效的分析利用,因 此,近年来文本情感分析研究得到了广泛关注。作为文本情感分析中的一项核心 任务,文本情感分类旨在对带有情感色彩的文本进行情感倾向性分类,具有重要 的学术研究价值及广泛的应用前景,同时也面临诸多挑战性问题。
本文围绕文本情感分类研究所面临的数据稀疏性、标注样本获取困难、情感 资源的不平衡性等问题,开展了一系列研究。主要工作及贡献包括以下几点:
① 提出了基于特征扩展与集成学习的句子级情感分类方法。针对句子级评论 文本中的数据稀疏性问题,本文在大规模无标注数据集上训练主题模型和词向量 表示模型。通过主题模型来获得主题特征,通过词向量表示模型来获得相关词特 征。然后分别利用这两种特征来对文本进行特征扩展,并相应训练分类器。在此 基础上,本文进一步利用集成学习方法将不同分类器的分类结果进行集成,得到 最终分类器。实验结果表明:基于特征扩展与集成学习的情感分类方法中,主题 特征及相关词特征均能有效地对文本进行特征扩展,缓解数据稀疏性问题。最终 分类器由于集成了两类不同分类器的分类结果,能综合利用主题特征及相关词特 征的语义信息,进一步提升分类性能。
② 提出了基于情感词典与机器学习的无监督情感分类框架。针对有监督情感 分类方法中标注样本获取困难的问题,本文提出一种不依赖于人工标注语料的无 监督情感分类框架。该框架分两阶段来进行情感分类:第一阶段利用情感词典资 源从无标注语料中挑选置信度高的样本来构成伪标注训练集;第二阶段则使用半 监督学习方法,利用伪标注训练集及无标注数据来学习分类器,获得分类结果。 在四个公共数据集上的实验结果表明:无监督情感分类框架通过对情感词典及语 料的有效应用,能够有效改善分类性能;进一步,本文还比较了各种半监督学习 算法在分类框架中的分类效果,发现自训练方法具有分类性能好、适应性强等特 点,适用于该情感分类框架。
③ 提出了基于数据集划分与自训练的无监督文档情感分类方法。在第②项研 究工作的基础上,针对自训练法在迭代过程中所累积的样本噪声导致分类性能下 降的问题,本文提出一种基于数据集划分的改进自训练法。该方法在数据子集上 学习分类器,并在迭代过程中由两个分类器对无标注样本的分类结果进行一致性 检验。在四个公共数据集上的实验结果表明:基于改进自训练分类器的无监督情
I
重庆大学博士学位论文
感分类方法能有效地降低错误标记样本带来的影响,相比其他一系列基准方法有
显著的性能提升,在部分数据集上的分类性能甚至超出了有监督学习方法的分类 性能。
④ 提出了基于随机子空间与协同训练的跨语言情感分类方法。针对情感资源 的不平衡性问题,本文研究跨语言情感分类问题,以充分利用不同语言的资源。 在利用语言学知识的基础上,提出了一种基于词性组合的随机子空间法,并将其 应用于中文及英文这两种语言视图上,然后将得到的多个子视图应用于协同训练 方法中来进行跨语言情感分类。实验结果表明:将基于词性组合的随机子空间法 应用于协同训练框架中,由于得到更多冗余视图,能有效地利用不同语言中的标 注语料及无标注语料,从而显著地提升跨语言情感分类性能。
关键词:情感分类,特征扩展,半监督学习,自训练,协同训练
II
英文摘要
ABSTRACT
With the rapid development of e-commerce and social media, users are increasingly accustomed to publish their reviews about various objects and topics including products, news
您可能关注的文档
- UV-LIGA制备金微小零件技术研究机械制造及其自动化专业论文.docx
- UV-固化聚氨酯丙烯酸酯纳米杂化涂料的合成、固化反应动力学与性能-高分子化学与物理专业论文.docx
- UVA对球型脂质膜模型内质粒DNA环状结构的破坏-生物医学工程专业论文.docx
- UVA照射对黑腹果蝇生物学特性和抗氧化反应的影响-农业昆虫与害虫防治专业论文.docx
- UVB对人上皮细胞损伤作用的实验研究-流行病与卫生统计学专业论文.docx
- UV光固化水性木器涂料的制备与性能研究-材料工程专业论文.docx
- UV光固化水性聚氨酯的合成及在静电植绒上的应用-纺织化学与染整工程专业论文.docx
- UV凹印磨砂油墨的研究-教育技术学专业论文.docx
- UV固化固相微萃取新型涂层的开发和应用-应用化学专业论文.docx
- UV固化含硅有机无机杂化材料的制备及性能研究-有机硅化学及材料专业论文.docx
- Web长期保存的困扰研究-图书情报专业论文.docx
- Web链接结构挖掘中HITS算支的分析与改进-计算机应用技术专业论文.docx
- Web记录自动抽取与去重方法的研究与实现-计算机软件与理论专业论文.docx
- Web页面分块技术的研究与实现-计算机技术专业论文.docx
- Web页面用户评论信息抽取技术研究-计算机应用技术专业论文.docx
- Web页面加载性能监测平台的设计与实现-通信与信息系统专业论文.docx
- WENGER箱包在中国市场的营销策略研究-工商管理专业论文.docx
- Weka平台下电商系统的决策算法研究-信息与通信工程专业论文.docx
- Weinreb酰胺和卤代烃的“一锅法”反应研究及其产物在不对称三氟甲基化反应中的应用-有机化学专业论文.docx
- WEO全球环境治理的模式选择研究环境与资源保护法学专业论文.docx
最近下载
- 蒸压加气混凝土砌块施工技术课件.ppt VIP
- 沥青路面再生利用项目可行性研究报告项目建议书.docx
- 医学课件-老年卧床患者压力性损伤的预防和护理进展.pptx
- 电力系统经济学原理习题解答 全.doc VIP
- 数据中心机房工程施工组织设计方案.pptx VIP
- 传统文化与修身(鲁东大学)知到智慧树章节答案.docx VIP
- 湖南文艺出版社(2024)新教材小学二年级音乐上册第五课《草原就是我的家》精品课件.pptx VIP
- 益智课堂数字华容道教学课件.pptx VIP
- (2025秋新版)部编版二年级道德与法治上册《第8课 我为班级作贡献》教案.docx VIP
- 尼科尔森《微观经济理论-基本原理与扩展》(第9版)课后习题详解(第18章--不确定性和风险厌恶).doc VIP
文档评论(0)