基于Tri―training评价单元识别.docVIP

下载本文档

1
0
约8.13千字
约 14页
2018-07-04 发布于福建
举报
版权申诉

基于Tri―training评价单元识别.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于Tri―training评价单元识别

基于Tri―training评价单元识别　　摘要：评价单元的识别是情感倾向性分析中重要的一步，但由于标注语料匮乏，大多数研究集中在用人工构建规则、模板来识别评价单元的方法上。为了减轻标注训练语料的工作，同时进一步挖掘未标记样本的信息，提出一种基于协同训练机制的评价单元识别算法，以利用少量的已标记样本和大量的未标记样本来提高识别性能。该算法利用Tritraining的思想，将支持向量机（SVM）、最大熵（MaxEnt）以及条件随机场（CRF）三个不同分类器组合成一个分类体系，对生成的评价单元候选集进行分类。将Tritraining的算法思想应用于实验来对比采用单一分类器的方法，结果表明，该算法能够有效地识别主观句中的评价单元。　　关键词：半监督学习；协同训练；Tritraining；评价单元；依存分析；评价对象　　0 引言　　随着网络和商业的飞速发展，主观评论充斥于各大电商平台、博客和论坛??这给人们带来大量信息，意见挖掘应运而生。意见挖掘是指以Web上用户发表的评论为研究对象，采用自然语言处理技术，获取用户对诸如产品、人物、服务等有价值的评论信息的一种技术，表达评论者的情感倾向。在评论的情感倾向性分析过程中，人们发现同一个评价词语在不同评价对象中可能表现出不同的情感倾向，即评价词有歧义性。为了解决上述问题，准确找到评价词后，确定其所对应的评价对象，以形成评价单元，再来分析这个评价单元的情感倾向，是国内外评论研究所面临的热点问题。　　评价单元是指评价词语（又称观点词）及其所修饰的评价对象二者的单元，可以表示为二元组〈评论对象，评价词语〉。在马晓玲等[1]的研究报告中提到，国内外对评价单元的研究主要分为基于规则/模板的方法和基于统计的方法。这两类方法都是在监督意义下进行的，即要求训练数据集的训练样本必须全部是已标记样本。在实际操作中，虽然获取大量的主观评价文本数据集并不十分困难，但是为这些文本提供正确的标记却需要耗费大量的人力和时间，在第三届中文倾向性分析评测（The Third Chinese Opinion Analysis Evaluation， COAE2011）的评价单元抽取评测中，也是采用专家对最终测试结果的标注来判断各类模型的准确度，所以为这些主观句进行标注的成本较大。但若是在监督意义下如果只使用少量已标记样本训练，则得到的模型很难具有较强的泛化能力，只能在少部分数据集上使用。Zhu[2]和常瑜等[3]所述的半监督学习能够较好地解决上述问题，它可以综合利用少量的已标记样本和大量的未标记样本以提高泛化性能。　　针对已标记样本少而未标记样本多的问题，本文提出了一种基于Tritraining的半监督协同算法，结合条件随机场（Conditional Random Field， CRF）、最大熵（Maximum Entropy， MaxEnt）和支持向量机（Support Vector Machine， SVM）三个分类器，通过判断三个分类器的预测一致性来隐式地对不同未标记的置信度进行比较，并且将置信度较高的加入到训练集中，进入下一轮迭代，以提高整体的抽取效果。　　1 评价单元识别方法　　1.1 评价单元识别的研究现状　　评价单元识别主要方法有两种：一是基于模板/规则的方法，二是基于统计模型的方法。由于语料数量不足的问题，研究者们往往采用的是前者。　　在基于模板/规则方法中，Liu等[4]提出先从评论预料中找到预期的评价对象，然后选择距离其最近的形容词作为评价词，以形成评价单元，这忽视了其他非形容词作为评价词的可能性，且经验性太强，并不实用。姚天?等[5]结合汽车领域的本体来抽取每个观点语句的主题和属性，然后在句法分析的基础上识别主题和情感描述项之间的关系，最终决定语句中每个主题的极性，在该领域内取得了较好的结果；但该方法依赖于人工标注的本体，需要花费大量的时间和精力，覆盖率不高，且转换领域后并不通用。赵妍妍等[6]提出了一种基于句法路径的情感评价单元抽取方法，首先通过提出候选评价对象、候选评价词的概念，来为这些候选的评价单元生成大量句法路径；接下来统计出现频率很高的句法路径，认为其代表着评价单元的通用型句法路径；继而基于句法路径的精准匹配算法来自动抽取情感句中的评价单元。这种方法摆脱了人工设立规则、模板的局限，但是直接选用名词作为候选的评价对象，忽视了评价对象是词组、短语的情况；而且该文是针对英文环境进行研究的，英文方法移植到中文文本中并没有取得同样理想效果。　　基于模板与规则的方法有一定的实践应用价值，但是对人力的消耗很大，近期赵妍妍等[6]提出的自动学习模板、规则的方法仍存在着相当大的局限性，一般而言只能处理句型简单、评价词和评价对象不复杂的句子。　　基于统计模型，方明