- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
评价对象、短语、搭配关系抽取及倾向性判断
评价对象、短语、搭配关系抽取及倾向性判断摘要:观点挖掘近年来已经成为自然语言处理领域的热点问题,该文对观点挖掘的几项关键技术—评价对象、评价短语、主观性关系抽取、倾向性判断进行了研究。在评价对象抽取阶段,通过统计得到所有的名词和名词短语作为候选,然后结合词频,词共现等特征进行过滤得到最终的评价对象;在评价短语抽取阶段,使用基于观点词词典的匹配方法,并把观点词前面的副词也作为评价短语的一部分;在搭配关系抽取阶段,目的是抽取评价对象和评价短语的关联关系,采取的方法是将在句中距离评级对象最近的评价短语作为该短语的评级短语;在情感倾向分析阶段,通过将情感句进行分类,然后制定规则进行无监督的倾向性判断。
关键词:观点挖掘;评价对象;评价短语;主观性关系;倾向性判断
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2013)09-2044-02
近年来,观点挖掘(Opinion Minning)受到了很多学者的关注,它是一个非常新颖且有应用价值的课题,比如:问答系统,客户关系管理,产品信誉度分析等等。同时,观点挖掘也产生了许多具有挑战性的相关子方向。例如:领域观点词的抽取,旨在识别领域对观点词倾向性的影响;文本主客观分类,旨在识别文本单元的主客观性。
本文致力于研究主管句中的评价搭配抽取任务,考虑上下文对词语倾向性的影响,抽取被评价对象、评级短语,并判断倾向性。该任务可分为四个主要阶段:1)自动识别观点句中的评价对象;2)自动识别句中的评价短语;3)识别抽取评价对象以及评价短语之间的主观性关系;4)判断主观句中评价对象的情感倾向性。例如:对于某一评论“这款相机资源占用率低、看图快速且具备不错的人物照片筛选功能。”,系统首先识别评论中的被评价对象(如:“资源占用率”,“看图”,“人物照片筛选功能”)以及评价短语(如:“低”,“快速”,“不错的”),然后结合评价对象和评价短语之间的词共现和句中距离特征,抽取句子的主观性搭配关系,最后分析评价对象的情感倾向性,即“资源占用率,低,褒义”,“看图,快速,褒义”,“任务照片筛选功能,不错的,褒义”。
本文使用的无监督的方法进行评价对象、评价短语、主观性关系的抽取和倾向性分析。评价对象的的抽取上,使用基于词频的抽取名词和名词短语作为候选,同时加入PMI过滤技术。在评价短语抽取部分,评价词一般都是形容词,动词或者副词,他们的数目一般是不变的,并且是有限的,所以这里采用建立情感词典的方式,然后对于需要处理的文本来匹配这些词,另外还将评价词前的副词加入评价短语。在主观性关系抽取上,从评价对象抽取与评价短语抽取模块,抽取的评价对象以及评价短语,它们都只是候选,该文找出距离评价对象最近的评价短语最为该评价对象的评价短语。在情感倾向分析上,将情感句分为四类,对每类分别用不同的规则来判定情感倾向。
1 基于统计的评价对象抽取
本文的使用基于词频的评价对象抽取技术。对于给定语料,首先对其分词、词性标注,然后提取其中的名词和名词短语,过滤词频低于阈值的名词或名词短语,词频过滤主要考虑到评价对象大都是在评论中多次出现的,一些不相关的名词或者名词短语很少在评价对象中出现,而且那些低词频的评价对象是用户不太关系的评价对象,可以被过滤掉。该文还过滤掉单个字的情况,因为经过观察,单个字几乎不可能成为评价对象。然后再进行PMI算法筛选得到最终的评价对象。
本文采用PMI(Poitwise Mutual Information)指标来量化词A和词B的关系,计算两词的PMI的公式如下:
[PMI(A,B)=log2hits(A,B)hits(A)?hits(B)]
本文采用雅虎的搜索结果作为语料库,对于不同的领域选取不同的代表词,比如数码领域选取“手机”作为代表词,娱乐领域选取“娱乐”作为代表词,金融领域选取“金融”为代表词等,计算代表词语候选评价对象的PMI值,选取合适的阈值,过滤掉低于阈值作为最终的评价对象。
2 基于评价词典匹配的评价短语抽取
本文的评价词典使用的是WordNet中文观点词典,使用的匹配方法是首次匹配方法,对于分词后的单词串,提取“JJ”,“JJ+JJ”,“JJ+JJ”,“JJ+JJ+JJ”等形式的单词或短语,查询它们是否在观点词典中出现,如果它出现,并且前面的词不是副词则把它作为评价短语;如果它出现并且前面的词是副词则把副词和观点词一起作为评价短语。
由于时间仓促,该文采取的基于分词的首次匹配的方法不是理想的方法,理论上采用序列最大匹配的原则来进行匹配效果会更好。
3 搭配关系抽取和倾向性判断
在评价对象和评价短语抽取后,需要对评价对象搭配合适的评价短语本文采用的规则具体如下:
1)如果句子没有
文档评论(0)