基于条件随机场的产品特征提取方法.docVIP

基于条件随机场的产品特征提取方法.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于条件随机场的产品特征提取方法.doc

基于条件随机场的产品特征提取方法   摘 要:从用户评论获得产品特征信息不仅可以指导用户理性消费,同时也为企业提高竞争力改进其产品质量提供了参考依据。根据中文用户对商品评论的特点,提出了一种基于CRFs(条件随机场)的产品属性、特征提取模型。该模型中集成了多特征实现产品特征抽取任务,提出了一种基于语法、词性、语义的改进特征概念。通过实验结果表明,该模型有效实现了通过产品评论提取产品属性的目的,模型的准确率达到84.65%。   关键词:产品评论;产品特征;条件随机场;语法;语义   中图分类号:TP18 文献标识码:A 文章编号:1009-3044(2016)03-0187-04   1 概述   随着互联网的发展,互联网相关的电子商务、论坛、社交网络等热门互联网衍生物也在飞速发展,越来越多的用户借助互联网平台发布评论。海量的产品评论中包含着丰富的信息量,大多含有关于对产品意见的部分,通过观点挖掘技术,可以帮助潜在用户更准确地了解产品的性能、质量等相关信息,作为合理购买的依据,同时,也为产品制造商提供了用户的兴趣点、关注点等数据。   近几年,国内外在文本挖掘领域倾向于对文本的情感分析和观点挖掘的研究,情感分析可以粒度化为篇章级、句子级和词语级,通过判断词语的情感极性来确定句子的情感倾向,从而判断评论的情感倾向;观点挖掘可以分为段落级,句子级和特征级,其中段落级和句子级的研究主要是分类段落和句子的语义褒贬倾向。Hu[1]提出的一种基于WordNet字典的模型,该模型利用情感词,计算每一条评论中最接近特征词正负情感词的数量。在特征级的方面的研究,主要集中通过评论挖掘产品属性特征。Hu[1-2]采用关联分析的方法,在产品评论中提取产品特征,定义判断距离产品特征最近的形容词为观点词。Li[3]通过人工的方法确定产品特征。缺陷是人工定义的特征具有主观性,并且很难移植到其他领域。Popescu[4]通过观点主题和观点词人工定义了模板,通过基于模板形成一套抽取规则抽取产品特征。Zhuang L[5]提出一种通过对领域知识的机器学习,利用CRFs模型抽取产品特征的方法。   2 产品特征识别系统模型介绍   该系统模型分为两部分:一、评论数据,通过人工标注建立语料库,语料通过特征提取模板,形成训练集和测试集。二、训练集通过CRFs方法进行机器学习,生成CRFs训练模型,测试集通过CRFs训练模型,提取出产品特征。   本文模型设计是利用JAVA通过MALLET中集成的CRFs工具实现的。图1给出了产品特征识别识别系统的框架。   2.1 CRFs(条件随机场)   条件随机场( Conditional Random Fields, CRFs)模型[6]是近年来提出的一种机器学习方法, 用于在给定需要标记的观察序列的条件下,计算整个标注序列的联合概率分布。CRFs是一种判别式模型,采用的是无向图分布,没有严格的独立性假设,可以任意选取特征。隐马尔科夫模型是生成模型,它针对联合概率p(y,x)建模,在模型中做了若干独立性假设,而条件随机场模型直接对所求的条件概率p(y|x)进行建模,在给定观察序列x条件下推导标签序列y,这使得CRFs模型可以避免独立性假设并捕获不同特征之间的关系。而且因为CRFs采用了全局归一化的方法,避免了最大熵马尔科夫模型中的标签偏置问题。故条件随机场模型在标注上优于隐马尔科夫和最大熵马尔科夫等模型,取得较好的效果。   CRFs是一种无向图模型或者马尔可夫随机域,它采用一阶链式无向图结构计算给定观察值条件下输出状态的条件概率。如图2所示。   输出状态的条件概率。如图2所示。   2.2 CRFs模型特征模版选取   根据网络评论复杂性、多样性等特点,结合近年来中文分词、词性标注、汉语组块等自然语言处理领域的最新研究,采用丰富的特征模板集,以下是对这些特征模板介绍。   2.2.1句法解析析特征定义   1)中文分词特征   本文采用的是由斯坦福大学自然语言小组开发的中文句法分析工具,实现对评论语句进行分词和语法标注,句子成分解析等文本预处理功能。通过分词后的词语作为判断产品特征的基本语言单位。   2)词性标注特征   通过句法解析系统对句子进行语法解析,确定分词后的每个词、字的语法成分,确定目标词的词性特征。该特征也是通过人工标注目标词和基于斯坦福大学自然语言小组开发的中文句法分析工具提取特征。   2.2.2 上下文特征   1)判断目标词与观点词距离   在用户评论中,存在许多主观性的评论,在描述某一种属性特征时,会用到不同的情感词,例如,评价商家物流质量的“发货”,通常会搭配“快捷”,属性往往会有很多常用的情感词与之形成搭配关系,通过确定距离情感词最近的目标

文档评论(0)

ganpeid + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档