- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据仓库和数据挖掘在中文产品评价中的应用研究.doc
数据仓库和数据挖掘在中文产品评价中的应用研究
【摘要】本文主要探讨了决策支持系统的应用结构、数据仓库、数据挖掘技术分析等技术方面的内容。对数据挖掘在中文网络产品评论中的应用进行了全面深入的探讨,介绍了挖掘系统的通用框架,然后对产品特征提取、主观句定位、用户态度提取、态度极性判断、挖掘结果等五个任务进行了详细阐述。显然,数据挖掘在评论挖掘中的广泛应用对于网上购物各方面的进一步推进具有借鉴价值。
【关键词】网络中文评论;数据挖掘;通用框架;应用
1 引言
这篇文章旨在探讨了数据仓库、数据挖掘的定义和相关概念,提出了网络产品评论挖掘的研究背景以及步骤和方法,并在用户产品评论分析的基础上,进一步对产品特征提取、主观句定位、用户态度提取、态度极性判断进行分析,更全面的介绍了数据挖掘在各方面的应用和作用。
2 数据仓库和数据挖掘的技术分析
2.1数据仓库
数据仓库系统会随着时间而发生改变,包括数据仓库的创建、设计以及使用;纵向上所呈现的是数据仓库的管理体系,它最终是通过元数据对整个数据仓库系统进行了管理[1]。数据具有单向流动性,在存储过程中还具有层次性。数据经由源数据进入数据仓库,接着在分析处理后进入用户界面。
2.2 数据挖掘技术分析
基于数据仓库的通用数据挖掘系统的结构是基于传统的结构框架以及数据仓库的特点所分析出来的,适用于不同的数据挖掘。对网络产品有用评价信息的挖掘分为用户产品评论语料库构建、数据预处理、产品评论挖掘和挖掘结果分析四个步骤。
3 挖掘技术在产品评论中的应用
产品评论挖掘是文本挖掘研究领域中最近几年兴起的研究热点。以Web上发表的用户产品评论作为挖掘对象,采用自然语言处理技术,从大量文本中发现用于对该产品各方面性能的评价。目前产品评论挖掘分为产品特征提取、主观句定位、用户态度提取、态度极性判断和分析挖掘结果五个子任务。
3.1 在产品特征提取中的应用
在产品特征方面,生产厂商一般会给出关于相关产品各方面性能的说明文件,但是产品评论挖掘一般不从这样的说明性文件中提取产品特征,主要原因之一是生产厂商和用户对产品特征的关注度不一样,用户关注的是对于产品的相关的特征信息,而生产厂商提供的产品特征更多的专注于一些技术细节,对于这样的细节用户一般不感兴趣。其次产品评论中对特征的描述是一个开放性的问题。产品特征提取是在分词和词性的基础上,首先提取出全部的名词,找出出现频率比较高的名词作为候选词汇,之后通过人工定义,得到用户关注产品特征集合F1,假设产品规格说明书中提取的产品特征集合设定为F1,则最终产品特征集合为F=F1∪F2。
3.2 在主观句定位中的应用
判定主观句的方法主要是查看语句中是否出现了主观性特征,主观性特征包括可以表示主观性的动词、形容词、名词短语、文本模式或人工定义的词汇表,主观性特征的获取分为人工定义和自动获取两种方式。根据李存青给出的4种汉语评论常用语法模式基础上[2],单晓红给出了9种语法模式:名词+形容词、名词+动词、名词+副词+形容词、名词+副词+动词、名词+副词+副词+形容词、名词+副词+副词+动词、动词+名词、副词+动词+名词、形容词+的+名词,在分词和词性标注的基础上,对于每一条产品评论句子Ri,构造其语法模式集合[14],来作为产品评论中主观句定位的方法。
3.3 在用户态度提取中的应用
Kobayashi、Inui和Matsumoto 建立了形容词的用户态度词汇表(比如:comfortable,tight,supportive)[3]。Li Zhuang从人工标注的数据中寻找了1093 个词汇作为正性词汇,780个词汇作为负性词汇,无论评论语句中出现了正性还是负性词汇,那么都将该词汇作为表示了用户态度的词汇[8]。Bing Liu和Mingqing Hu提取句法分析树中修饰作为产品特征的名词和名词短语的形容词或副词作为用户态度[4]。Kim和Hovy不进行句法分析而是直接定义一个窗口,将在窗口中出现的形容词作为用户态度和使用文本模式提取用户态度,将出现在文本模式中的形容词作为用户态度。
3.4 在态度极性判定中的应用
文本的态度分析分为词语、短语、句子、篇章等多个层次,篇章层次的态度极性的判断多用于基于情感的多文本摘要等领域,极性词汇表的建立分为人工定义和自动获取两种方法。Turney[5]采用互信息和信息检索结合(PMI-IR)的方法判定词汇极性,该方法假设同一篇文章中出现的词语具有相同的情感极性方向,首先建立7个单词构成的正性词汇集Pwords和7个单词构成的负性词汇集Nwords,对需要进行极性判断的词汇Uword,分别计算Uword 与Pwords和Nwo
文档评论(0)