- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
网络评论挖掘技术综述
0 网络上的产品评论
近年来,网络技术和电子商务的快速发展不仅给公司的业务流程带来了重大变化,也对消费者的行为模式产生了深远影响。以前,消费者在购买产品时,大部分是靠产品的口碑或者广告宣传来进行选择,对不同品牌的同类产品很难进行比较全面的了解和比较。而随着电子商务的快速发展,电子商务网站提供了越来越多的产品,越来越多的消费者也开始习惯于通过电子商务网站购买各类产品。同时,为了提高消费者的满意度以及改善消费者的购物体验,电子商务网站大都开辟了专门的区域来供消费者发表对其购买产品的评论。因此,网络上各种产品的评论数量也在飞速地增长。而且越来越多的证据表明,评论信息影响到消费者的购买决定。
对网络上的产品评论进行挖掘的意义主要体现在两个方面:一方面,可以帮助消费者全面、综合地了解其他消费者对产品的评价,了解产品各个方面的性能,从而挑选出更适合自己的产品;另一方面,可以帮助生产厂商通过用户评论来了解自己产品的优势以及不足,找出消费者最感兴趣和最希望拥有的功能,以改进产品的设计,改善服务,获得竞争优势。
网络上产品评论的数量极为庞大,有些热门商品可能包含成千上万的评论,而且有些评论可能内容很长,但是其中用户自身的观点只占一小部分。如果人工对产品评论进行分析和处理,将是一件非常繁琐和耗时的任务,而且很难获取全部产品评论中的有用信息。因此,需要提供一种有效的方法能自动或半自动地对产品评论进行分析和处理,挖掘出对用户和厂商有用的信息。近年来,以获取产品评论中有用信息为目标的非结构化数据挖掘技术——“评论挖掘”吸引了越来越多的学者的关注。
1 结果产品各方面性能的评价
产品评论挖掘是近年来受到广泛关注的一个研
究热点,以Web 上发表的用户产品评论作为挖掘对象,采用自然语言处理技术,从大量文本数据中发现用户对该产品各方面性能的评价。评论挖掘主要包含4个子任务:产品特征抽取;评论观点抽取;评论观点的极性以及强度判断;评论挖掘结果的汇总以及按用户观点排序。
(1) 产品特征的提取
从产品评论中抽取用户评价的产品特征,产品特征包括产品的属性或功能、产品的部件、产品部件的属性或功能、产品的相关概念等;
(2) 评论中提取的观点如下
从产品评论中抽取用户所评论的产品特征的观点;
(3) 对评论观点的极性和强度做出评价
确定用户观点的极性(褒义、贬义、中性)以及用户表达情感程度的极性强度;
(4) 评论总结和用户观点分类如下
利用统计数字、图表等直观的形式对挖掘结果进行显示,并可以按照评论中用户对产品的评价观点对产品或产品的特征进行排序。
2 产品评论的特征
产品评论挖掘需要从网络上的产品评论中抽取消费者对特定产品相关特征的评价,因此需要将产品评论中所涉及的产品特征抽取出来,以便获得消费者和生产厂商感兴趣的信息。虽然产品说明书中一般都包含了产品特征的描述,但是仅仅考虑这些特征是不够的。首先,产品说明书中的特征大部分都是以技术术语描述的,而产品评论中的产品特征用词更加丰富、更加贴近用户的表达习惯。其次,产品说明书主要描述了产品的硬件特性,而用户可能在评论中提及很多说明书中不存在的产品功能特性,或者生产厂商没有考虑到的特征。因此,需要从真实的网络产品评论语料中进行产品特征抽取。
产品评论中的产品特征可以分为显式特征和隐式特征。显式特征是用户在产品评论中明确描述出来的特征,例如“手机外观非常时尚”,“外观”就是一个显式特征。隐式特征是用户在产品评论中没有明确描述,需要对句子的语义进行理解后才能获取的特征,例如“这款手机携带方便”,通过理解可以得到“尺寸”这个隐式特征。抽取产品的隐式特征需要对产品评论进行深刻的语义理解,目前自然语言处理技术还很难达到深刻理解句子语义的程度,因此绝大部分产品特征的抽取都只考虑了产品的显式特征。
2.1 基于产品特征的层次模型
Zhuang等针对电影评论,将电影的特征分为两类:电影元素(例如情节、音乐等)和电影相关人员(例如导演、演员等),并人工定义了电影的特征。姚天昉、聂青阳和李建超通过人工定义的汽车本体抽取中文汽车评论的产品特征。Shi和Chang人工建立了一个产品特征的层次概念模型,层次概念模型将相似的特征聚集在一起,构成特征层次的一个叶子,每个叶子包含两个部分:“特征名称”和“观点词”。
Carenini等利用领域知识建立了一个产品特征的层次模型,然后利用关联规则挖掘产品特征,并将挖掘到的产品特征通过相似性映射到该产品特征层次模型上。
利用手工定义产品特征或者产品特征的层次结构是一件非常耗时的工作,而且对于不同的领域需要不同领域的专家参与,定义众多领域的产品特征显然是一项非常庞大的任务。同时,产品的特征并不是一成不变的,随着新产品的出现以及产品的升级,必然还要重新召集领域专家对产品特征进行补充或者修正。
文档评论(0)