- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于最大频繁模式的在线评论标签抽取
基于最大频繁模式的在线评论标签抽取1
李良强 徐华林 袁华* 邵培基
(电子科技大学 经济与管理学院, 四川 成都 610054)
摘 要 随着电子商务的蓬勃发展,日益增加的海量在线评论数据影响了在线消费者获取有用
信息的效率。本文提出了一种从海量在线评论数据中自动抽取评论标签的文本处理技术。该方
法综合了语法搭配(词性搭配)和最大频繁模式,从海量的在线评论数据自动抽取出用户对该
产品/服务的主要评论内容。实验表明基于词性搭配的最大频繁模式的过滤技术能灵活有效地
从在线评论中抽取核心的用户评论。并且,该方法在不同的数据集和不同方法的比较中,都表
现出较好的抽取效果。
关键词 文本挖掘,最大频繁模式,评论标签,模式过滤
中图分类号
1. 引言
随着互联网和Web 2.0 技术的发展,在线用户评论对电商和消费者影响重大。以往研
究表明多数消费者在做出购买决策前会在网上收集产品/服务相关信息,并且购买后会在网
上分享消费体验和购买评价[1] 。另一方面,大量网络用户在购买产品/服务前会阅读用户评
论,并且受到评论内容的影响[2] 。因此,海量的在线用户评论是帮助消费者发现产品质量
和做出相应购买决策的重要信息源。然而,随着在线评论数量的增加,不可避免地出现了
信息过载的问题。例如,部分畅销产品拥有成千上万条评论数据,过多的数据让消费者难
以从中获得准确的核心产品评价信息。因此,合理地抽取核心信息并制作成信息标签
(Tag ),对潜在用户的信息检索行为起到高效的归纳和引领作用(如图1中“买家印象” )。
图1 JD.com 用户在线评论标签示例
一般地,信息标签在内容上有三方面的要求:用户生成(意见可信性),大多数人的意
见(避免意见的过度有偏性)以及保留足够的语义(易于理解)[3] 。从用户评论的文本数
据中抽取出核心信息满足了“用户生成”要求。将抽取过程实现自动化,无疑会增加这一方
1 基金项目:国家自然科学基金 U1233118 )
通信作者:袁华,电子科技大学经济与管理学院,副教授,E-mail:yuanhua@ 。
法的效率,因而许多人工智能方面的方法被应用到这个领域[2][4][5] 。自动文本信息抽取方法
的共同点是把用户的评论内容表现为一堆自然语言句子或者语言字符的集合,然后用机器
学习方法来形成信息标签[6][7][8][9][10] 。由于其较高的自动化能力,并且增加了对集合中词
(项)的位序关系信息,逐渐得到研究者和应用领域的重视。机器学习方法的缺点,需要
大量“优质”数据进行训练,显然,在网络中由海量背景各异的用户生成的评论文本质量难
以保证。因此,在机器学习的基础上,需要再加以专家修正(通常是标注)以增强结果可
用性。另外,时间消耗高也是机器学习方法的弱点。为了在海量在线文本中形成“大多数人
的意见”,频繁集挖掘方法表现出很高的效率[11] 。但是,简单地应用频繁集挖掘方法在生成
信息标签时面临两个问题:一是该方法主要考查词汇的相关性(Correlation ),亦即共现
(Co-occurrence )频率;而在语义理解中非常重要的词汇之间的位序关系却被忽略。二是,
频繁集方法仅以频率的高低来评价生成模式质量的好坏。这样,项数少的集合具有优势。
但是自然语言的理解上,显然项数多的集合能够提供更多的语义信息。
为了生成具有语义的信息标签,需要尽可能多地保留频繁集中的词汇并且能够梳理频
繁集中词汇的语义关系。因此,本文提出一种基于最大频繁模式的在线用户评论标签抽取
方法。该方法包括两个步骤:(1)利用最大频繁模式(Maximal Frequent Pattern, MFP )挖掘
评论中的频繁词集。(2)利用词性搭配规则过滤出拥有语义信息的频繁词集合,尤其代表评
论的客体和评论者情绪的词性搭配组合。实验结果表明该方法能灵活有效地从用户在线评
论中抽取出关键信息标签。本文结构组织如下:第二部分为介绍相关工作;第三部分是阐
明方法的结构框架和相关细节;第四部分为实验结果展示和相关分析;第五部分是结论。
2. 相关工作
从海量在线评论中抽取标签的相关工作主要集中在评论中的“评价对象+情感倾向” 的特
征提取、观点摘要和标签生成三个方面。
在特征提取方面,除了使用人工定义抽取特征外[12] ,主
您可能关注的文档
- 品格领导与社区化.PDF
- 品牌关系管理.PDF
- 品格铸造人生的强者.PDF
- 品牌名称品牌强度.PDF
- 品牌力重塑调整年.PDF
- 品牌哒浪熊.doc
- 品种一2015年付息及分期偿还本金公告.PDF
- 品牌铸就品牌铸就竞争力.PDF
- 品质365商家服务质量管理规定及日常违规处罚标准.PDF
- 品种概况.PDF
- 分析let s单元56ago2卷纸zheng unit56.pdf
- 塑胶材料其它分类原料pa9t 12.pdf
- md16x16数字媒体切换器设备.pdf
- 者参考项目发起人学科类型单位序列承包商修订页代码顺序典型.pdf
- 届世界天然气大会阿姆斯特丹2006add10288.pdf
- 期测试记录表每周weekly g1g6 journeys tests level 6 lesson26.pdf
- modernize-whitepaper现代化您应用程序白皮书.pdf
- anybackup产品典型案例分析.pdf
- 约克金融工程课程tfeslide32.pdf
- 广州市妇女儿童医疗中心历份教学药历01tjy.pdf
文档评论(0)