基于最大频繁模式的在线评论标签抽取.PDF

下载文档

10
0
约2.45万字
约 11页
2017-07-05 发布于江苏
举报
版权申诉
保障服务

基于最大频繁模式的在线评论标签抽取.PDF

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于最大频繁模式的在线评论标签抽取

基于最大频繁模式的在线评论标签抽取1 李良强徐华林袁华* 邵培基 (电子科技大学经济与管理学院, 四川成都 610054) 摘要随着电子商务的蓬勃发展，日益增加的海量在线评论数据影响了在线消费者获取有用信息的效率。本文提出了一种从海量在线评论数据中自动抽取评论标签的文本处理技术。该方法综合了语法搭配（词性搭配）和最大频繁模式，从海量的在线评论数据自动抽取出用户对该产品/服务的主要评论内容。实验表明基于词性搭配的最大频繁模式的过滤技术能灵活有效地从在线评论中抽取核心的用户评论。并且，该方法在不同的数据集和不同方法的比较中，都表现出较好的抽取效果。关键词文本挖掘，最大频繁模式，评论标签，模式过滤中图分类号 1. 引言随着互联网和Web 2.0 技术的发展，在线用户评论对电商和消费者影响重大。以往研究表明多数消费者在做出购买决策前会在网上收集产品/服务相关信息，并且购买后会在网上分享消费体验和购买评价[1] 。另一方面，大量网络用户在购买产品/服务前会阅读用户评论，并且受到评论内容的影响[2] 。因此，海量的在线用户评论是帮助消费者发现产品质量和做出相应购买决策的重要信息源。然而，随着在线评论数量的增加，不可避免地出现了信息过载的问题。例如，部分畅销产品拥有成千上万条评论数据，过多的数据让消费者难以从中获得准确的核心产品评价信息。因此，合理地抽取核心信息并制作成信息标签（Tag ），对潜在用户的信息检索行为起到高效的归纳和引领作用（如图1中“买家印象” ）。图1 JD.com 用户在线评论标签示例一般地，信息标签在内容上有三方面的要求：用户生成（意见可信性），大多数人的意见（避免意见的过度有偏性）以及保留足够的语义（易于理解）[3] 。从用户评论的文本数据中抽取出核心信息满足了“用户生成”要求。将抽取过程实现自动化，无疑会增加这一方 1 基金项目：国家自然科学基金 U1233118 ）通信作者：袁华，电子科技大学经济与管理学院，副教授，E-mail:yuanhua@ 。法的效率，因而许多人工智能方面的方法被应用到这个领域[2][4][5] 。自动文本信息抽取方法的共同点是把用户的评论内容表现为一堆自然语言句子或者语言字符的集合，然后用机器学习方法来形成信息标签[6][7][8][9][10] 。由于其较高的自动化能力，并且增加了对集合中词（项）的位序关系信息，逐渐得到研究者和应用领域的重视。机器学习方法的缺点，需要大量“优质”数据进行训练，显然，在网络中由海量背景各异的用户生成的评论文本质量难以保证。因此，在机器学习的基础上，需要再加以专家修正（通常是标注）以增强结果可用性。另外，时间消耗高也是机器学习方法的弱点。为了在海量在线文本中形成“大多数人的意见”，频繁集挖掘方法表现出很高的效率[11] 。但是，简单地应用频繁集挖掘方法在生成信息标签时面临两个问题：一是该方法主要考查词汇的相关性（Correlation ），亦即共现（Co-occurrence ）频率；而在语义理解中非常重要的词汇之间的位序关系却被忽略。二是，频繁集方法仅以频率的高低来评价生成模式质量的好坏。这样，项数少的集合具有优势。但是自然语言的理解上，显然项数多的集合能够提供更多的语义信息。为了生成具有语义的信息标签，需要尽可能多地保留频繁集中的词汇并且能够梳理频繁集中词汇的语义关系。因此，本文提出一种基于最大频繁模式的在线用户评论标签抽取方法。该方法包括两个步骤：(1)利用最大频繁模式（Maximal Frequent Pattern, MFP ）挖掘评论中的频繁词集。(2)利用词性搭配规则过滤出拥有语义信息的频繁词集合，尤其代表评论的客体和评论者情绪的词性搭配组合。实验结果表明该方法能灵活有效地从用户在线评论中抽取出关键信息标签。本文结构组织如下：第二部分为介绍相关工作；第三部分是阐明方法的结构框架和相关细节；第四部分为实验结果展示和相关分析；第五部分是结论。 2. 相关工作从海量在线评论中抽取标签的相关工作主要集中在评论中的“评价对象+情感倾向” 的特征提取、观点摘要和标签生成三个方面。在特征提取方面，除了使用人工定义抽取特征外[12] ，主