基于半监督学习在线评论挖掘应用.docVIP

下载本文档

4
0
约4.34千字
约 10页
2018-06-23 发布于福建
举报
版权申诉

基于半监督学习在线评论挖掘应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于半监督学习在线评论挖掘应用

基于半监督学习在线评论挖掘应用　　摘要：在线评论挖掘是从大量的在线评论数据中挖掘出有用的信息以支持管理决策的过程。本文首先介绍了在线评论挖掘的意义、任务以及半监督学习的基本概念，并给出了半监督学习在在线评论挖掘中的应用模型。　　关键词：在线评论挖掘；半监督聚类；半监督分类　　中图分类号：TP391.1 文献标识码：A 文章编号：1007-9599 （2012） 20-0000-02 　　1 绪论　　Web2.0 的迅速发展使得越来越多的用户有机会参与网络互动之中，由单纯的网络内容的浏览者，变成了网络内容的创造者。博客、微博、论坛、BBS、讨论组、评论网站等为用户提供了自由发表意见的平台。在电子商务领域中，用户的互动性则主要体现在用户对于已购买产品的在线评论。这些主观性的评论文本反映了用户针对产品或服务的直接用户体验和态度，蕴含着丰富的商业信息，对研究评论者的心理和行为有很大的帮助。　　1.1 从消费者的角度来说：可以利用评论挖掘结果了解产品的性能和其他用户的使用体验，为购买决策起到很好的参考作用；电子商务网站对于评论挖掘结果的有效展示可以避免用户迷失在大量的在线评论文本中无法获得有效地信息。　　1.2 从生产商的角度来说：生产商可以通过消费者的评论获得消费者的反馈信息，发现潜在的机会和风险，及时的改进产品或服务。另外也可以从竞争对手的产品反馈评论中获取商业情报，增强企业的竞争能力。　　1.3 从经销商的角度来说，可以参考产品评论挖掘结果，更好的确定经销产品的范围、种类和数量。　　2 在线评论数据的特点　　网络评论可以给客户以及生产者，销售者带来有价值的产品信息与服务反馈，产品评论数据的一些特点以及挖掘中存在的问题如下：　　2.1 评论数据量过大。随着网络的广泛应用，网络上的客户评论正在飞速地膨胀着。所以要从这些评论中获取准确的信息必须要结合机器，否则人工或者半人工的挖掘过程都是非常难以完成的任务。　　2.2 非结构化数据。网络中的非结构化数据的语义获取还是非常困难的，需要人工智能，特别是自然语言处理等多个学科的共同努力。　　2.3 更新速度快。不??是数量还是风格，在线评论数据变化很快。传统的机器学习方法中分类技术利用监督型分类，需要语料训练分类器，这样在一些环境和因素下，分类器需要使用更新数据集重新训练，实施具有一定的困难，结果可能不准确。　　2.4 获得大量的类别信息成本较高，但是可以以较低的成本获得少量的类别信息。　　针对在线评论数据的特点及存在的问题，我们将半监督学习方法应用到在线评论数据挖掘中。　　3 半监督学习简介　　在机器学习领域中，传统的学习方法主要包括监督学习和无监督学习。半监督学习（Semi-supervised Learning）是近年来模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。半监督学习对于减少标注代价，提高学习性能具有非常重大的实际意义。　　3.1 半监督聚类。所谓聚类，是把大量的无标记数据样本聚集成多个类，使同一类中样本的相似性最大，不同类中样本的相似性最小。聚类算法已被广泛应用于计算机视觉、信息检索、数据挖掘等领域.聚类算法在执行过程中不能获得任何关于预先定义的数据项的类别信息，因而通常被看作是一种无监督学习方法。由于没有利用任何关于类别的信息，当所定义的聚类目标函数不适合数据本身时，数据聚类结果将不能令人满意。另外，聚类定义的任意性有可能产生对于实际问题没有任何意义的聚类划分。　　尽管对于现实世界问题要获得所有数据的类别信息需要付出相当大的代价，少量样本的类别信息还是比较容易获得的，忽视这些少量样本类别信息将是很大的浪费。半监督聚类充分利用成对约束信息或少量已标记数据指导聚类，同时能够利用大量无标记数据所蕴含的分布信息，获得更好的聚类效果。实验证明，少量信息能够很大程度的改善聚类效果[1-4]。　　半监督聚类已经被广泛的运用到网页检索和文本分类、医学数据等一系列领域中，在理论和实际研究应用中都获得了长足的发展。　　3.2 半监督分类。传统的分类方法属于有监督学习，主要分为两个过程：训练过程和分类过程，通过对已标记样本的训练学习，确定分类器的参数，然后用训练好的分类器对未标记样本进行分类。在训练过程中需要大量的训练样本即已标记样本才能训练出较好的分类器。　　半监督分类主要利用少量的标记样本进行训练，然后开拓大量的未标记样本，不断迭代，最终得到一个较为准确的分类器。半监督分类问题目前有三种主要的技术：基于生成式的模型、基于图正则化框架的模型和基于协同训练的模型[5]。　　4 在线评论挖掘的主要任务