基于对比散度受限玻尔兹曼机深度学习的产品评论情感分析.docVIP

下载本文档

8
0
约 11页
2017-03-21 发布于北京
举报
版权申诉

基于对比散度受限玻尔兹曼机深度学习的产品评论情感分析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于对比散度受限玻尔兹曼机深度学习的产品评论情感分析.doc

基于对比散度受限玻尔兹曼机深度学习的产品评论情感分析摘要：针对目前大部分情感分析技术需要人工标注建立情感词典提取情感特征的问题，提出一种基于对比散度受限玻尔兹曼机（CDRBM）深度学习的产品评论情感分析方法。该方法在对产品评论时进行数据预处理并利用词袋模型产生产品评论的向量表示，然后通过CDRBM提取产品评论的情感特征，最后结合支持向量机（SVM）将提取出来的情感特征进行文本情感分类。CDRBM无需人工标注情感词典，即可获得情感特征，且可以提高特征的情感语义关联性；同时，SVM可以保证产品评论情感分类的准确度。通过实验确定了RBM最优训练周期为10，在此训练周期下对RBM、SVM、PCA+SVM，以及RBM+SVM方法进行了比较。实验结果表明，RBM特征提取和SVM分类结合方法能够获得最好的准确率和F值，并获得较好的召回率。关键词：深度学习；受限玻尔兹曼机；情感分析；对比散度；支持向量机中图分类号：TP391.4 文献标志码：A 0引言随着淘宝、京东、卓越、当当等购物网站的流行，越来越多的人开始网上购物，网上的评论信息也越来越多。网购者往往会留下评论来对所购买的商品表达自己的情感，评论信息会成为其他潜在消费者以及商家的一个重要参考依据。然而，面对如此巨大的无结构评论信息，客户、商家无法及时准确地发现自己想要的产品参考信息。如果单靠人工浏览的方式去浏览这些信息十分费时，而且获得的信息带有一定的片面性[1]。因此，利用计算机帮助用户快速、完全地获取和整理这些相关的评价信息，以及对互联网上杂乱无章的海量产品评论信息进行挖掘处理，并对评论中蕴含的情感进行情感倾向性分析成为了近些年来的一个研究热点。情感分析是指分析说话者在传达信息时所隐含的情绪状态，对说话者的态度、意见进行判断或者评估。情感分析在海量数据上的应用，将有助于完善互联网的舆情监控系统，拓展企业的营销能力，实现对物理世界异常或突发事件的检测；此外，还可以应用于心理学、社会学、金融预测等领域的研究，故对于产品评论情感分析的研究有着很重要的现实意义[2]。目前，对于网络商品评论情感分析的主要方法有：1）基于情感知识的方法，主要依靠一些已有的情感词典和语言知识，来对文本的情感倾向进行分类[2]；2）基于特征分类的方法，主要是使用机器学习的方法，将情感分析看作传统的分类，抽取特征并进行判断。王文华等[3]针对产品评论中的属性词和情感词在文本中的各种关系，制定了八组特征选择规则，利用支持向量机（Support Vector Machine， SVM）算法训练模型来判断属性词和情感词的搭配识别，并依据情感词及否定词等分析属性特征的情感倾向；杨立公等[4]提出一种基于马尔可夫逻辑网的句子情感分析方法，与深度学习（deep learning）方法结合实现跨领域的知识迁移，同时采用马尔可夫逻辑网将句子的上下文信息与其他情感特征相结合实现句子情感分析；Ruslan等[5]提出无向二部图受限玻尔兹曼机（Restricted Boltzmann Machine， RBM）应用在用户对电影评论的排名上；Glorot等[6]提出了一种领域自适应大规模情感分类，即采用去噪的自动编码机，后又将去噪自动编码机以栈的方式堆叠起来，就得到栈式去噪编码机，实现了从底层特征到高层特征，并且提取观点持有者对某一方面的情感表示；姚娜娜[7]将情感词典与SVM结合进行产品评论的情感分析；Pang等[8]分别用朴素贝叶斯、最大熵、SVM算法等机器学习算法进行情感分析，但需要建立情感词典；Dave等[9]在对产品评论进行情感分类时，采用Bigram作为特征项训练分类器；Kim等[10]手工收集了一些褒义和贬义的词汇，借助WordNet同义词扩展这个集合，通过对词语同义词组在原始褒义词集合和贬义词集合的对比，计算词语的褒贬置信度，最后根据阈值判断词语极性；Collobert等[11]提出运用深度学习对文本进行词性标注、命名实体识别、语义角色标注等任务，但没有用于情感分析。上述针对情感倾向性分析方法中关键部分是特征提取和情感词典的建立，即情感分析的准确性取决于特征质量的高低、特征数量的多少及情感词典建立的准确性。然而，特征提取比较费时和费力，而且依赖专业知识和直觉，且情感词典的建立也比较繁琐。本文针对上述方法存在的问题并结合产品评论文本非结构化的特点，提出了一种既能有效降低文本表示模型的维度，又无需建立情感词典，通过概率大小对文本数据进行情感分析的对比散度受限玻尔兹曼机（Contrastive Divergence RBM， CDRBM）方法。这个方法可通过一种深层非线性网络结构，实现复杂函数逼近来表征输入数据分布式表示，可用较少的参数表示复杂的函数。训练时各隐藏层无需经验和人工技巧，通过无监督的逐层特征变换，将样