大数据在电子商务中的应用概要.ppt

下载文档 降价啦

19
0
约2.72千字
约 15页
2017-08-17 发布于湖北
举报
版权申诉
保障服务

大数据在电子商务中的应用概要.ppt

1、本文档共15页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

大数据在电子商务中的应用概要

大数据在电子商务中的应用——在线评论信息挖掘 1.引言随着互联网的发展和普及，Web已经成为用户在线反馈观点的主要途径。网络购物、论坛发表意见无形中已经成为了大多数网友上网的乐趣，而网络机构也开始意识到通过提供在线评论能够增加与用户的互动，获得自身的改进。然而面对网上海量的良莠不齐的信息和数据，企业、政府和用户要想从在线评论中获得有用的信息，只有通过人工阅读的方式来获取，这不仅需要耗费大量的时间，而且极易产生错误。在线评论的挖掘研究 2.现状 Hu等利用从亚马逊及BarnesNoble（全球第二大网上书店，仅次于第一名亚马逊）得来的图书评论信息来证明目前存在部分出版商、作者及卖家有意操纵评论信息的情况，其研究结果表明大多消费者会根据商品价格来判断商品质量，商家在不进行有意的评论操纵或者销售质量较高的产品更容易改变消费中的购买倾向性，由此建议可以通过增加操纵成本来缓和消费者被操纵产生的不良后果。 Wang等选择采用半监督-交叉训练方法，以迭代的方式挖掘评论对象和评价词，通过朴素贝叶斯分类器在只有很少标注的语料的前提下取得结果。郭国庆等引入了霍夫兰德在耶鲁大学提出的基于信息传播过程的说服或态度改变模型，在模型本身提出的信息源、信息内容、接收者三个方面的基础上，加入社会因素，提出了在线评论可信度影响因素模型，并以第三方评论网站为例，进行了实证研究。 3.在线评论信息挖掘方法 3.1基于知识规则方法该方法用于在线评论情感倾向性分析是，通常基于一个预先定义的情感词典，如WordNet、HowNet等词表，统计整个句子中的情感词的倾向性，进而得到句子的情感倾向。上海交通大学的娄德成等通过手工对HowNet包含的所有词条进行倾向性标注，并从网络上选取一定量的极性次于作为种子集合，得到了数量可观的褒贬次于字典，字典中不包含的新词，通过计算新词与种子集合中次于的互信息而得到新词的语义倾向。对于意见持有者的识别，Stoyanov采用命名实体识别的方法，将意见持有者看作一个实体，通过选择相同实体的意见持有者以解决互指问题；Kim等首先通过分析句子的句法结构识别动词或形容词等带有情感倾向的词语，在借助FrameNet标注其情感角色以识别出主题、意见持有者等信息。 3.1基于知识规则方法基于知识的规则方法中通常还基于自然语言语义理解，使用句法分析方法从评论的文本结构分析定义一系列规则或模板，对文本的情感倾向性进行分析。例如，Nasukawa等借助一个句法剖析其进行语义分析并且取得了较高的准确率。 Wilson开创了在短语层面进行主观性分析的研究工作，在他们将文档按特征分为词汇特征、修饰特征、句子特征、结构特征和文档特征五个类别，基于这五个特征集合构造了一个分类器，在细粒度主观性分析任务中完成得很好。刘鸿宇等通过分析情感剧举行，归纳相应的规则进行倾向性的判断。基于语义理解和句法分析方法的准确率和召回率较高，但定义推理规则需要花费成本较高。 3.1基于知识规则方法基于知识的规则方法在小规模测试时效果较好，速度快。但是，人为编写规则需要语言专家对语言规则进行升入的理解，在此基础上编写规则，构造规则对语言知识要求较高，需要很大的人力、财力。另外，规则较多时还会引起规则之间的冲突，各语言间移植困难、通用性不强。 3.2基于机器学习的方法 3.2基于机器学习的方法通常使用支持向量机（support vector machines，SVM）、隐马尔可夫模型（hidden markov model，HMM）最大熵（ME）等回归方法、序列标注方法进行在线评论信息挖掘。 Akshay和Durant使用SVM进行情感分类。 Pang等在2002年使用包括朴素贝叶斯、最大熵和SVM等多种机器学习方法，使用文本分类中常用的unigram（单个word）、bigram （双word）和词性等作为基本特征对电影评论进行了分类。 Sakvetti等采用隐马尔可夫模型结合词性特征，对电影评论和产品评论进行分类。 McDonald等把句子的褒贬标记看作一个情感刘问题，并利用条件随机场（conditional random fields，CRFs）模型来给篇章中的每个句子打分，把句子级的褒贬标记和章篇级的褒贬标记放到一个图模型下求全局最优，该方法不仅考虑了句子的上下文关系，并且考虑了篇章的整体情感倾向性。 3.2基于机器学习的方法线性CRFs模型用于倾向性分析没有考虑褒贬标记间的层级关系以及所包含的冗余信息，例如，强烈褒义和一般褒义是褒义的自己，所以影响到褒贬强度的分类结果。王根等考虑了褒贬标记间的荣誉关系，在CRFs基础上给出了一种一体式的框架，通过模型嵌入荣誉的状态标记表现了标记间的层级关系。刘康等基于层叠CRFs模型选择倾向性表