基于评论挖掘技术的在线商品评论对销量的影响.PPT

下载文档 降价啦

11
0
约5.23千字
约 30页
2018-02-09 发布于天津
举报
版权申诉
保障服务

基于评论挖掘技术的在线商品评论对销量的影响.PPT

1、本文档共30页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于评论挖掘技术的在线商品评论对销量的影响

基于评论挖掘技术的在线商品评论对销量的影响 ——以亚马逊手机销售为例 PPT模板下载：/moban/ 行业PPT模板：/hangye/ 节日PPT模板：/jieri/ PPT素材下载：/sucai/ PPT背景图片：/beijing/ PPT图表下载：/tubiao/ 优秀PPT下载：/xiazai/ PPT教程： /powerpoint/ Word教程： /word/ Excel教程：/excel/ 资料下载：/ziliao/ PPT课件下载：/kejian/ 范文下载：/fanwen/ 试卷下载：/shiti/ 教案下载：/jiaoan/ 概述——全文思路源数据获取数据预处理情感词典程度副词词典 LDA模型获取产品特征值产品特征情感极性程度计算非评论内容数据建立评论对销量的回归方程源数据获取利用爬虫软件“网络神采”于2014年4月3日在亚马逊网（A）上爬取了手机销售排行榜上前100名的产品信息。主要包括：销售排名、产品名称、产品市场价格、产品现价、折扣、评论数量、评论平均星级以及每条评论的评论内容。源数据获取对采集的数据进行了初步的清理，删除了评论内容小于10的数据，最后获得91款手机数据，并按照原排名排序，下图是相应的描述性统计：评论总数量约为3万条，足够我们进行下一步的特征抽取工作。返回评论数据预处理分句：每条评论可能由多个句子组成，每一句话所谈到的内容或者产品特征均不相同。如果以每条评论为单位来进行产品特征评论语句来分类容易产生混淆。分句用Python语言及其扩展包实现。例：“这款手机质量好，就是价钱有点贵。” 对每一条评论语句进行分句处理，这样上面例句就将分为“这款手机质量好，”和“就是价钱有点贵。”两个句子，分别可以很好的表示“质量”与“价钱”这两个特征。评论数据预处理分词与词性标注：无论是产品的特征词还是情感观点词都需要通过分词从连续的句子中分离出来，而这些往往都是名词和形容词，所以分词之后对词性的标注将有利于我们识别这些词，这为之后的文本处理工作奠定了数据基础。与英文分词不同，中文词与词之间不能够严格的按照空格来区分，所以中文的分词工作需要利用某些方法来进行。本文采用python语言的jieba扩展包来分词。同时导入用户自定义词典，即存在于自定义词典中的词语不会被错误的分割，增加分词的准确性。例：“这款手机质量好，” 通过jieba分词和词性标注过后得到结果为：“这/r 款/q 手机/n 质量/n 好/a ，/w” 像“手机”“质量”都被标注为名词，“好”被标注为形容词。评论数据预处理去除停用词：文本中一些介词、量词、助词、标点符号等对文本研究无意义的词，需要剔除，所以我们还需要对这些评论语料进行停用词过滤和标点符号过滤。停用词和标点符号的过滤可以采用根据停用词表，用Python语言编写过滤程序，取出停用词。例：“这款手机质量好，” 在经过分词和词性标注后，对其进行停用词过滤，其结果为：“手机/n 质量/n 好/a”。指示代词“这”量词“款”和标点符号“，”就被过滤掉，留下的是可能成为产品特征和情感观点的词。返回 LDA模型获取产品特征值 LDA模型：一种非监督机器学习技术，可以用来识别大规模文档集（document collection）或语料库（corpus）中潜藏的主题信息。采用了词袋（bag of words）的方法，这种方法将每一篇文档视为一个词频向量，从而将文本信息转化为了易于建模的数字信息。但是词袋方法没有考虑词与词之间的顺序，这简化了问题的复杂性，同时也为模型的改进提供了契机。每一篇文档代表了一些主题所构成的一个概率分布，而每一个主题又代表了很多单词所构成的一个概率分布。 LDA模型获取产品特征值对于每一篇文档，LDA模型的生成步骤如下：首先选择一个N，N代表的是这篇文档的单词总数，N服从泊松分布，即N~Poisson(ξ)。选择θ，θ是一个列向量，代表的是这篇文档中每个主题发生的概率。θ服从狄利特雷分布，即θ~Dirichlet(α)分布，α是Dirichlet分布的参数。对于N各单词中的每一个：选择该单词属于的主题Zn，Zn服从Multinomial(θ)多项分布。选择Wn，Wn是根据有条件的概率分布p(Wn| Zn, β)产生的。β是一个K X V维的矩阵，其中βij= P(wi= 1 | zj= 1)（I = 1,2,3,…,K; j =