基于淘宝开放平台的商品评价分类研究.doc

下载文档 降价啦

22
0
约3.72万字
约 47页
2019-05-13 发布于安徽
举报
版权申诉
保障服务

基于淘宝开放平台的商品评价分类研究.doc

1、本文档共47页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

内蒙古科技大学硕士学位论文 1 绪论研究背景和选题的意义淘宝网（）在中国是最深受欢迎的网络购物平台，目前拥有超过 6 亿的注册用户数，有超过 7000 万人/每天的固定访客数量，每天有超过 8 亿件商品在线出售并且平均每分卖出超过 5 万件商品。淘宝网一直努力在做能够提供基础服务的平台，上至世界知名的大品牌商家，下至最普通的淘宝小用户都可以在淘宝网上面注册开店[1]。这样降低了进入淘宝卖家行列的门槛，但是也带来了一些问题。淘宝网里的商家鱼龙混杂，所提供商品的数量及种类也是相当繁多，正品和假货仅通过商家描述根本无法正确分辨。在这样的环境之下，想去找到一件物美价廉的商品就变成了一件相对比较困难的事情。现在，互联网已经逐渐演变成为一个非常大的开放环境的平台，很多优秀的网站为开发者免费开放很多 API 接口，开发者通过 API 接口调用数据，可以根据市场需要开发出需要不同功能的应用软件，从而满足开发者以及很多追求个性化服务的人们的需求。淘宝网就是这样一个网站，它通过自己的开放平台向开发者提供许多 API 接口，通过这些接口开发者可以获取淘宝商品的各种信息（名称、类目、型号、介绍等等）、淘宝商品类目信息（全淘宝商品索引及分类明细）、淘宝商品评价信息（在取得用户授权的情况下，查询卖家获得的评价信息）等等，并建立相应的电子商务应用[2]。课题的目的随着淘宝网的不断发展，商品销量的不断增加，买家对商品及其卖家发表的大量的评价信息不像过去那么容易被捕捉。有些销量较好的淘宝商品在 30 天内会有几千甚至上万件的销量，买家留下的评价信息少则上千条，有的甚至多达几万条。这些评价中包含着消费者对所购买的商品的质量方面、物流方面以及卖家服务方面等因素的感受，大量关于不同方面的评价信息混杂在一起，非常的杂乱无章，这就对买家的阅读和信息的获取造成了很大的麻烦，人工阅读费时费力，而且很难过滤出自己最想知道的相关产品的信息，大量有用的信息会被遗漏掉，效果肯定不会很好。商品评价中包含的属性如图所示。 -1- 内蒙古科技大学硕士学位论文商品质量服务物流做工款式态度售后发货物流图 1.1 淘宝商品评价中包含的商品信息淘宝商品的评价大都存在信息数量巨大，包含商品多项指标的特点。有些好评是因为卖家服务态度较好或者队发货以及物流的速度比较满意，但是对商品本身并不满意；有些差评则是因为物流太慢或者卖家服务态度不好等等原因。差评并不一定说明商品质量必然存在问题，而好评也不一定说明商品质量没有问题。这就对消费者通过评价了解产品造成了困难。如何将所有的评价按照消费者最关注的几个方面进行分类或者将大量非结构化的文本整合成结构化的、直观的、数值型的内容，让用户使用时一目了然，这就是本课题的目标所在。课题的意义（1）软件开发者通过淘宝开放平台提供的开放 API，可以自由构建出不同应用的软件，从而满足人们个性化的需求。但是由于评价 API 接口获取的评价信息是无结构化、杂乱无序的，这使得开发者开发出的关于商品评价的软件具有了很大的局限性。本课题对淘宝商品评价信息按照不同属性进行分类，可以方便软件开发者构建出功能更加完善的程序和软件。（2）帮助买家购买适合自己的产品。许多淘宝网的资深买家在有意向购买某件商品之前，一般都会通过该商品之前的购买者留下的相关评价了解该商品的各个方面的具体信息，了解商品的优缺点，最后决定是否值得购买，这就使购物更加的科学。（3）帮助卖家发现商品的不足，提供更具竞争力的商品。商品评价分类能展示出商品受买家关注的各项指标属性，及时发现所售商品存在的问题，提高卖家的市场竞争力。 -2- 内蒙古科技大学硕士学位论文研究的现状和存在问题评价信息挖掘近几年来在自然语言处理领域内成为最热点的课题之一，在中文以及英文的相关领域都取得了快速的发展和长足的进步[3~5] 然而目前的相关研究领域主要都是研究关于文本情感倾向以及如何提取情感特征词，对于商品特征词提取的相关算法的研究还是很少的。近几年对于文本情感倾向和情感特征词提取的研究有很大的发展，如 Turney 算法[2,6]，它通过算法将评价文本分成褒义和贬义两大类。在评价信息文本中，能够对语义情感倾向性有影响的主要是形容词、名词、副词。对于语义的平均倾向性如果为负的话，就把这条评价信息文本归类为贬义，反之就把其归类为褒义。Turney 使用 PMI‐IR 算法计算情感短语模型或者其他相关词语在 “poor”以及“excellent”之间的差值来判断这个短语模型或者词语的情感倾向性。目前其实也已经有很多文本情感倾向的知识库或者应用词库可以供我们使用，比如 SM Kim 和 E Hovy 建立的