数据挖掘在淘宝卖家评论中的应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在淘宝卖家评论中的应用

电子商务客户评论的有效性及其引导分析 摘 要:许多电子商务网站(如B2C商城淘宝网)为买家提供了对所购商品进行评论的平台,该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时,买家可以通过对这些评论的参考,充分利用其中的有效信息来引导自己对该商品的购买,同时也可以保障购买质量。然而,在大量的买家评论中,一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下,买家若是能够从这些大量评论中进行筛选,找出有效的评论从而引导自己更好地购买商品,这将大大保证购买的质量,同时也在无形中引导自己给该商品的交易做出恰当实际的评价。这篇文章旨在以淘宝网为例子,分析其买家的评论,教大家如何辨别有效评论并引导潜在客户对该商品的购买。提出一种挖掘新颖信息的算法,并分析了算法的可行性以及有效性。 关键词:电子商务 淘宝网 买家评论 潜在客户 有效信息 前 言 随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。网站经营者需要知道网站受用户欢迎的程度,用户们如何使用该网站,网站的成功与不足之处,并找到进一步改善的方法。网站投资者需要了解网站的运营状况、品牌实力和发展潜力等,评估网站的价值,以便作出投资决策。消费者需要了解如何寻找最好的网站,以获得最好的服务和最大的价值。解决这些问题就必须采用合适的标尺和方法来评估网站。因此,电子商务网站评价的强烈社会需求促使网站评价的研究和实践活动蓬勃发展起来。本文拟对电子商务网站评价研究与应用进行分析,以利于进一步推动这一研究的深入开展和促进电子商务网站评价应用更健康地发展。电子商务网站评价是指根据一定的评价方法和评价内容与指标对电子商务网站运行状况和工作质量进行评估。作为电子商务市场发展和完善的重要推动力量,电子商务网站评价不仅使自身得到快速发展,并且通过评价活动促进电子商务网站的整体水平和质量的提高,监督和促进电子商务网站经营规范和完善,从而推动电子商务的健康发展。 电子商务网站评价能够在一定程度上解决商务网站和顾客之间的信息不对称问题。顾客可以根据中立的网站评价结果,获得可靠的各个商务网站的评价信息,从而降低信息搜寻成本,并且有助于更方便、更迅速地选择合适的网站进行商务活动或获得最好的服务。例如,在网上购物方面,消费者利用网站评分结果,就可以从产品的价格、质量,网上商店的特别优惠措施等各方面比较不同的网上商店,从而使消费者能够根据自己的需要找到最合适的网站,并能买到价廉物美的产品 21世纪是电子商务高度发展的时代,作为亚太地区最大网络零售商的淘宝网,占据着中国80%以上的网购市场份额。因此,对淘宝网的研究无论是从理论上还是现实上都具有重大意义。本文研究的出发点就是针对淘宝商品的大量买家评论数据。 一般顾客在淘宝店铺购买商品之后,都会在评论平台上发表一下对所购商品的看法,而这些评论对潜在买家而言无疑是一笔财富。倘若买家能够从这些评论中迅速挖掘出真实可靠的有效信息,势必会对自己的购买行为产生极大帮助。 新颖信息挖掘 1.1 挖掘模型 新颖信息挖掘就是从文本中挖掘出读者所关心的、有用的、新颖的信息,该技术在冗余信息过滤领域有着广泛的应用[5]。新颖信息挖掘模型主要由三个部分组成,即预处理、分类和新颖信息挖掘(如图1所示)。当某一位买家的评论输入到模型中后,首先借助机器学习方法进行预处理;预处理之后进入分类阶段,该阶段的主要任务就是借助事先给定的主题(或关键字)来过滤不相关的评论;最后进入新颖信息挖掘阶段,该阶段的任务就是通过和历史记录做对比,判断该条评论是否是新颖的。 图1 新颖信息挖掘模型 本文中,所有买家的评论将被人为地分为三类:质量、价格与物流供应。因此,我们所关注的是预处理与新颖信息挖掘这两个阶段。 1.2 挖掘算法 文献[6]介绍了新颖信息挖掘算法的两种基本思想,即“一对一比较”与“多对一比较”。本文是基于“一对一比较”这一思想,即通过当前评论记录与其之前每一条记录相比较,获得该条记录的新颖度,然后与预先给定的一个阈值相比较,若小于,则认为该条评论记录是冗余的,否则是新颖的。在写出挖掘算法步骤之前,先介绍几个基本概念。(设数据库中已存放CN条买家评论数据记录) 新颖信息挖掘的算法步骤如下: 给定阈值与n个关键词; 浏览数据库中的第i条评论记录,由(1)式算出第j个关键词在i中的权重(i=1,2,…,CN,j=1,2,…,n); 由(2)式算出第i条记录与其之前的每一条记录的相似度(i=1,2,…,CN); 由(3)式计算出第i条记录的新颖度(i=1,2,…,CN); 根据“一对一比较”这一思想,确定第i条记录是否冗余(i=1,2,…,CN). 1.3 算法的可行性和有效性分析 文献[7]给出了用F值法来衡量新颖信息挖掘

文档评论(0)

sb250103 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档