- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
數据挖掘在淘宝卖家评论中的应用
电子商务客户评论的有效性及其引导分析
摘 要:许多电子商务网站(如B2C商城淘宝网)为买家提供了对所购商品进行评论的平台,该平台为买家创造了了解商品、信息交流、接收反馈信息等的机会。同时,买家可以通过对这些评论的参考,充分利用其中的有效信息来引导自己对该商品的购买,同时也可以保障购买质量。然而,在大量的买家评论中,一定会存在一些重复冗余的信息。在当今电子商务高度发展的环境下,买家若是能够从这些大量评论中进行筛选,找出有效的评论从而引导自己更好地购买商品,这将大大保证购买的质量,同时也在无形中引导自己给该商品的交易做出恰当实际的评价。这篇文章旨在以淘宝网为例子,分析其买家的评论,教大家如何辨别有效评论并引导潜在客户对该商品的购买。提出一种挖掘新颖信息的算法,并分析了算法的可行性以及有效性。
关键词:电子商务 淘宝网 买家评论 潜在客户 有效信息
前 言
随着互联网商业化的迅速发展,电子商务网站大量涌现,市场竞争日趋激烈。网站经营者需要知道网站受用户欢迎的程度,用户们如何使用该网站,网站的成功与不足之处,并找到进一步改善的方法。网站投资者需要了解网站的运营状况、品牌实力和发展潜力等,评估网站的价值,以便作出投资决策。消费者需要了解如何寻找最好的网站,以获得最好的服务和最大的价值。解决这些问题就必须采用合适的标尺和方法来评估网站。因此,电子商务网站评价的强烈社会需求促使网站评价的研究和实践活动蓬勃发展起来。本文拟对电子商务网站评价研究与应用进行分析,以利于进一步推动这一研究的深入开展和促进电子商务网站评价应用更健康地发展。电子商务网站评价是指根据一定的评价方法和评价内容与指标对电子商务网站运行状况和工作质量进行评估。作为电子商务市场发展和完善的重要推动力量,电子商务网站评价不仅使自身得到快速发展,并且通过评价活动促进电子商务网站的整体水平和质量的提高,监督和促进电子商务网站经营规范和完善,从而推动电子商务的健康发展。电子商务网站评价能够在一定程度上解决商务网站和顾客之间的信息不对称问题。顾客可以根据中立的网站评价结果,获得可靠的各个商务网站的评价信息,从而降低信息搜寻成本,并且有助于更方便、更迅速地选择合适的网站进行商务活动或获得最好的服务。例如,在网上购物方面,消费者利用网站评分结果,就可以从产品的价格、质量,网上商店的特别优惠措施等各方面比较不同的网上商店,从而使消费者能够根据自己的需要找到最合适的网站,并能买到价廉物美的产品
图1 新颖信息挖掘模型
本文中,所有买家的评论将被人为地分为三类:质量、价格与物流供应。因此,我们所关注的是预处理与新颖信息挖掘这两个阶段。
1.2 挖掘算法
文献[6]介绍了新颖信息挖掘算法的两种基本思想,即“一对一比较”与“多对一比较”。本文是基于“一对一比较”这一思想,即通过当前评论记录与其之前每一条记录相比较,获得该条记录的新颖度,然后与预先给定的一个阈值相比较,若小于,则认为该条评论记录是冗余的,否则是新颖的。在写出挖掘算法步骤之前,先介绍几个基本概念。(设数据库中已存放CN条买家评论数据记录)
新颖信息挖掘的算法步骤如下:
给定阈值与n个关键词;
浏览数据库中的第i条评论记录,由(1)式算出第j个关键词在i中的权重(i=1,2,…,CN,j=1,2,…,n);
由(2)式算出第i条记录与其之前的每一条记录的相似度(i=1,2,…,CN);
由(3)式计算出第i条记录的新颖度(i=1,2,…,CN);
根据“一对一比较”这一思想,确定第i条记录是否冗余(i=1,2,…,CN).
1.3 算法的可行性和有效性分析
文献[7]给出了用F值法来衡量新颖信息挖掘算法的可行性以及有效性。在统计学中,F值法广泛应用于信息检索、文件分类以及查询分类等领域。F值的表达式如下:
查准率、查全率以及F值是用来衡量挖掘模型检测新颖信息效率的三个指标,而文献[8]给出了另外三个指标,分别是——冗余查准率(RP)、冗余查全率(RR)以及冗余F值(RF),这三个指标从冗余信息的角度来分析新颖信息挖掘算法的可行性与有效性。冗余查准率和冗余查全率定义如下:
定义了冗余查准率与冗余查全率之后,下面给出冗余F值(RF)的表达式:
实 例
本文所需数据来源于淘宝网上一家手机店铺在2010年内所收到的1269条买家评论记录,将其存放为SQL server 2005中的一张表——comments。在存放数据库里之前,我们人为地将数据分为三类:质量类(标记为1)、价格类(标记为2)与物流供应类(标记为3)。comments包括以下5列:buyerId(买家账号),buyerStar(买家星级),content(评论内容),catid(所属类别),dateTime(评论时间
文档评论(0)