WEKA 进行数据挖掘,第 3 部分 最近邻 与服务器端库.docVIP

WEKA 进行数据挖掘,第 3 部分 最近邻 与服务器端库.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
WEKA 进行数据挖掘,第 3 部分 最近邻 与服务器端库

WEKA 进行数据挖掘,第 3 部分 最近邻 和服务器端库 简介 在这个用WEKA进行数据挖掘系列之前的两篇文章中,我介绍了数据挖掘的概念。如果您还未曾阅读过用WEKA进行数据挖掘,第1部分:简介和回归和用WEKA进行数据挖掘,第2部分:分类和群集,那么请先阅读这两个部分,因为二者涵盖了一些在继续之前必须了解的关键概念。而且更重要的是,在这两个部分中我谈及了数据挖掘中常用的三种技术,它们可以将难以理解的无用数据转变为有意义的规则和趋势。第一种技术是回归,用来基于其他的示例数据预测一个数值输出(比如房屋价值)。第二种技术是分类(即分类树或决策树),用来创建一个实际的分支树来预测某个未知数据点的输出值。(在我们的例子中,我们预测的是对BMW促销活动的反应。)我介绍的第三种技术是群集,可用它来创建数据组(群集)并从中识别出趋势和其他规则(在我们的例子中,即BMW的销售)。三者的相似点在于它们都能将数据转换成有用信息,但它们各自的实现方法以及使用的数据各不相同,而这正是数据挖掘最为重要的一点:正确的模型必须用于正确的数据。 本文将讨论四种常用的数据挖掘技术中的最后一种:最近邻。您将看到它更像是分类与群集的组合,并为我们消灭数据误导的使命提供了另一种有用的武器。 在我们之前的文章中,我们将WEKA用作一种独立的应用程序。那么它在实际中能多有用呢?很显然,它并不完美。由于WEKA是一种基于Java的应用程序,它有一个可被用在我们自己的服务器端代码中的Java库。对于大多数人而言,这可能是最为常见的用法,因为您可以编写代码来不断地分析您的数据并动态地做出调整,而不必依赖他人提取数据、将其转换成WEKA格式,然后再在WEKAExplorer内运行它。 回页首 最近邻 最近邻(也即CollaborativeFiltering或Instance-basedLearning)是一种非常有用的数据挖掘技术,可用来用输出值已知的以前的数据实例来预测一个新数据实例的未知输出值。从目前的这种描述看来,最近邻非常类似于回归和分类。那么它与这二者究竟有何不同呢?首先,回归只能用于数值输出,这是它与最近邻的最直接的一个不同点。分类,如我们在前一篇文章的例子中看到的,使用每个数据实例来创建树,我们需要遍历此树才能找到答案。而这一点对于某些数据而言会是一个很严重的问题。举个例子,亚马逊这样的公司常常使用购买了X的顾客还购买了Y特性,如果亚马逊拟创建一个分类树,那么它将需要多少分支和节点?它的产品多达数十万。这个树将有多巨大呀?如此巨大的一个树能有多精确呢?即便是单个分支,您都将会惊讶地发现它只有三个产品。亚马逊的页面通常会有12种产品推荐给您。对于这类数据,分类树是一种极不适合的数据挖掘模型。 而最近邻则可以非常有效地解决所有这些问题,尤其是在上述亚马逊的例子中遇到的这些问题。它不会受限于数量。它的伸缩性对于20个顾客的数据库与对于2000万个顾客的数据库没有什么差异,并且您可以定义您想要得到的结果数。看起来是一个很棒的技术!它的确很棒-并且可能对于那些正在阅读本文的电子商务店铺的店主最为有用。 让我们先来探究一下最近邻背后的数学理论,以便能更好地理解这个过程并了解此技术的某些限制。 最近邻背后的数学理论 最近邻技术背后的数学理论非常类似于群集技术所涉及到的数学理论。对于一个未知的数据点,这个未知数据点与每个已知数据点之间的距离需要被计算出来。如果用电子数据表计算此距离将会非常繁琐,而一个高性能的计算机则可以立即完成这些计算。最容易也是最为常见的一种距离计算方式是NormalizedEuclidianDistance。它看起来复杂,实则不然。让我们通过一个例子来弄清楚第5个顾客有可能会购买什么产品? 清单1.最近邻的数学理论 CustomerAgeIncomePurchasedProduct14546kBook239100kTV33538kDVD469150kCarCover55851k?Step1:DetermineDistanceFormulaDistance=SQRT(((58-Age)/(69-35))^2)+((51000-Income)/(150000-38000))^2)Step2:CalculatetheScoreCustomerScorePurchasedProduct1.385Book2.710TV3.686DVD4.941CarCover50.0? 如果使用最近邻算法回答我们上面遇到的第5个顾客最有可能购买什么产品这一问题,答案将是一本书。这是因为第5个顾客与第1个顾客之间的距离要比第5个顾客与其他任何顾客之间的距离都短(实际上是短很多)。基于这个模型,可以得出这样的结论:由最像第5个顾客的顾客可以预测出第5个顾客的行为。 不过,最近邻的好处

文档评论(0)

erterye + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档