mahoutinaction中文版.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
mahoutinaction中文版

【译】mahout in action 1 初识Mahout 本章内容: .什么是mahout .初识推荐引擎,聚类,分类在现实生活 .建立mahout 你们可能已经从标题中猜出,这本书是关于一个特定的工具Mahout,在现实生活中使用。那么什么是mahout? Mahout是一个Apache的开源机器学习项目。该算法属于广阔的 “机器学习”,或“集体智慧的伞形结构。这就可以代表很多东西,但此时此刻,我们关心Mahout的主要部分是:协同过滤(CF)/推荐引擎 (recommender),聚类(clustering)和分类(classification)。 它具有很强的扩展性。当被处理的非常巨大的数据量,对单个机器来说可能太巨大以至于无法完成时,Mahout旨在成为处理数据的机器学习工具。在它当前的体现中,这些可扩展性的实现是用Java语言写成的,有些部分是建立在Apache Hadoop分布式计算项目上。 它是一个Java library。它不提供一个用户接口,一个预先的jar包服务,或安装文件。它是一个开发者用于使用和改装的工具的框架。 【译】mahout in action 6 分布式计算推荐器(Distributing Recommendation Computations) 博客分类: Hadoop算法Mapreduce 本章包括: 。从维基百科统计分析大量的数据 。编写在hadoop上使用的推荐器和分布式算法 。伪分布式存在非分布式的推荐器 我们越来越关注日益增长的数据,自从开始这本书:从10个选择,到100,000到1千万,和现在1.7千万。这里仍旧只有半成品在推荐领域。本章,我们将再次处理大量的数据,超过1.3亿的“偏好”在提交维基百科的文章到文章的连接选择。在这个数据集合,用户和项目都是条件约束,他们展示怎么推荐可以有效的实施针对较少的常见内容。 针对展示1.3亿“偏好”仍然是易于控制的大小,它是一个这样的刻度:换句话说我们过去看到的,对单机处理很麻烦的推荐器。我们将部署新的推荐算法,使用分布式计算着手处理基于MapReduce和hadoop 【译】mahout in action 6.1从维基百科统计分析大量的数据 出版W 维基百科()众所周知的在线百科全书,它的内容可以被用户编辑和维护。到2010年5月它的报导,仅仅用英语写 的文章超过了3.2M。估计Freebase Wikipedia Extraction项目(/wex/)的大小,仅仅英语文章超过4.2GB。作为web站 点,维基百科的文章可以使用和被连接到另外的文章里面。有这么一篇文章,它里面有很多形同兴趣的文章连接。我们将认为这些文章为“users”,和文章的 引用作为“items”,文章的来源为“likes” 幸运的,我们不在需要下载freebase百科的目录摘要和列出所有的连接。研究员亨利.哈塞格洛芙已经提前出所以文章和出版信息,位于 /~henry/home/wikipedia.htm.这将有利于过滤出连接的附件资源,例如文章的讨论页,图 片,等等。这些数据集合也可以根据数字id描述出文章,取代标题。这些更有帮助,针对Mahout研究所有的users和items使用数字id。 在继续之前,下载和提取links-simple-sorted.zip 【译】mahout in action 1.1 Mahout是否适合我 算法luceneHadoop搜索引擎项目管理 大家可能想知道,这个项目,这本身是否适合我? 如果你想找一本机器学习的教科书,那就不适合你。本书不是用来完全解释理论,算法的各种来历和技术展现。熟悉这些机器学习的方法和相关的概念,如matrix and vector math,这些知识在读这本书时都是很有用的。 如果你正在开发现代化的智能应用程序,这本书适合你。随着解决方法的完整示例,这本书提供了一个实用的而非理论的方式来处理这些技术。它开发了一些关于mahout如何部署来解决问题的方案,这些方案是由示范过程中有经验的学员收集的。 如果你是一个关于人工智能,机器学习以及相关领域的研究人员,适合你。可能你最大的障碍就是把新的算法应用到实践中。Mahout为检测和部署新的大型的算法提供了一个丰富的框架。这本书在复杂的分布式计算框架上运行机器学习系统是一个有效的引入人。 如果你是一个产品团队或系统启动项的领导,将会利用机器学习创造一个有竞争性的优势,那么这本书对你也是有用的。通过现实生活中的例子,将会产生关于这些技术可能被部署的许多方式的观点。它也会帮助你的碎片技术团队直接形成一个低成本的实施,这可以处理大量的以前数据,这些数据只对拥有大型技术资 源的组织是很现实的。 最后,你可能想知道怎

文档评论(0)

yaobanwd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档