参考周末班06-hadoop01it18掌mahout7474.pptxVIP

下载本文档

5
0
约8.99千字
约 74页
2022-05-15 发布于北京
举报

参考周末班06-hadoop01it18掌mahout7474.pptx

Apache Mahout;kmean(均值)平均数。y = 1/n(x1 + x2 + .. + xn) median(中位数)排序后位于中间的数值。x1 x2 x3 --- x2x1 x2 x3 x4 --(x2 + x3)/ 2 mode(众数)出现次数最多的数值;range(极差)最大值和最小值之间的差。|max - min| variance(方差)一组数和指定数之间差的平方和的平均数.((X1 - X)^2 + (X2-X)^2 + ... + (Xn - X)^2 ) / n standard deviation(标准差)方差的平方根。;skewness(偏度)数据在均值两侧的偏差程度。对称分布:skewness=0,mean=median=mode左偏分布:skewness0,meanmedianmode右偏分布:skewness0,meanmedianmode Kertosis(峰度)曲线平滑或凸起的程度。Kertosis = 3 正态分布Kertosis 3 比正态凸起Kertosis 3 比正态平滑;从大量数据中提取知识假设检验、模式识别、人工智能、机器学习涵盖知识面数据库、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化等等;R、SAS、SPSS为实验室工具处理数据受内存限制，无法处理海量数据，单机能力 Oracle等数据库缺乏快速有效的分析功能抽样，但有局限性，聚类推荐无法抽样。解决办法Hadoop + mr;象夫，驱使大象的人。hadoop就是大象。mahout是apache开源框架，主要用来创建可伸缩的机器学习算法。实现了流行的机器学习技术。推荐分类聚类;算法在hadoop之上实现，在分布式环境下工作很好。mahout使用hadoop类库高效扩展到云中。 mahout提供了即时使用的框架用于大规模数据开采更加高效分析大规模数据集 Includes several MapReduce enabled clustering implementations such as k-means, fuzzy k-means, Canopy, Dirichlet, and Mean-Shift. ;支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现。包含矩阵和向量库;such as Adobe, Facebook, LinkedIn, Foursquare, Twitter, and Yahoo use Mahout internally. Foursquare 利用mahout推荐引擎帮助查找餐饮、娱乐等场所. tweeter使用他对用户兴趣建模 Yahoo使用他进行模式开采;Apache Mahout是一个高度可扩展的机器学习库，使开发人员能够使用优化算法。Mahout实现流行的机器学习技术，如推荐、分类和聚类。;什么是机器学习？机器学习是科学的一个分支，涉及编程系统，他们会自动学习和改进的经验。在这里，学习意味着认识和理解输入的数据。根据所提供的数据，并作出明智的决定。这些算法从特定的数据和过去的经验，统计，概率论，逻辑，组合优化，搜索，强化学习和控制理论的原则，建立知识。;什么是机器学习？开发的算法形成了各种应用的基础：视觉处理语言处理预测（例如，股票市场的趋势）模式识别游戏数据挖掘专家系统机器人;什么是机器学习？机器学习是一个广阔的领域。有几种方法来实现机器学习技术，但是最常用的是监督和无监督学习。;监督学习从可用的训练数据中处理学习功能。监督学习算法分析训练数据并产生一个推断的函数，用来映射新的案例。常见的监督学习有：电子邮件的垃圾分类按照内容标记网页声音识别;有许多监督学习算法，比如神经网络、支持向量机(SVM)以及朴素贝叶斯分类器。Mahout实现了朴素贝叶斯分类器。;非监督学习使用的是未被标签化的数据集。这对于分析可用数据以及找出模式和趋势是一个非常强大的工具。最常见应用就是类似于逻辑分组的聚类中。非监督学习的常见手段是： kmean 自我组织的map 层次聚类;推荐是非常流行的技术。基于之前的购买、点击和分级行为提供最接近的推荐。亚马逊使用该技术向你展示你可能感兴趣的商品列表，从过去的行为绘制你的信息。背后的推荐引擎捕捉用户行为并依据你的早期行为推荐商品。 facebook使用推荐技术区分或推荐你可能认识的人。;分类也叫类别化。利用已知的数据来判断新数据如何分类到一个类别集合中。分类是监督学习的一种形式。垃圾邮件的判定就是典型应用。;聚类是非监督学习。根据共同的特点对相似的数据进行聚簇。 Google和Yahoo使用聚类技术对数据进行分组。新闻组也使用聚类技术

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

参考周末班06-hadoop01it18掌mahout7474.pptxVIP