参考周末班06-hadoop01it18掌mahout7474.pptxVIP

  • 5
  • 0
  • 约8.99千字
  • 约 74页
  • 2022-05-15 发布于北京
  • 举报
Apache Mahout;kmean(均值) 平均数。 y = 1/n(x1 + x2 + .. + xn) median(中位数) 排序后位于中间的数值。 x1 x2 x3 --- x2 x1 x2 x3 x4 --(x2 + x3)/ 2 mode(众数) 出现次数最多的数值;range(极差) 最大值和最小值之间的差。 |max - min| variance(方差) 一组数和指定数之间差的平方和的平均数. ((X1 - X)^2 + (X2-X)^2 + ... + (Xn - X)^2 ) / n standard deviation(标准差) 方差的平方根。 ;skewness(偏度) 数据在均值两侧的偏差程度。 对称分布:skewness=0,mean=median=mode 左偏分布:skewness0,meanmedianmode 右偏分布:skewness0,meanmedianmode Kertosis(峰度) 曲线平滑或凸起的程度。 Kertosis = 3 正态分布 Kertosis 3 比正态凸起 Kertosis 3 比正态平滑 ;从大量数据中提取知识 假设检验、模式识别、人工智能、机器学习 涵盖知识面 数据库、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化等等 ;R、SAS、SPSS为实验室工具 处理数据受内存限制,无法处理海量数据,单机能力 Oracle等数据库缺乏快速有效的分析功能 抽样,但有局限性,聚类推荐无法抽样。 解决办法Hadoop + mr;象夫,驱使大象的人。hadoop就是大象。 mahout是apache开源框架,主要用来创建可伸缩的机器学习算法。实现了流行的机器学习技术。 推荐 分类 聚类;算法在hadoop之上实现,在分布式环境下工作很好。mahout使用hadoop类库高效扩展到云中。 mahout提供了即时使用的框架用于大规模数据开采 更加高效分析大规模数据集 Includes several MapReduce enabled clustering implementations such as k-means, fuzzy k-means, Canopy, Dirichlet, and Mean-Shift. ;支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现。 包含矩阵和向量库;such as Adobe, Facebook, LinkedIn, Foursquare, Twitter, and Yahoo use Mahout internally. Foursquare 利用mahout推荐引擎帮助查找餐饮、娱乐等场所. tweeter使用他对用户兴趣建模 Yahoo使用他进行模式开采;Apache Mahout是一个高度可扩展的机器学习库,使开发人员能够使用优化算法。Mahout实现流行的机器学习技术,如推荐、分类和聚类。;什么是机器学习? 机器学习是科学的一个分支,涉及编程系统,他们会自动学习和改进的经验。在这里,学习意味着认识和理解输入的数据。根据所提供的数据,并作出明智的决定。这些算法从特定的数据和过去的经验,统计,概率论,逻辑,组合优化,搜索,强化学习和控制理论的原则,建立知识。 ;什么是机器学习? 开发的算法形成了各种应用的基础: 视觉处理 语言处理 预测(例如,股票市场的趋势) 模式识别 游戏 数据挖掘 专家系统 机器人;什么是机器学习? 机器学习是一个广阔的领域。有几种方法来实现机器学习技术,但是最常用的是监督和无监督学习。;监督学习从可用的训练数据中处理学习功能。监督学习算法分析训练数据并产生一个推断的函数,用来映射新的案例。常见的监督学习有: 电子邮件的垃圾分类 按照内容标记网页 声音识别;有许多监督学习算法,比如神经网络、支持向量机(SVM)以及朴素贝叶斯分类器。Mahout实现了朴素贝叶斯分类器。;非监督学习使用的是未被标签化的数据集。这对于分析可用数据以及找出模式和趋势是一个非常强大的工具。最常见应用就是类似于逻辑分组的聚类中。非监督学习的常见手段是: kmean 自我组织的map 层次聚类;推荐是非常流行的技术。基于之前的购买、点击和分级行为提供最接近的推荐。 亚马逊使用该技术向你展示你可能感兴趣的商品列表,从过去的行为绘制你的信息。背后的推荐引擎捕捉用户行为并依据你的早期行为推荐商品。 facebook使用推荐技术区分或推荐你可能认识的人。;分类也叫类别化。利用已知的数据来判断新数据如何分类到一个类别集合中。分类是监督学习的一种形式。 垃圾邮件的判定就是典型应用。 ;聚类是非监督学习。根据共同的特点对相似的数据进行聚簇。 Google和Yahoo使用聚类技术对数据进行分组。 新闻组也使用聚类技术

文档评论(0)

1亿VIP精品文档

相关文档