- 5
- 0
- 约8.99千字
- 约 74页
- 2022-05-15 发布于北京
- 举报
Apache Mahout;kmean(均值)平均数。y = 1/n(x1 + x2 + .. + xn)
median(中位数)排序后位于中间的数值。x1 x2 x3 --- x2x1 x2 x3 x4 --(x2 + x3)/ 2
mode(众数)出现次数最多的数值;range(极差)最大值和最小值之间的差。|max - min|
variance(方差)一组数和指定数之间差的平方和的平均数.((X1 - X)^2 + (X2-X)^2 + ... + (Xn - X)^2 ) / n
standard deviation(标准差)方差的平方根。;skewness(偏度)数据在均值两侧的偏差程度。对称分布:skewness=0,mean=median=mode左偏分布:skewness0,meanmedianmode右偏分布:skewness0,meanmedianmode
Kertosis(峰度)曲线平滑或凸起的程度。Kertosis = 3 正态分布Kertosis 3 比正态凸起Kertosis 3 比正态平滑;从大量数据中提取知识
假设检验、模式识别、人工智能、机器学习
涵盖知识面数据库、统计、机器学习、高性能计算、模式识别、神经网络、数据可视化等等;R、SAS、SPSS为实验室工具
处理数据受内存限制,无法处理海量数据,单机能力
Oracle等数据库缺乏快速有效的分析功能
抽样,但有局限性,聚类推荐无法抽样。
解决办法Hadoop + mr;象夫,驱使大象的人。hadoop就是大象。mahout是apache开源框架,主要用来创建可伸缩的机器学习算法。实现了流行的机器学习技术。
推荐
分类
聚类;算法在hadoop之上实现,在分布式环境下工作很好。mahout使用hadoop类库高效扩展到云中。
mahout提供了即时使用的框架用于大规模数据开采
更加高效分析大规模数据集
Includes several MapReduce enabled clustering implementations such as k-means, fuzzy k-means, Canopy, Dirichlet, and Mean-Shift. ;支持分布式朴素贝叶斯和互补朴素贝叶斯分类实现。
包含矩阵和向量库;such as Adobe, Facebook, LinkedIn, Foursquare, Twitter, and Yahoo use Mahout internally.
Foursquare 利用mahout推荐引擎帮助查找餐饮、娱乐等场所.
tweeter使用他对用户兴趣建模
Yahoo使用他进行模式开采;Apache Mahout是一个高度可扩展的机器学习库,使开发人员能够使用优化算法。Mahout实现流行的机器学习技术,如推荐、分类和聚类。;什么是机器学习?
机器学习是科学的一个分支,涉及编程系统,他们会自动学习和改进的经验。在这里,学习意味着认识和理解输入的数据。根据所提供的数据,并作出明智的决定。这些算法从特定的数据和过去的经验,统计,概率论,逻辑,组合优化,搜索,强化学习和控制理论的原则,建立知识。;什么是机器学习?开发的算法形成了各种应用的基础:视觉处理语言处理预测(例如,股票市场的趋势)模式识别游戏数据挖掘专家系统机器人;什么是机器学习?机器学习是一个广阔的领域。有几种方法来实现机器学习技术,但是最常用的是监督和无监督学习。;监督学习从可用的训练数据中处理学习功能。监督学习算法分析训练数据并产生一个推断的函数,用来映射新的案例。常见的监督学习有:
电子邮件的垃圾分类
按照内容标记网页
声音识别;有许多监督学习算法,比如神经网络、支持向量机(SVM)以及朴素贝叶斯分类器。Mahout实现了朴素贝叶斯分类器。;非监督学习使用的是未被标签化的数据集。这对于分析可用数据以及找出模式和趋势是一个非常强大的工具。最常见应用就是类似于逻辑分组的聚类中。非监督学习的常见手段是:
kmean
自我组织的map
层次聚类;推荐是非常流行的技术。基于之前的购买、点击和分级行为提供最接近的推荐。
亚马逊使用该技术向你展示你可能感兴趣的商品列表,从过去的行为绘制你的信息。背后的推荐引擎捕捉用户行为并依据你的早期行为推荐商品。
facebook使用推荐技术区分或推荐你可能认识的人。;分类也叫类别化。利用已知的数据来判断新数据如何分类到一个类别集合中。分类是监督学习的一种形式。
垃圾邮件的判定就是典型应用。;聚类是非监督学习。根据共同的特点对相似的数据进行聚簇。
Google和Yahoo使用聚类技术对数据进行分组。
新闻组也使用聚类技术
原创力文档

文档评论(0)