机器学习总结..docx

  1. 1、本文档共36页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
机器学习总结.

目录前言2Naive Bayes2Linear Regression Logistic Regression3Bias-variance trade-off Regularization5SVM8Optimization13EM15Mixtures of Gaussians16ME17HMM18MEMM21CRF22Decision Tree23ID324C4.524CART24Model Tree24Model Combination26Bagging27Random Forest28Boosting28AdaBoost28Feature Selection29KNN29KD Tree30PCA SVD31Collaborative filtering33CF as supervised learning34CF as matrix factorization35前言花了将近四个月时间,终于把机器学习最基本的东西大致过了一遍了,这中间还包括一个多月的时间用于复习数学了(坑爹啊),很久没有花这么大的精力学一样东西了,很高兴的是,在比较深入的去了解后,我还没有对机器学习失去兴趣,这至少说明,这个东西是真真正正吸引我的。这阵子杂七杂八的看了不少东西,为了避免以后全还回去了,我决定一边复习一边写个总结,把这些七七八八的东西都塞一块儿吧。这里涵盖了绝大多数我学过的机器学习相关的东西,有一些算法可能被我略过去了,比如k-means,层次聚类,Apriori等,冠冕堂皇的原因是这些算法比较简单,相信不那么容易忘记,其实真正的原因是写到最后实在疲了,懒得继续了-_-!。我最初对机器学习产生兴趣是源于吴军博士的《数学之美》,不能不说这本书实在是真好,反正我是结结实实的上套了,另外一个比较幸运的事情是,在我刚决定学习机器学习时,正好有一家叫“培乐园”的针对互联网高端技术的培训机构开张了,我也有幸成为了第一批学员,不得不说培乐园在机器学习方面对我的影响和《数学之美》一样巨大,正是蒋龙老师的课程让我了解了机器学习的框架,从而在后面的学习中不至于像无头苍蝇似的到处乱撞,另外,Andrew Ng和龙星计划的机器学习课程对我帮助也都非常的大,感谢这些无私分享的老师们!最后,作为机器学习的菜鸟,我只能说,路漫漫其修远兮,努力吧!Kejunkjliue@Naive BayesNB是基于贝叶斯定理和条件独立性假设的分类器,贝叶斯定理简单的说就是已知条件概率p(x|y)和先验概率p(y)的情况下求p(y|x)的方法,因为有些时候计算p(x|y)和p(y)比较容易,而计算p(y|x)很困难,这时候就可以通过贝叶斯定理将困难的问题转化为简单问题解决,从另一个角度看,贝叶斯定理也可以理解为通过生成模型p(x, y)求解判别模型p(y|x)的方法,这里就必须提到条件独立性假设了,因为NB是生成模型,也就是对联合概率分布p(x,y)= p(x|y) *p(y)建模,由于x的结构一般很复杂,直接建模会很困难,因此几乎所有的生成模型都对x的结构做了一定的假设,NB做的假设是在给定y的前提下,x的各个feature是条件独立的(非常强的假设,也许这就是该分类器名字里naive的来历吧),这样就可以很容易的将p(x|y)分解为x的各个feature条件概率的乘积。NB的模型学习采用MLE,这里有一个0概率问题,就是如果训练数据中某个(feature,y)的组合没有出现过的话,所有包含该feature的x属于类y概率会变为0,这显然不合理,一种最简单的平滑方式是Laplace平滑(即+1平滑,分子加1,分母加上分子可能取值的个数),这样平滑后的p(feature|y)仍然是一个概率分布,或者可以引入一些先验知识,比如,采用如下的公式:(weight*assumedprob+count*prob) / count + weight,这里weight和assumedprob对应的是先验知识,而count是训练样本总数,prob是调整前的条件概率p(feathre|y)。对条件概率p(feature|y)的估计,当feature取值为离散值时,只需要简单的统计训练样本中的频率即可,当feature取值为连续值时,有两种处理方案:1、计算给定y时feature的均值和方差,得到概率密度。2、将连续值切分为多个区间,也就是将特征离散化,这样估计方法就和离散值一样了。NB有很多优点,训练简单,模型易于解释,不容易overfitting,在小数据集上也能工作的相当不错,缺点就是条件独立性假设似乎过强了一些,导致精度可能没有其它分类器高。Linear Regression Logistic RegressionLinear Regression其实就是用一条函数曲线去拟合一组数据,Regr

文档评论(0)

sdgr + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档