机器学习总结..docxVIP

下载本文档

96
0
约3.06万字
约 36页
2017-01-13 发布于重庆
举报
版权申诉

机器学习总结..docx

1、本文档共36页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

机器学习总结.

目录前言2Naive Bayes2Linear Regression Logistic Regression3Bias-variance trade-off Regularization5SVM8Optimization13EM15Mixtures of Gaussians16ME17HMM18MEMM21CRF22Decision Tree23ID324C4.524CART24Model Tree24Model Combination26Bagging27Random Forest28Boosting28AdaBoost28Feature Selection29KNN29KD Tree30PCA SVD31Collaborative filtering33CF as supervised learning34CF as matrix factorization35前言花了将近四个月时间，终于把机器学习最基本的东西大致过了一遍了，这中间还包括一个多月的时间用于复习数学了（坑爹啊），很久没有花这么大的精力学一样东西了，很高兴的是，在比较深入的去了解后，我还没有对机器学习失去兴趣，这至少说明，这个东西是真真正正吸引我的。这阵子杂七杂八的看了不少东西，为了避免以后全还回去了，我决定一边复习一边写个总结，把这些七七八八的东西都塞一块儿吧。这里涵盖了绝大多数我学过的机器学习相关的东西，有一些算法可能被我略过去了，比如k-means，层次聚类，Apriori等，冠冕堂皇的原因是这些算法比较简单，相信不那么容易忘记，其实真正的原因是写到最后实在疲了，懒得继续了-_-!。我最初对机器学习产生兴趣是源于吴军博士的《数学之美》，不能不说这本书实在是真好，反正我是结结实实的上套了，另外一个比较幸运的事情是，在我刚决定学习机器学习时，正好有一家叫“培乐园”的针对互联网高端技术的培训机构开张了，我也有幸成为了第一批学员，不得不说培乐园在机器学习方面对我的影响和《数学之美》一样巨大，正是蒋龙老师的课程让我了解了机器学习的框架，从而在后面的学习中不至于像无头苍蝇似的到处乱撞，另外，Andrew Ng和龙星计划的机器学习课程对我帮助也都非常的大，感谢这些无私分享的老师们！最后，作为机器学习的菜鸟，我只能说，路漫漫其修远兮，努力吧！Kejunkjliue@Naive BayesNB是基于贝叶斯定理和条件独立性假设的分类器，贝叶斯定理简单的说就是已知条件概率p(x|y)和先验概率p(y)的情况下求p(y|x)的方法，因为有些时候计算p(x|y)和p(y)比较容易，而计算p(y|x)很困难，这时候就可以通过贝叶斯定理将困难的问题转化为简单问题解决，从另一个角度看，贝叶斯定理也可以理解为通过生成模型p(x, y)求解判别模型p(y|x)的方法，这里就必须提到条件独立性假设了，因为NB是生成模型，也就是对联合概率分布p(x,y)= p(x|y) *p(y)建模，由于x的结构一般很复杂，直接建模会很困难，因此几乎所有的生成模型都对x的结构做了一定的假设，NB做的假设是在给定y的前提下，x的各个feature是条件独立的（非常强的假设，也许这就是该分类器名字里naive的来历吧），这样就可以很容易的将p(x|y)分解为x的各个feature条件概率的乘积。NB的模型学习采用MLE，这里有一个0概率问题，就是如果训练数据中某个(feature,y)的组合没有出现过的话，所有包含该feature的x属于类y概率会变为0，这显然不合理，一种最简单的平滑方式是Laplace平滑（即+1平滑，分子加1，分母加上分子可能取值的个数），这样平滑后的p(feature|y)仍然是一个概率分布，或者可以引入一些先验知识，比如，采用如下的公式：(weight*assumedprob+count*prob) / count + weight，这里weight和assumedprob对应的是先验知识，而count是训练样本总数，prob是调整前的条件概率p(feathre|y)。对条件概率p(feature|y)的估计，当feature取值为离散值时，只需要简单的统计训练样本中的频率即可，当feature取值为连续值时，有两种处理方案：1、计算给定y时feature的均值和方差，得到概率密度。2、将连续值切分为多个区间，也就是将特征离散化，这样估计方法就和离散值一样了。NB有很多优点，训练简单，模型易于解释，不容易overfitting，在小数据集上也能工作的相当不错，缺点就是条件独立性假设似乎过强了一些，导致精度可能没有其它分类器高。Linear Regression Logistic RegressionLinear Regression其实就是用一条函数曲线去拟合一组数据，Regr