机器学习算法概述案例.docxVIP

下载本文档

31
0
约6.19千字
约 8页
2017-01-06 发布于湖北
举报
版权申诉

机器学习算法概述案例.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

决策树：分类树（熵） ID3：ID3算法是一种贪心算法，用来构造决策树。ID3算法以信息熵的下降速度为选取测试属性的标准，即对当前结点，计算各个特征对这个节点划分后的信息增益，选取还尚未被用来划分的而且具有信息增益最大的属性作为划分特征。从根节点一直进行这个过程，直到生成的决策树能完美分类训练样例。（gini系数，误分类率等不纯度表示）信息增益的计算方法：比如计算一个特征A对数据集D的特征，A的取值有A1,A2,A3，对应数据集D1,D2,D3。计算D1,D2,D3的信息熵， C4.5：C4.5是在ID3基础上改进的一种算法。改用信息增益比来选择属性（A对D的信息增益/D的信息熵），过拟合，剪枝：先剪枝和后剪枝。限制深度，限制最小划分节点，限制最小叶子节点包含记录的数目。损失函数 =不纯度 +　λ节点个数分类回归树CART（Gini指数）：最小二乘回归树：递归的将输出空间划分为两个区域，并确定一个区域上的输出值。划分方式：选择当前区域上最佳切分变量和最佳切分点从而分成两个区域，分别确定两个区域输出值（一般取均值），重复此过程构建一个决策树。除了根结点，每个结点对应一个输出，也对应一个权值，预测时，从根节点到叶结点以此判断测试记录属于哪个分支，把它经过的每个节点的权重乘以该点输出加起来求和。CART保证生成二叉树（对特征A,CART以A=a和A≠a分成两类，而ID3中特征的每个取值算一类，从而分成多类），cart剪枝是后剪枝通过把子树叶子结点的个数加上预测误差作为子树的损失函数。随机森林：随机的方式建立一个森林，森林里含有很多决策树组成，森林的每一颗树之间都是没有关联的。建立过程：首先要进行行采样和列采样，行采样采用随机有放回方式抽取。列采样是从全部特征中抽取一部分。然后使用完全分裂的方式建立一棵决策树，这里不进行剪枝，因为随机特性使RF不容易过拟合。RF得到的每一颗树都是很弱的，但是组合起来就很厉害了。优点：简洁高效；可处理高维数据，无需特征选择；训练完成后可以给出哪些特征重要；很容易并行实现提升树：参见boosting逻辑斯蒂回归：二分类公式：，虽然写的是概率P，但绝不是概率（有些书上写的是概率），只是P越大概率越大。只用于线性回归，SVM能支持非线性是因为核函数，LR不能引入核函数。有P(Y=1|x)的对数几率等于wx。写似然函数的时候可以当成概率写。极大似然估计，似然函数，对数似然函数，求导数求极大，梯度下降或者拟牛顿法。具体如下：朴素贝叶斯：朴素贝叶斯中贝叶斯指基于贝叶斯定理，朴素指的是条件独立性假设(较强的假设，但是大大降低参数数目，否则估计参数几乎不可能)。该模型通过训练集来学习一个联合概率分布f(x,y)，具体的说：训练集→条件概率分布P(X|Y)和类别Y的分布P(Y=Ck)→相乘联合概率分布P(X,Y)。举个例子：给定一个测试例子x，求它的类别，朴素贝叶斯求x属于每一类的概率，然后取概率最大的那一类。比如求c1的概率：,再求x属于c2,c3....的概率，取概率最大那一类。贝叶斯估计：朴素贝叶斯模型中，用极大似然估计可能会产生概率为0的情况，比如某个测试数据的一个特征取值在训练集上没有出现过。用贝叶斯估计可以解决这个问题，它等价于对随机变量各个取值的频数上都加上一个正数λ，λ=1时称为拉普拉斯平滑。k近邻算法：基本思想：K近邻通过查找最近的k个点来确定当前样例的输出。有普通k近邻和加权k近邻可选。k近邻模型有三个要素吧：①距离度量（LP距离，P=2即欧式距离，文本用cos距离）②k值选取：k值小易过拟合，对临近点非常敏感。k值大，可减小估计误差，但是方差变大。③分类决策规则是多数表决，（训练决策树时候，叶节点不纯也用多数表决）。kd树构造算法：k近邻要考虑如何快速的搜索k个点，每次遍历数据集的方法效率很低，构建kd树可以大幅度提高速度。假定给出N个数据，m个特征，首先，先用第一个特征m1为根节点划分特征，计算N个m1的中位数，构建左右两个子节点，左节点对应小于m1的子区域，右结点对应大于m1的子区域。按照同样的方法，递归的对每个子节点构造，特征可以按序循环使用，直到两个子区域没有点（对的，就是没有点了）。Kd树搜索算法：总的过程是从顶向下再从底向上，对于一个输入x，从根节点递归向下访问kd树，如果当前特征小于切分点，则移动到左子节点，否则移动到右子节点，直到到达叶子结点。以此叶节点为当前最近结点，递归向上回退。后面比较复杂支持向量机：支持向量机是一种二分类模型，定义在特征空间上的线性分类器，间隔最大化的策略使它和感知机不同，如果应用核技巧，SVM实际上可以处理非线性分类（二维上线性不可分的映射到三维有可能是线性可分）。线性可分SVM硬间隔最大化，线性SVM软间隔最大化，非线性SVM箭头核技巧及软间隔