- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 机器学习及数据挖掘常用技术;目录;分类基本概念;什么是分类?;为什么要分类?;分类非常普遍;文本分类;一个文本分类任务:垃圾邮件过滤;分类示意图;分类方法之一: 手工方法;分类方法之二: (人工撰写)规则的方法;一个Verity主题 (一条复杂的分类规则);分类方法之三: 统计/概率方法;分类流程;特征选择(Feature Selection);特征选择;噪音特征的例子;基本的特征选择算法;特征选择所考虑的因素;不同的特征选择方法;频率法;信息增益;信息增益的计算例子;期望互信息(Expected Mutual Information);MI 特征选择的结果;卡方法;朴素贝叶斯: 特征选择的效果;文本分类的评价;评价示意图; 分类评价; 正确率P 及召回率 R;一个计算的例子; F值(F Measure);关于训练集和测试集;关于训练集和测试集; 微平均 vs. 宏平均; 朴素贝叶斯 vs. 其他方法;朴素贝叶斯(Na?ve Bayes);朴素贝叶斯分类器;具有最大后验概率的类别;对数计算;朴素贝叶斯分类器; 参数估计 : 极大似然估计(MLE); MLE估计中的零概率问题;MLE估计中的零概率问题(续); 避免零概率: 加一平滑;避免零概率: 加一平滑(续);一个例子;例子: 参数估计;例子: 分类;朴素贝叶斯独立性假设不成立的情况;朴素贝叶斯方法起作用的原因;朴素贝叶斯的时间复杂度分析;朴素贝叶斯并不朴素;中心向量法(也称Rocchio法);向量空间表示回顾;向量空间分类;向量空间中的类别; 中心向量法:基本思想; 中心向量法的算法;中心向量法的性质;中心向量法的时间复杂度;中心向量法 vs. 朴素贝叶斯;中心向量法不能正确处理多模式类别问题;K近邻法(kNN); kNN(k Nearest Neighbor)分类器; kNN分类; 概率型kNN; 概率型kNN; kNN 算法;kNN的时间复杂度;课堂练习;kNN: 讨论;线性分类器及支持向量机(SVM);线性分类器(Linear Classifier);N维空间下的二类线性分类器(N维超平面);中心向量分类器是一个线性分类器; 朴素贝叶斯也是线性分类器;kNN不是线性分类器;支持向量机(Support Vector Machines);超平面的选择;支持向量机;小间隔vs. 大间隔;如上图的训练样本,在线性可分的情况下,存在多个超平面(Hyperplane) (如 : H1,H2….)使得这两类被无误差的完全分开。超平面可以定义为:;最优超平面是指两类的分类间隔(Margin)最大,即每类距离超平面最近的样本到超平面的距离之和最大。距离这个最优超平面最近的样本被称为支持向量(Support Vector)。
优化问题:;求解最优超平面就相当于,在下列约束条件下,求目标函数最小值 ;求解结果;非线性可分情况下的处理方法一;此时的目标函数是求下式的最小值: ;非线性可分情况下的处理方法二;变换到高维空间的支持向量机 ;;支持向量机SVM小结;一个SVM的例子—几何法求解;一个SVM的例子—代数法求解;其他分类方法;决策树(decision tree)方法;决策树的例子;决策树方法小结;回归方法;LLSF;LLSF小结;分类研究趋势;目录;聚类基本概念;聚类(Clustering)的定义;一个具有清晰簇结构的数据集;分类 vs. 聚类;
聚类的例子:搜索结果的聚类;110;聚类的评价;怎样判断聚类结果的好坏?;外部准则;外部准则: 纯度;纯度计算的例子;兰迪指数(Rand index);兰迪指数:例子;K-Means聚类算法; 一个具有清晰簇结构的数据集; 聚类的要求;扁平聚类 vs. 层次聚类;扁平算法;K-均值聚类算法;聚类中的文档表示;K-均值聚类算法;K-均值聚类算法;例子;
例子:随机选择两个种子(K=2);例子:将文档分配给离它最近的质心向量(第一次);例子:分配后的簇(第一次);例子:重新计算质心向量;例子:将文档分配给离它最近的质心向量(第二次);例子:重新分配的结果;例子:重新计算质心向量;例子:再重新分配(第三次);例子:分配结果;例子:重新计算质心向量;例子:再重新分配(第四次);例子:分配结果;例子:重新计算质心向量;例子:重新分配(第五次);例子:分配结果;例子:重新计算质心向量;例子:重新分配(第六次);例子:分配结果;例子:重新计算质心向量;例子:重新分配(第七次);例子:分配结果; 例子:重新计算质心向量;质心向量和分配结果最终收敛; K-均值聚类算法一定是收敛的;K-均值聚类算法的初始化;K-均值聚类算法的时间复杂度;簇个数确定;层次聚类;层次聚类;层次凝聚式聚类 (HAC);
文档评论(0)