第二章 机器学习及数据挖掘常用技术.pptx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二章 机器学习及数据挖掘常用技术;目录;分类基本概念;课前思考题;什么是分类?;为什么要分类?;分类非常普遍;文本分类;一个文本分类任务:垃圾邮件过滤;分类示意图;分类方法之一: 手工方法;分类方法之二: (人工撰写)规则的方法;一个Verity主题 (一条复杂的分类规则);分类方法之三: 统计/概率方法;分类流程;课堂思考题;特征选择(Feature Selection);特征选择;噪音特征的例子;基本的特征选择算法;特征选择所考虑的因素;不同的特征选择方法;频率法;信息增益;信息增益的计算例子;期望互信息(Expected Mutual Information);MI 特征选择的结果;卡方法;朴素贝叶斯: 特征选择的效果;不同特征选择方法的比较;特征选择 vs. 特征权重计算;关于特征选择;文本分类的评价;评价示意图; 分类评价; 正确率P 及召回率 R;一个计算的例子;整个文档集合的划分;关于正确率和召回率的讨论(1);关于正确率和召回率的讨论(2);关于精确率(Accuracy); F值(F Measure);其他评价方法;关于训练集和测试集;关于训练集和测试集; 微平均 vs. 宏平均; 朴素贝叶斯 vs. 其他方法;朴素贝叶斯(Na?ve Bayes);朴素贝叶斯分类器;具有最大后验概率的类别;对数计算;朴素贝叶斯分类器; 参数估计 : 极大似然估计(MLE); MLE估计中的零概率问题;MLE估计中的零概率问题(续); 避免零概率: 加一平滑;避免零概率: 加一平滑(续);一个例子;例子: 参数估计;例子: 分类;朴素贝叶斯独立性假设不成立的情况;朴素贝叶斯方法起作用的原因;朴素贝叶斯的时间复杂度分析;朴素贝叶斯并不朴素;补充说明---朴素贝叶斯的两种实现方式;中心向量法(也称Rocchio法);向量空间表示回顾;向量空间分类;向量空间中的类别; 中心向量法:基本思想; 中心向量法的算法;中心向量法的性质;中心向量法的时间复杂度;中心向量法 vs. 朴素贝叶斯;中心向量法不能正确处理多模式类别问题;K近邻法(kNN); kNN(k Nearest Neighbor)分类器; kNN分类; 概率型kNN; 概率型kNN; kNN 算法;kNN的时间复杂度;课堂练习;kNN: 讨论;kNN的快速实现:KD-树;线性分类器(Linear Classifier);线性分类器(Linear Classifier);N维空间下的二类线性分类器(N维超平面);中心向量分类器是一个线性分类器; 朴素贝叶斯也是线性分类器;kNN不是线性分类器;感知机(Perceptron);Threshold Logic Unit (TLU);Activation Functions;Threshold as Weight;Perceptron Training Algorithm(错误驱动型);Perceptron Learning Rule;感知机的收敛性;多层感知机;支持向量机(Support Vector Machines);超平面的选择;支持向量机;小间隔vs. 大间隔;如上图的训练样本,在线性可分的情况下,存在多个超平面(Hyperplane) (如 : H1,H2….)使得这两类被无误差的完全分开。超平面可以定义为:;最优超平面是指两类的分类间隔(Margin)最大,即每类距离超平面最近的样本到超平面的距离之和最大。距离这个最优超平面最近的样本被称为支持向量(Support Vector)。 优化问题:;求解最优超平面就相当于,在下列约束条件下,求目标函数的最小值 ;求解原始问题;线性可分问题;求解结果;非线性可分情况下的处理方法一;此时的目标函数是求下式的最小值: ;非线性可分情况下的处理方法二;变换到高维空间的支持向量机 ;;支持向量机小结;一个SVM的例子—几何法求解;一个SVM的例子—代数法求解;其他分类方法;决策树(decision tree)方法;决策树的例子;决策树方法小结;回归方法;LLSF;LLSF小结;基于投票的方法(集成方法);多类下的单标签和多标签问题;多类问题;通过二类分类器处理多类问题;各种处理方式的对比;130; 基于线性分类器的单标签分类(多类); 多标签问题(Any-of problem); 基于线性分类器的多标签分类;文本分类的实际应用;文本分类;分类器的选择;如果没有任何训练数据;如果拥有较少的训练数据,又希望训练一个有监督的分类器;如果拥有训练数据;大规模高难度分类体系;分类研究趋势;如何获得数据;众包技术;众包的例子----Google图片标注;众包的例子----蛋白质组装;目录;聚类基本概念;课前思考题;聚类(Clustering

您可能关注的文档

文档评论(0)

22255990 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档