Part1——分类模型.docVIP

下载本文档

26
0
约7.31千字
约 9页
2017-03-14 发布于四川
举报
版权申诉

Part1——分类模型.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

Part1——分类模型

Part 1——分类模型方以类聚，物以群分—《战国策·齐策三》《周易·系辞上》《书·舜典》附亡《书》序：“帝釐下土，方设居方，别生分类，作《汩作》。” 孔传：“生，姓也，别其姓族，分其类使相从。” 唐白居易《唐故湖州长城县令赠户部侍郎博陵崔府君神道碑铭并序》：“唐虞之际，因生为姜姓。暨周封齐，分类曰崔氏。”马南邨《燕山夜话·选诗和选文》：“所谓‘诗’，所谓‘文’，究竟应该如何区别？它们的体裁和形式又应该怎样分类？实际上这是自古迄今争论未决的问题。”成仿吾《长征回忆录》十：“找出一些认识的，可以吃的野菜，挖出带回来，分类洗干净，煮着吃。” ■ 分类（Classification）—百度百科解释为：把分为有规律的，按照不同的特点分类事物，使事物更有规律。 ■ 分类学（Taxonomy）—其基本步骤，包括区分和鉴定分类单元，确定阶元等级和建立分类体系。数据建模中使用的分类和古人所说的是同一种含义：即按照某种意图或者标准，把一堆杂乱的事物或者数据分成若干个理想的类别。而如今，我们常用的分类模型包括监督学习型和非监督学习型两类。其中监督学习型可以认为是有目标的学习分类型；比如把人分为男女两种性别、把学校比赛分为数学建模、电子竞赛、ICPC等，这些都是事先确定类别的分类。非监督学习分类是没有确定目的学习分类；比如把新浪微博用户分为三六九等，我们可以根据用户的属性数据聚类成10个类别，也可以聚类成4各类别。第一部分，将分为8个章节依次讨论：k-邻近算法、决策树、朴素贝叶斯算法、Logistic回归、支持向量机、神经网络、AdaBoost元算法、LibSVM的使用。k-邻近算法是基于距离的分类算法，包括欧氏距离、马氏距离等；决策树，通俗易懂，但是涉及到递归编程，实现上稍微复杂点；朴素贝叶斯是在Bayes模型上简化了的一种模型，如今的情感分析大部分是基于它实现的，是一种概率模型，实现上并不困难；Logistic回归是一种函数模型，其参数优化是分类性能的重要因素，在搜索优化参数的过程中，将采用常用的几种优化算法，像梯度算法、最速降算法、牛顿迭代等；支持向量机需要一定的理论知识，尤其是矩阵理论和拉格朗日算子等，在实现上也颇为复杂，但是效果明显；神经网络算是一种比较流行，但理论不成熟的网络学习算法，参数选择上也是个难点，但实现比较轻松；AdaBoost是通过权重分配，将多个分类器集成的一种模式，其效果往往由于前面几种方法；LibSVM主要是基于AdaBoost实现的开源工具，后续将详细介绍其使用方法及参数调节。在最后还讨论了训练样本非均匀分布时的非均衡分类问题及其处理方式。第一章 k-邻近算法聚类分析是一种数值分类方法（即完全是根据数据关系）。要进行聚类分析就要首先建立一个由某些事物属性构成的指标体系，或者说是一个变量组合。入选的每个指标必须能刻画事物属性的某个侧面，所有指标组合起来形成一个完备的指标体系，它们互相配合可以共同刻画事物的特征。所谓完备的指标体系，是说入选的指标是充分的，其它任何新增变量对辨别事物差异无显著性贡献。如果所选指标不完备，则导致分类偏差。比如要对家庭教养方式进行分类，就要有描述家庭教育方式的一系列变量，这些变量能够充分地反映不同家庭对子女的教养方式。简单地说，聚类分析的结果取决于变量的选择和变量值获取的两个方面。变量选择越准确、测量越可靠，得到的分类结果越是能描述事物各类间的本质区别。下图1-1是分类的基本图示表达。 (a) 无标记样本集 (b) 空间划分 (c) 空间覆盖图1-1. 分类的基本图示本章主要介绍k-邻近聚类算法，简单地说，它是采用测量不同特征值之间的距离方法来进行分类的。它的工作原理是：存在一个样本数据集合，也称作样本训练集，并且样本集中每个数据都存在标签，即我们知道样本集中每一个数据与所属分类的对应关系。输入没有标签的新数据后，将新数据的每个特征与样本集中数据对应的特征进行比较（在这里是求距离），然后算法提取样本集合中特征最相似数据（最邻近）的若干个分类标签。一般来说，我们只选择样本数据中前k个最相似的数据，这就是k-邻近算法中k的来源，一般k是不大于20的整数。最后，选择k个最相似数据中出现次数最多的类别作为新数据的类别。 1.1 电影分类示例下面以电影分类为例来说明该算法的计算过程。在这里，标签是爱情片和动作片，特征是打斗镜头和接吻镜头次数。我们需要做的是根据已有的这些数据来判断电影G的类别，而18和90是新数据。通过表1-1我们可以看到。表1-2是已知类别的电影与未知电影G的距离（这里取欧氏距离），如果k=3的话，那么与G距离最近的三个电影为B、C、A。而这三个类别全是爱情片，所以可以判断G的