大数据智能算法及测评技术（二）.pdfVIP

下载本文档

15
0
约7.21千字
约 7页
2023-07-03 发布于上海
举报
版权申诉

大数据智能算法及测评技术（二）.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

⼤数据智能算法及测评技术（⼆） 3、分类算法及其测评 3.1 分类算法介绍分类算法需要事先定义好类别，并对训练样本进⾏⼈⼯标记。分类算法通过有标记的训练样本，学习得到分类器，该分类器可对新样本⾃动分类，分类的流程下图所⽰。分类算法是⼀种有监督的机器学习算法。分类的算法种类繁多，⼤致可分为单⼀型分类算法和组合型分类算法。单⼀型分类算法有KNN（K近邻）、决策树、朴素贝叶斯、⽀持向量机、⼈⼯神经⽹络等；组合型分类算法是组合单⼀型分类算法的集成学习算法，如Bagging和Boosting算法等。考虑到⼤数据应⽤，算法需要便于实现并⾏化计算。朴素贝叶斯分类算法对于样本数据稀疏时⾮常敏感，但仍然是应⽤最⼴的分类算法之⼀，被⼴泛应⽤于⽂本分类领域、⽤户⾏为分析等⼤数据分析挖掘领域。尽管朴素贝叶斯是最简单的贝叶斯⽹络，但理解应⽤朴素贝叶斯分类算法及拉普拉斯平滑技巧需要具备基本的概率统计知识。因为简单，仍然是应⽤最⼴泛的分类⽅法。⽀持向量机（Support Vector Machines，SVM）是建⽴在统计学习理论VC维（VapNik-Chervonenkis Dimension）和结构风险最⼩化原理基础上的分类算法，在解决⾮线性和⾼维数据的分类问题中表现出很好的性能，并在很⼤程度上克服了“过拟合”和 “维数灾难”等问题。⽀持向量机算法的⽬标是寻找⼀个满⾜分类要求的最优分类超平⾯，使得该超平⾯在保证分类精度的同时，能够使超平⾯两侧的间隔最⼤化。 3.2 分类算法正确性测评以通过蜕变测试验证朴素贝叶斯算法为例。（说明：蜕变测试最适合的场合。） 1、针对算法的蜕变关系的识别（整个测试构造数据的基础）通过与领域专家⼀起分析，针对朴素贝叶斯分类算法的特点可以构造如下五类蜕变关系： MR 1.1：全局仿射变换的⼀致性。如果对原始测试⽤例中的每个属性值x（i）做线性变换f（x（i））=ax（i）+b（a≠0）得到衍⽣测试⽤例，则分类结果不变。 MR 2.1：类标签的置换。如果对原始测试⽤例中的类标签作统⼀置换，⽐如原先属于类别0的全部置换为类别1，⽽把类别1全部置换为 0，则分类结果也应作相应置换。 MR 2.2：列置换。如果对原始测试⽤例中的任意两列属性做交换得到衍⽣测试⽤例，则分类结果不变。 MR 3：增加不提供信息属性。在原始测试⽤例基础上，增加⼀列属性，增加属性值全部相同，即与原始测试⽤例中属性信息⽆关，得到衍⽣测试⽤例，则分类结果不变。 MR 4：复制全部样本。如果把原始测试⽤例中的所有样本全部复制⼀份，增加到原始⽤例上得到衍⽣测试⽤例，则分类结果不变。 MR 5：移除某⼀类。对于原始测试⽤例，假设对于某⼀个测试样本ts得到结果ct=li。在衍⽣测试⽤例中移除S中标签不为li的某⼀类样本，分类结果不变 2、测试结果与分析 1）构造⼀个基础测试⽤例数据集合 2）构造蜕变测试⽤例数据集合 3）执⾏测试⽤例 4）⽐对不同蜕变关系的测试⽤例执⾏结果 5）分析结果 3.3 分类算法性能测评分类算法设计过程中，⼀般将数据分为两部分，⼀部分称为训练样本，另⼀部分称为测试样本。训练集中性能表现很好的分类器，有可能在测试集中分类精度并不⾼，这种现象称为 “分类的过拟合”问题，其本质是分类器的泛化能⼒⽐较差。 1）分类器性能评估的⽅法 a、留置法：互不相交的训练集和测试集，分别使⽤。 b、随机⼦抽样：每次随机抽取训练集和测试集，分别使⽤。 c、交叉验证（Cross-validation）　交叉验证中，每个数据⽤于训练的次数相同，并且恰好测试⼀次。假设把数据分为相同⼤⼩的两个⼦集，⾸先选择其中⼀个⼦集作为训练集，另⼀个作为测试集，然后交换两个⼦集的⾓⾊，这种⽅法称为⼆折交叉验证。分类总误差通过对两次运⾏的误差求和得到。K折交叉验证⽅法是⼆折交叉验证的推⼴，即把数据集分成独⽴并数量相同的K份。每次验证时选择其中的⼀份作为测试集，其余的K-1份都作为训练=集，该过程重复K次，使得每份数据都⽤于测试恰好⼀次。同样，分类的总误差是所有K次误差之和。 d、⾃助法（Bootstrap）　前⾯介绍的三种评估⽅法都是假定训练数据采⽤不放回抽样，因此训练集和测试集都不包含重复记录。在⾃助法中，训练数据采⽤有放回抽样，即已经选作训练的数据将放回原来的数据集中，使得所有数据等概率的被重新抽取。 2）分类器性能评估指标 a）准确性和F-Measure 1、准确性（Accuracy ）。准确性定义为测试集中正确分类的样本数占总测试样本的⽐例：