NAiVEBAYES和AABST提升算法应用于葡萄酒的品质测定.docVIP

下载本文档

4
0
约3.09千字
约 6页
2018-11-23 发布于广东
举报
版权申诉

NAiVEBAYES和AABST提升算法应用于葡萄酒的品质测定.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

NAiVEBAYES和AABST提升算法应用于葡萄酒的品质测定.doc

NAiVEBAYES和ADABOOST提升算法应用于葡萄酒的品质测定葡萄酒品质测定是数据挖掘、信息处理的一个重要应用，本文将结合朴素贝叶斯算法和 Adaboost算法，通过二分类手段解决多分类问题，并参考相关文献对该问题进打详细的探究和解决，并呈现该算法得到的结果。关键词：NAVE bayes； Adaboost提升算法;应用二分类分类器处理多分类问题 TP391 A : 1671-2064 (2017) 08-0037-01 1背景，应用二分类的分类器处理多分类问题关于二分类处理多分类问题，目前主要有两种手段：一种为“一对多”方法，即把一个问题分为“是” 或者“不是”，通过对n个元素进行n-1次处理，将其进行分类；另一种为“多对一”方法，即n个元素，对每一个元素之间比较，逐对分类，进行Cn2次，达到实验目的。目前还有一些其他的方法正在进行研究和学习，希望得到优化算法。 2推导分析 2.1算法思想二分类的算法是解决分类的一个重要手段，在解决多分类问题时，正如上文所述分为两种主要的方法 (“一对多”方法，“多对一”方法)，本课题研究着重于前者，“一对多”的问题解决方法。简单来说，算法本身要处理多组数据，我们将数据依次分为不同的两类，“是”或者“否”，选择后将“是”的样本数据留下，将“否”的数据继续重复上述的循环操作，进而递推筛选，得到需要的结果。 2.2算法内容这是一个运用NAIVE BAYES算法对问题的解决。 NAIVE算法主要体现在概率的精确求法，用该数据的最大概率来对数据进行分类从而达到减小误差的功能因此这里运用NaiveByes算法来计算品质概率，具体的算法应用贝叶斯定理而推导得出。定理的具体内容即有一系列待分类数据xi (i=l 即有一系列待分类数据xi (i=l、2 m)和一系列分类项 yj (j=l 类项 yj (j=l 2 n)用上述公式求得概率P (yj|xi 我们把xi组成的集合叫做训练样本集。依次计算统计各个特征属性即xi的条件概率估计。P (yl|xi), P (y2|xi)， (y2|xi)， P (yn|xi),如果各个xi是独立的那么由贝叶斯定理可得：因为分母P (x)对于所有类别均为常数，所以我们只要将分子最大化皆可。又因为xi是条件独立的，因而可以得到以下公式：根据上述分析，我们可以导出贝叶斯分类的流程: 如果有 P(yk|xi)=max{P(yl|xi), P(y2|xi)， P (yn|xi) ｝则有xieyk。进而将数据分类，类此将葡萄酒的品质进行处理。同时该算法应用Ada boost提升算法，对所处理的数据进行精确分类。该算法的内容主要在于将n个数据赋予相同的权值1/n,然后将数据样本通过弱分类器处理，如果该样本已经被准确的分类则权数增加，否则权数降低。每次添加新的弱分类器通过下一轮迭代，逐步确立分类函数。其应用的方式为通过对阈值的加权求平均比重，进而对数据的分类进行优化。具体的操作如下：首先确立一个样本的集合X: (am, n|m， n|m，n=l，2，3 ex (其中m代表迭代的轮数 n代表个体的标号数)和一个分类集合Y，(yl，y2 yk) eYo其次我们确立一个选择函数F (x)，来使F (x) -＞｛-1，1｝从而作为基本的分类器。令F (x)的误差率为a，a为误分类的样本权数的和，然后我们计算 F (x)的重要程度用w表示w= (1/2) Xlog[ (1-a) /a]有上述表达式可以发现伴随误差的减小，w增大，即F (x)的权增大。我们从而进行下面的循环操作，逐步对分类的方法进行优化选择，从而达到降低误差的目的。此时我们移入一个量Zm作为规范化因子， Zm=Lam, nexp[-wykF (xk)]，从而使得整体的概率和保持为1，从而运用Zm规范化因子可以使数据形成概率分布。最后我们设计组合各个弱处理器，设其为 g (x), g (x) =EwF (x)。我们从而得到最终的处理器 d (x) =sign (g (x)) =sign (LwF (x))，进而通过此sign函数对数据进行准确的二分类，评定算法的优缺的重要依据为误差的大小，该算法成功的利用合理规范阈值，合理选择等手段有效的降低了分类的误差。 3算法构架和流程 3.1算法构架 Initialization-* Data Imput-* Valuable Intializati-* Function Naive bayes-^ Training Data-^ Testing Data* Dada Output 3.2实验步骤具体的操作和流程如下：Data采winequalityred, 在 Funct