- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
NAiVEBAYES和AABST提升算法应用于葡萄酒的品质测定.doc
NAiVEBAYES和ADABOOST提升算法应用于葡萄酒的品
质测定
葡萄酒品质测定是数据挖掘、信息处理的 一个重要应用,本文将结合朴素贝叶斯算法和 Adaboost算法,通过二分类手段解决多分类问题,并 参考相关文献对该问题进打详细的探究和解决,并呈 现该算法得到的结果。
关键词:NAVE bayes; Adaboost提升算法;应用
二分类分类器处理多分类问题
TP391 A : 1671-2064 (2017) 08-0037-01
1背景,应用二分类的分类器处理多分类问题 关于二分类处理多分类问题,目前主要有两种手
段:一种为“一对多”方法,即把一个问题分为“是” 或者“不是”,通过对n个元素进行n-1次处理,将其 进行分类;另一种为“多对一”方法,即n个元素, 对每一个元素之间比较,逐对分类,进行Cn2次,达 到实验目的。目前还有一些其他的方法正在进行研究 和学习,希望得到优化算法。
2推导分析
2.1算法思想
二分类的算法是解决分类的一个重要手段,在解 决多分类问题时,正如上文所述分为两种主要的方法 (“一对多”方法,“多对一”方法),本课题研究着重 于前者,“一对多”的问题解决方法。简单来说,算法 本身要处理多组数据,我们将数据依次分为不同的两 类,“是”或者“否”,选择后将“是”的样本数据留 下,将“否”的数据继续重复上述的循环操作,进而 递推筛选,得到需要的结果。
2.2算法内容
这是一个运用NAIVE BAYES算法对问题的解决。 NAIVE算法主要体现在概率的精确求法,用该数据的 最大概率来对数据进行分类从而达到减小误差的功能 因此这里运用NaiveByes算法来计算品质概率,具体 的算法应用贝叶斯定理而推导得出。定理的具体内容
即有一系列待分类数据xi (i=l
即有一系列待分类数据xi (i=l、2
m)和一系列分
类项 yj (j=l
类项 yj (j=l 2
n)用上述公式求得概率P (yj|xi
我们把xi组成的集合叫做训练样本集。依次计算统计 各个特征属性即xi的条件概率估计。P (yl|xi), P
(y2|xi),
(y2|xi),
P (yn|xi),如果各个xi是独立的
那么由贝叶斯定理可得:
因为分母P (x)对于所有类别均为常数,所以我
们只要将分子最大化皆可。又因为xi是条件独立的, 因而可以得到以下公式:
根据上述分析,我们可以导出贝叶斯分类的流程:
如果有 P(yk|xi)=max{P(yl|xi), P(y2|xi),
P (yn|xi) }则有xieyk。进而将数据分类,类此将葡 萄酒的品质进行处理。
同时该算法应用Ada boost提升算法,对所处理的 数据进行精确分类。该算法的内容主要在于将n个数 据赋予相同的权值1/n,然后将数据样本通过弱分类 器处理,如果该样本已经被准确的分类则权数增加, 否则权数降低。每次添加新的弱分类器通过下一轮迭 代,逐步确立分类函数。其应用的方式为通过对阈值 的加权求平均比重,进而对数据的分类进行优化。具 体的操作如下:首先确立一个样本的集合X: (am,
n|m,
n|m,n=l,2,3
ex (其中m代表迭代的轮数
n代表个体的标号数)和一个分类集合Y,(yl,y2
yk) eYo其次我们确立一个选择函数F (x),来使F (x) ->{-1,1}从而作为基本的分类器。令F (x)的误 差率为a,a为误分类的样本权数的和,然后我们计算
F (x)的重要程度用w表示w= (1/2) Xlog[ (1-a)
/a]有上述表达式可以发现伴随误差的减小,w增大, 即F (x)的权增大。我们从而进行下面的循环操作,
逐步对分类的方法进行优化选择,从而达到降低误差 的目的。此时我们移入一个量Zm作为规范化因子, Zm=Lam, nexp[-wykF (xk)],从而使得整体的概率 和保持为1,从而运用Zm规范化因子可以使数据形成 概率分布。最后我们设计组合各个弱处理器,设其为 g (x), g (x) =EwF (x)。我们从而得到最终的处理 器 d (x) =sign (g (x)) =sign (LwF (x)),进而通过 此sign函数对数据进行准确的二分类,评定算法的优 缺的重要依据为误差的大小,该算法成功的利用合理 规范阈值,合理选择等手段有效的降低了分类的误差。
3算法构架和流程 3.1算法构架
Initialization-* Data Imput-* Valuable Intializati-* Function Naive bayes-^ Training Data-^ Testing Data* Dada Output
3.2实验步骤
具体的操作和流程如下:Data采winequalityred, 在 Funct
您可能关注的文档
最近下载
- 仁爱版初中英语九年级上册全册教案.pdf VIP
- 新建热网首站项目土建施工和设备安装工程技术方案.pdf VIP
- 故障码详解.ppt VIP
- NB-T11409-2023水电工程费用构成及概(估)算费用标准.docx VIP
- 导弹的诞生和发展教学课件PPT.ppt
- 发电厂和变电站工作票填写规范培训教案详解.ppt VIP
- 注册土木工程师(水土保持方向)案例题整理.docx VIP
- 系统架构设计:构建高可用、可扩展的IT系统培训课件.pptx VIP
- 河堤开挖出水池出水箱涵穿堤管道施工方案样本.doc VIP
- 人教版(PEP)新教材小学一年级英语上册Unit 2My first class 复习课件.pptx
原创力文档


文档评论(0)