- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
朴素贝叶斯分类算法在数据预测中的应用
第1O卷 第5期 VO1.10NO.5
2011年 5月 Mav 2O11
朴素贝叶斯分类算法在数据预测中的应用
冯现坤 ,刘 羽 ,蒋细芳
(桂林理工大学 ,广西 桂林 541004)
摘 要 :朴素贝叶斯分类方法是数据库分类知识挖掘领域的一项基本技术 ,并具有广泛 的应用 。使用贝叶斯分类算
法实现 了对经典数据集 Iris的分类。实践表明,朴素 贝叶斯分类是一种有效 的数据挖掘分类算法 。
关键词 :数据挖掘 ;朴素贝叶斯分类;数据预测 ;鸢尾花(Iris)数据集
中图分类号 :TP312 文献标识码 :A 文章编 号 :1672—7800(2011)05~0065—02
算 X属于每一个类别C 的概率 。
1 数据挖掘 P(XlC)*P(C),然后选择概率最大 的类别作为其类
别 。
许多人把数据挖掘视为另一个 常用的术语 :数据 中的 若朴素贝叶斯分类算法将未知数 的数据样本 X分配
知识发现 。数据挖掘就是从大量 的、不完全 的、有 噪声 的、 给 ,则需要满足 :
模糊 的、随机的数据 中提取 隐含在其 中的、人们事先不知 P(IX) P(【X),P(c IX) P(ciIX),1≤J≤ YFt,i≠J
道的,但又是潜在的、有用 的信息和知识 的过程 。 从理论上来讲 ,朴素 贝叶斯分类算法与其他算法相 比
本文利用数据挖掘 中的朴素贝叶斯分类技术来研究 有着最小的错误率,在实践中朴素贝叶斯分类算法还可 以
鸢尾花数据集 中有关于鸢尾花分类 问题 。以鸢尾花数据 和神经网络算法和判定树等分类算法相媲美 ,并且它 的适
集为对 象 ,尝试通过数据挖掘 中的朴 素贝叶斯分类技术 对 应性 也很 强 ,执行效率高 ,在 给定 的 N个属性 的M 个训练
数据进行分析 ,实现对鸢尾花所属分类进行预测 ,发现鸢 集 ,学习时间的复杂度为 O(N*M),这使得它在现实 中
尾花所属分类与鸢尾花各项数据之 间的联系 ,有助于对鸢 有着 广泛的应用 。
尾花的培养进行管理 。
3 实例
2 朴素 贝叶斯分类算法
假设每个数据样本用一个 维特征 向量来描述 ”个
属性的值 ,即 X一{57/,… ..,z},假设有 个类 ,分别用
c ,c… .,c 表示 。给定 的一个未知 的数据样本 X(没
有标 明属于哪个类),根据贝叶斯定理得 :
P(Jx)一P( Jx)一旦
一~
由于P(x)对于所有类为常数 ,所 以,最大后验概率 P
(ClX)P(X【)可 以转化为从最大先验概率 P(X )*P
(C)计算得到。如果训练数据集有很 多元组和属性 ,计算
P(XfC)的开销可能非常大 ,为此 ,通 常假设各属性 的取
值是相 互 独立 的,这 样 先 验 概 率 P (-z IC),P( 。I
C,),… ,
P( 1C)都可 以从训练数据集求得 。
根据此方法 ,对于类别未知 的样本 x,可 以先分别计
作者简介 :冯现坤 (1985一),男,江苏徐州人 ,桂林理工大学信息科学与工程学院硕士研 究生,研 究方 向为数据挖掘与数据库技术 ;刘
羽 (1961一),男,广西桂林人 ,博士 ,桂林理工大学机械与控制工程学院副院长 、教授 ,研 究方向为并行计算 、数据挖掘 ;蒋细
芳 (1985一),女 ,湖
文档评论(0)