- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘知识点.doc
数据挖掘知识点:
数据挖掘是从Day outlook Temperature Humidity Wind Play ball 1 晴 Hot High Weak No 2 晴 Hot High Strong No 3 多云 Hot High Weak Yes 4 有雨 mild High Weak Yes 5 有雨 Cool Normal Weak Yes 6 有雨 Cool Normal Strong No 7 多云 Cool Normal Strong Yes 8 晴 mild High Weak No 9 晴 Cool Normal Weak Yes 10 有雨 mild Normal Weak Yes 11 晴 mild Normal Strong Yes 12 多云 mild High Strong Yes 13 多云 hot Normal Weak Yes 14 有雨 mild High Strong No 类C1运动=“适合”,
类C2对运动=“不适合”
I(s1, s2) = I(9, 5) =0.940
计算属性天气的熵::
贝叶斯分类方法:
贝叶斯分类方法是一种基于统计的学习方法,利用概率统计进行学习分类,如预测一个数据对象属于某个类别的概率。
贝叶斯定理:
主要算法:朴素贝叶斯分类、贝叶斯信念网络分类算法等。
朴素贝叶斯分类:
朴素贝叶斯分类算法利用贝叶斯定理来预测一个未知类别的样本属于各个类别的可能性,选择可能性最大的一个类别作为该样本的最终类别。
原理:
(1)设样本有n个属性(A1,A2,...,An),每个样本可看作是n维空间的一个点X=(x1,x2,...,xn)。
(2)假定有m个不同的类别,C1,C2,....Cm。X是一个未知类别的样本。预测X的类别为后验概率最大的那个类别,即算法将未知类别的样本X归到类Ci,当且仅当
P(Ci|X) P(Cj|X),对于所有的j成立(1≤j≤m,j≠i)即P(Ci|X)最大。
(3)根据贝叶斯定理得知
P(Ci|X)=P(X|Ci)P(Ci)/P(X)。
P(X)对于所有类为常数,因此只需 P(X|Ci)P(Ci)取最大即可
类的先验概率P(Ci)由P(Ci)=si/s估算
Si训练样本中属于类Ci的样本数,s全部训练样本的样本数。
(4)给定具有多属性的数据集,计算P(x|Ci)的开销可能非常大,为降低计算P(x|Ci)的开销,朴素贝叶斯做了类条件独立假设,即假定一个属性值对给定类的影响独立于其他属性值,属性之间不存在依赖关系,则:
P(X|Ci)=P(x1|Ci)P(x2|Ci)...P(xn|Ci)
(5)对未知样本X分类,对每个类Ci,分别计算P(X|Ci)P(Ci)。
样本X被指派到类Ci,当且仅当
P(X|Ci)P(Ci) P(X|Cj)P(Cj), (1≤j≤m,j≠i)即X被指派到其P(X|Ci)P(Ci)最大的类Ci。
算法描述:
函数名:NaiveBayes
输入:类别号未知的样本X={x1,x2,…xn}
输出:未知的样本X所属类别号
(1) for j=1 to m
(2) 计算X属于每个类别Cj的概率
P(X|Cj)=P(x1|Cj)P(x2|Cj)...P(xn|Cj);
(3) 计算训练集中每个类别Cj的概率P(Cj);
(4) 计算概率值Q = P(X|Cj)* P(Cj);
(5) end for
(6) 选择计算概率值Q最大的Ci (1=i=m)作为类别
输出。
例题:
Day outlook Temperature Humidity Wind Play ball 1 晴 Hot High Weak No 2 晴 Hot High Strong No 3 多云 Hot High Weak Yes 4 有雨 mild High Weak Yes 5 有雨 Cool Normal Weak Yes 6 有雨 Cool Normal Strong No 7 多云 Cool Normal Strong Yes 8 晴 mild High Weak No 9 晴 Cool Normal Weak Yes 10 有雨 mild Normal Weak Yes 11 晴 mild Normal Strong Yes 12 多云 mild High Strong Yes 13 多云 hot Normal Weak Yes 14 有雨 mild High Strong No
使用朴素贝叶斯算法预测未知样本:
x={rainy,hot,normal,weak,?}属性pla
文档评论(0)