- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
据十典算NVIEYE讲解_免费KY
Naive Bayes Team * 分类 数学定义: 已知集合C={y1,y2...yn},I={x1,x2...xm}确定映射规则y=f(x),使得任意xi∈I有且仅有yj∈C一个使得yj=f(xi)成立。 其中C叫做类别集合,其中每一个元素是一个类别,而I叫做项集合,其中每一个元素是一个待分类项,f叫做分类器。 分类算法的任务就是构造分类器f。 * 分类步骤1—学习 训练数 据集 分类算法 IF rank = ‘professor’ OR years 6 THEN tenured = ‘yes’ 分类规则 通过对经验数据的学习从而实现一定概率意义上正确的分类 建立预先定义的数据类或概念集的分类器。 * 分类步骤2—用模型分类 使用模型对将来的或未知的对象进行分类 * 影响分类的因素 分类器构造方法 待分类数据的特性 训练样本数量 重点 通过训练数据集得到规则 * 贝叶斯分类基础-贝叶斯定理 给出了P(w|C)与P(C|w)的关系 P(C):先验概率 P(C|w):后验概率 P(w|C)/P(w):调整因子,p(w)一般是一个 若P(w|C)/P(w)1,则先验概率被增强,事件C的发生的可能性变大; 若P(w|C)/P(w)=1,意味着w事件无助于判断事件C的可能性; 若P(w|C)/P(w)1,意味着先验概率被削弱,事件C的可能性变小 * 朴素贝叶斯 * 朴素贝叶斯定义 (1)设x={a1,a2,……,am}为一个待分类项,而每个a为x的一个特征属性。 (2)有类别集合C={y1,y2,……,yn} (3)计算 P(y1|x),P(y2|x),……,P(yn|x)(关键) (4)如果P(yk|x)=max{P(y1|x),P(y2|x),……,P(yn|x)},则x∈yk * 各个条件的概率P(yi|x)计算 找到一个已知分类的待分类项集合,这个集合叫做训练样本集。 统计得到在各类别下各个特征属性的条件概率估计。即P(a1|y1),P(a2,y1),……,P(am,y1);P(a1|y2),P(a2,y2),……,P(am,y2);… P(a1|yn),P(a2,yn),……,P(am,yn); 如果各个特征属性是条件独立的 * 工作流程 * 样例(一)—Buy computer age income student credit_rating buys_computer youth high no fair no youth high no excellent no middle_aged high no fair yes senior medium no fair yes senior low yes fair yes senior low yes excellent no middle_aged low yes excellent yes youth medium no fair no youth low yes fair yes senior medium yes fair yes youth medium yes excellent yes middle_aged medium no excellent yes middle_aged high yes fair yes senior medium no excellent no * 样例(一)—Buy computer X=(age=youth,income=medium,student=yes, Credit_rating=fair) 买电脑吗? P(buy=yes)=9/14=0.643,P(buy=no)=0.357 P(age=youth|buy=yes)=2/9=0.222 P(X|buy=yes)=P(age=youth|buy=yes)*P(income=medium|buy=yes)*P(student=yes|buy=yes)*P(credit=fair|but=yes)=0.044 P(X|buy=no)=0.019 P(X|buy=yes)*P(buy=yes)=0.028 P(X|buy=no)*P(buy=no)=0.007 * 特征属性为连续值 当特征属性为连续值时,通常假定其值服从高斯分布 因此只要计算出训练样本中各个类别中此特征项划分的各均值和标准差 * 样例(二)—Male or Female 问题描述:通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。 训练数据 假设训练集样本的特征满足高斯分布 * 样例(二)—Male or Female 假定P(male)= P(female) =
原创力文档


文档评论(0)