贝叶斯分类试卷.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第二小组 贝叶斯分类 小组成员: 梁金凤 郭玉鑫 凌圆梦 什么是分类? 男or女 学霸or学渣 穷屌丝or高富帅 从数学角度可以做如下定义 分类问题往往采用经验性方法构造映射规则,即一般情况下的分类问题缺少足够的信息来构造100%正确的映射规则,而是通过对经验数据的学习从而实现一定概率意义上正确的分类,因此所训练出的分类器并不是一定能将每个待分类项准确映射到其分类,分类器的质量与分类器构造方法、待分类数据的特性以及训练样本数量等诸多因素有关 但是。。。 贝叶斯定理 朴素贝叶斯分类思想:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别 朴素贝叶斯分类定义: 那么现在关键是如何计算第3步中的各个条件率。。。。 STEP1 STEP3 STEP2 找到一个已知分类的待分类项集合,这个集合叫做训练样本集。 检验微信中不真实账号 步骤一 确定特征属性及划分 特征属性a1:状态数量/注册天数 特征属性a2:朋友数量/注册天数 特征属性a3:是否使用真实头像 a1:{a=0.05, 0.05a0.2, a=0.2},a1:{a=0.1, 0.1a0.8, a=0.8},a3:{a=0(不是),a=1(是)} 检验微信中不真实账号 步骤二 获取训练样本 假设人工检测的一万个账号作为训练样本。 其中真实账号为8900, 不真实账号为110 检验微信中不真实账号 步骤三 计算训练样本中每个类别的频率 ?用训练样本中真实账号和不真实账号数量分别除以一万,得到: P(C=0)=8900/10000=0.89 P(C=1)=110/10000=0.11 检验微信中不真实账号 步骤四 计算每个类别条件下各个特征属性划分的频率 ?P(a1=0.05|C=0)=0.3 P(0.05a10.2|C=0)=0.5 P(a12|C=0)=0.2 P(a1=0.05|C=1)=0.8 P(0.05a10.2|C=1)=0.1 P(a12|C=1)=0.1 P(a2=0.1|C=0)=0.1 P(0.1a20.8|C=0)=0.7 P(a20.8|C=0)=0.2 P(a2=0.1|C=1)=0.7 P(0.1a20.8|C=1)=0.2 P(a20.8|C=1)=0.1 P(a3=0|c=0)=0.2 P(a3=1|c=0)=0.8 P(a3=0|c=1)=0.9 P(a3=1|c=1)=0.1 检验微信中不真实账号 步骤五 使用分类器进行鉴别 使用上面训练得到的分类器鉴别一个账号,这个账号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2。 P(C=0)P(x|C=0)=0.0623 P(C=1)P(x|C=1)=0.00198 可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别 评价 朴素贝叶斯分类是一种十分简单的分类算法,理论上具有最低的分类错误率,但是其实际效果却不一定是最好的。主要是:1、特征属性相互独立性假设导致模型与实际的偏差;2、概率值的错误估计,似然函数和先验概率都是基于有限的训练样本计算而得,跟实际的概率分布存在误差。 谢谢!

文档评论(0)

希望之星 + 关注
实名认证
内容提供者

我是一名原创力文库的爱好者!从事自由职业!

1亿VIP精品文档

相关文档