商务智能分类算法.ppt

  1. 1、本文档共123页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * conditional probability tables * * * * * * * * * 增益图 样本比例 真正率 累积真正率 0-20% 33.3% 33.3% 20%-40% 33.3% 66.6% 40%-60% 16.7% 83.3% 60%-80% 16.7% 100% 80%-100% 0 100% 客户编号 预测为类别“是”的概率 真实类别 9 0.9 是 1 0.8 是 3 0.7 是 2 0.7 是 8 0.6 否 4 0.5 是 6 0.4 否 5 0.4 是 7 0.2 否 10 0.1 否 表4.9 测试数据集结果示例 表4.10甘特图示例数据 增益图 ROC 曲线 ROC:receiver operating characteristic (接收者操作特性) Y轴:样本中所含正例样本的个数在正例样本总数中的百分比 X轴:所选样本中的负例样本占测试样本中总负例样本的比例,即假正率 ROC曲线 通常可以通过曲线下包围的面积来衡量模型的性能,面积越大,性能越好。直线下的面积为0.5,通常分类模型对应的曲线下的面积取值范围为0.5~1. FP rate TP rate 0 0 25% 83.3% 50% 100% 75% 100% 100% 100% weka Decision tree classifiers-trees-J48 可以不必修改参数 (unpruned: false) KNN Classifier-lazy-IB1(1 nearest neighbor) 无参数 Classifier-lazy-IBk(k nearest neighbor) OPTIONS KNN -- The number of neighbors to use. 设置k值 Associative Classification Preprocess-open file (note: Discretized attributes) Associate-choose-Appriori (参数car-true) Associate-choose-PredictiveApriori (参数number of rules) * * * * * * * * * * ID3 (Iterative Dichotomiser )迭代的二分器 * * * * * * * * * * SplitI(A)值越小,表明属性A取值越少,GainRatio就越大,分类效果越好。 * * * * * * 信息管理学院 示例: 使用以上概率,可以得到: P(X|buys_computer=“yes”) =0.222*0.444 *0.667 *0.667=0.044 P(X|buys_computer=“no”) =0.600*0.400 *0.200 *0.400=0.019 P(X|buys_computer=“yes”) P(buys_computer=“yes”) =0.044*0.643=0.028 P(X|buys_computer=“no”) P(buys_computer=“no”) =0.019*0.357=0.007 因此,对于样本X,朴素贝叶斯分类预测:buys_computer=“yes” 贝叶斯分类 信息管理学院 对于连续属性? 离散化 把属性的范围划分为许多段: 每一段设定一个有序值 这样会违反独立性假设 估计概率密度: 假定属性服从正态分布 估计该属性分布的参数(例如, 均值和标准差) 在得到概率密度之后,我们可以使用它估计条件概率P(Ai|c) 示例: 信息管理学院 税号 去年退税 婚姻状况 可征税收入 逃税 1 是 单身 125k 否 2 否 婚姻中 100k 否 3 否 单身 70k 否 4 是 婚姻中 120k 否 5 否 离婚 95k 是 6 否 婚姻中 60k 否 7 是 离婚 220k 否 8 否 单身 85k 是 9 否 婚姻中 75k 否 10 否 单身 90k 是 每一对(Ai,ci)的正态分布: 例如对于(收入,逃税=否): 在逃税=否的情况下,可征税收入的 样本均值= 110 样本方差= 2975 示例: 信息管理学院 P(X|逃税=否) = P(去年退税=否|逃税=否) ? P(婚姻中|

文档评论(0)

4411184 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档