第四章 示例学习的实用化 机器学习 教学课件.pptVIP

第四章 示例学习的实用化 机器学习 教学课件.ppt

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第四章 示例学习的实用化 机器学习 教学课件

* 第四章 示例学习的实用化 4.1 定量属性的定性化 等宽离散法 L 2. 决策树连续属性值处理(二分离散法) 1) 切点法: T 类熵(class entropy) 类信息熵(class information entropy) S1: 切点T左边的例子集 S2:切点T右边的例子集. |s| 集合s中的例子数 N=|s| 2) 界点法: T1 T2 T3 T4 T5 3)多切点法: er er+1 Tr Tr+1 Emin是目前为止得到的最小信息熵,如果 E(Tr)-max_diff(Tr)? Emin, 则E(Tr+1) ? Emin Max_diff(Tr)随着r的增加单调递减. 启发式1: 设Emin是迄今为止得到的最小信息熵,则从Tr开始下一个需要计算熵的切点是Tr+? ?与Emin有关,因此,被忽略的结点数与属性被处理的顺序有关,如果最相关的属性被首先处理,Emin就会被早些得到,因此,以后计算中?值就会较大,所以省略的结点数就多,为减少算法的运行时间,最相关的属性应首先被处理. Max_diff(Tr)是单调递减的,所以连续属性排序后,属性值域的后半部分?值较高. 通常,如果相关属性先被处理,对不相关属性使用启发式1,将是较有效的. 启发式2. 对于每个属性Ai,Tmi是其一个切点,把例子集分成两个例子数相等的子集, E(Tmi)是Tmi的熵,对各属性按E(Tmi)从小到大的顺序使用启发式1进行离散化. 3.多区间划分 停止标准(最小描述长度) K1,k2分别是T左右两边例子的类别数 4. Bayes离散法 设有两类W1和W2 状态先验概率P(wi),条件概率p(x|Wi) i=1,2 P(Gj)=|Gj|/|?sGs| P(x|Gj)=(k/mj)/A(k,x) mj=|Gj|, k= A(k,x)以x为中心,恰好包含了k个例子的区间长度. 算法 1)对I=1,2,….,n;求Gi类例子的个数 2) 所有例子的个数|UsGs| 3) 对I=1,2,…,n;求P(Gi)=|Gi|/|UsGs| 4) 从区间左端开始,按某步长step向右走,对于每一点x计算A(k,x),具体办法是:以x为中心点,以step为步长向两端扩展,直到包含k个例子为止,然后计算该点的P(x|Gj)=(k/mj)/A(k,x),如果有两个值Xs、Xs+1(Xs+1=Xs+step), 使得P(Xs|Gi1)P(Gi1)=max{P(Xs|Gj)P(Gj)}, P(Xs+1|Gi2)P(Gi2)=max{P(Xs+1|Gj)P(Gj)}, j=1,2,…,n, i1≠i2,则Xs+1 为切分点 背景 知识 库 数据 库 知识 库 数据库 接口模块 连续属性 离散化模块 规则抽 取模块 检测 模块 背景知识 编辑模块 总控模块 显示 模块 类型 未知 的例 子 例子类别 *

文档评论(0)

jiupshaieuk12 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6212135231000003

1亿VIP精品文档

相关文档