- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
决策树模型概述
决策树模型
排名
挖掘主题
算法
得票数
发表时间
作者
陈述人
1
分类
C4.5
61
1993
Quinlan, J.R
Hiroshi Motoda
2
聚类
k-Means
60
1967
MacQueen, J.B
Joydeep Ghosh
3
统计学习
SVM
58
1995
Vapnik, V.N
QiangYang
4
关联分析
Apriori
52
1994
Rakesh Agrawal
Christos Faloutsos
5
统计学习
EM
48
2000
McLachlan, G
Joydeep Ghosh
6
链接挖掘
PageRank
46
1998
Brin, S.
Christos Faloutsos
7
集装与推进
AdaBoost
45
1997
Freund, Y.
Zhi-Hua Zhou
8
分类
kNN
45
1996
Hastie, T
Vipin Kumar
9
分类
Naïve Bayes
45
2001
Hand, D.J
Qiang Yang
10
分类
CART
34
1984
L.Breiman
Dan Steinberg
共有145人参加了ICDM 2006 Panel (会议的专题讨论),并对18种候选算法进行投票,选出了数据挖掘10大算法
ICDM 2006会议的算法投票结果
信息的定量描述
衡量信息多少的物理量称为信息量。
若概率很大,受信者事先已有所估计,则该消息信息量就很小;
若概率很小,受信者感觉很突然,该消息所含信息量就很大。
信息量的定义
根据客观事实和人们的习惯概念,函数f(p)应满足以下条件:
f(p)应是概率p的严格单调递减函数,即当p1p2, f(p1)f(p2);
当p=1时,f(p)=0;
当p=0时,f(p)=∞;
两个独立事件的联合信息量应等于它们分别的信息量之和。
对信息量的认识理解
信息量的定义
若一个消息x出现的概率为p,则这一消息所含的信息量为
其中,对数的底大于1
信息量单位
以2为底时,单位为 bit(binary unit,比特)
以e为底时,单位为 nat(natural unit,奈特)
以10为底时,单位为 hart(Hartley,哈特)
抛一枚均匀硬币,出现正面与反面的信息量是多少?
解:出现正面与反面的概率均为0. 5,它们的信息量是
I(正)= -lbp(正)= -lb0.5=1b
I(反)= -lbp(反)= -lb0.5=1b
抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少?
解:出现正面与反面的概率分别是1/4,3/4,它们的信息量是
I(正)= -lbp(正)= -lb1/4=2b
I(反)= -lbp(反)= -lb3/4=0.415b
信源含有的信息量是信源发出的所有可能消息的平均不确定性,香农把信源所含有的信息量称为信息熵,是指每个符号所含信息量的统计平均值。m种符号的平均信息量为
抛一枚均匀硬币的信息熵是多少?
解:出现正面与反面的概率均为0. 5,信息熵是
抛一枚畸形硬币,出现正面与反面的概率分别是1/4,3/4,出现正面与反面时的信息量是多少?
解:出现正面与反面的概率分别是1/4,3/4,信息熵是
例:气象预报
12
条件自信息量
在事件yj出现的条件下,随机事件xi发生的条件概率为p(xi | yj) ,则它的条件自信息量定义为条件概率对数的负值:
13
条件熵
在给定yj条件下,xi的条件自信息量为I(xi| yj), X集合的条件熵H(X|yj)为
在给定Y(即各个yj )条件下,X集合的条件熵H(X|Y)
条件熵H(X|Y)表示已知Y后,X的不确定度
是否适合打垒球的决策表
天气
温度
湿度
风速
活动
晴
炎热
高
弱
取消
晴
炎热
高
强
取消
阴
炎热
高
弱
进行
雨
适中
高
弱
进行
雨
寒冷
正常
弱
进行
雨
寒冷
正常
强
取消
阴
寒冷
正常
强
进行
晴
适中
高
弱
取消
晴
寒冷
正常
弱
进行
雨
适中
正常
弱
进行
晴
适中
正常
强
进行
阴
适中
高
强
进行
阴
炎热
正常
弱
进行
雨
适中
高
强
取消
活 动
天 气
是否进行垒球活动
进行
取消
晴
阴
雨
晴
阴
雨
活 动
进行
取消
活动的熵
活动有2个属性值,进行,取消。其熵为:
H(活动) = - (9/14)*log (9/14) - (5/14)*log (5/14) = 0.94
活 动
进行
取消
已知户外的天气情况下活动的条件熵
户外有三个属性值,晴,阴和雨。其熵分别为:
H(活动|户外=晴) = - (2/5)*log2(2/5) - (3/5)*log2(
您可能关注的文档
最近下载
- 高热封强度耐135℃高温蒸煮的CPP膜及其制备方法.pdf VIP
- 物业交接表格-全.pdf VIP
- (高清版)DG∕TJ 08-2433B-2023 外墙保温一体化系统应用技术标准(现浇混凝土保温外墙).docx VIP
- GB8478-2020 铝合金门窗国家标准.pdf VIP
- 福建福州市八县市2024-2025高二上学期期中数学试卷及答案.pdf VIP
- 正确的员工考核评分表1.doc VIP
- 部编版三年级下册晋升职称无生试讲稿——22.我们奇妙的世界(1).docx VIP
- 《人工智能发展历程》课件.ppt VIP
- 十五规划PPT课件.pptx VIP
- 入党积极分子考试题库及答案.docx VIP
原创力文档


文档评论(0)