学习资料第5章:数据仓库与数据挖掘的决策支持(1).pptVIP

  • 5
  • 0
  • 约1.86万字
  • 约 122页
  • 2020-11-19 发布于湖北
  • 举报

学习资料第5章:数据仓库与数据挖掘的决策支持(1).ppt

⒊ 互信息计算 对 A1=天气 处有: I(天气)=H(U)- H(U|V)= 0.94 - 0.694 = 0.246 bit 类似可得: I(气温)=0.029 bit I(湿度)=0.151 bit I(风)=0.048 bit ⒋ 建决策树的树根和分枝 ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3 个分枝对应3 个子集,分别是: F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14} 其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。 课件 ⒌ 递归建树 分别对F1和F3子集利用ID3算法,在每个子集中对各特征(仍为四个特征)求互信息. (1)F1中的天气全取晴值,则H(U)=H(U|V),有I(U|V)=0,在余下三个特征中求出湿度互信息最大,以它为该分枝的根结点,再向下分枝。湿度取高的例子全为N类,该分枝标记N。取值正常的例子全为P类,该分枝标记P。 (2)在F3中,对四个特征求互信息,得到风特征互信息最大,则以它为该分枝根结点。再向下分枝,风取有风时全为N类,该分枝标记N。取无风时全为P类,该分枝标记P。 天 气 湿 度 风 晴 雨 多云 高 正常 有风 无风 P N N P P ID3决策树 课件 4、C4.5算法 ID3算法在数据挖掘中占有非常重要的地位。但是,在应用中,ID3算法不能够处理连续属性、计算信息增益时偏向于选择取值较多的属性等不足。 C4.5是在ID3基础上发展起来的决策树生成算法,由J.R.Quinlan在1993年提出。C4.5克服了ID3在应用中存在的不足。 课件 C4.5的进步 (1)用信息增益率来选择属性,它克服了用信息增益选择属性时偏向选择取值多的属性的不足; (2)在树构造过程中或者构造完成之后,进行剪枝; (3)能够完成对连续属性的离散化处理; (4)能够对不完整数据的处理,例如未知的属性值; (5)C4.5采用的知识表示形式为决策树,并最终可以形成产生式规则。 4、C4.5算法 课件 C4.5构造决策树的算法 Quinlan在ID3中使用信息论中的信息增益(gain)来选择属性,而C4.5采用属性的信息增益率(gain ratio)来选择属性。 信息增益率 理论和实验表明,采用“信息增益率”(C4.5方法)比采用“信息增益”(ID3方法)更好,主要是克服了ID3方法选择偏向取值多的属性。 课件 5.6.3 决策规则树及应用 IBLE方法: IBLE方法是利用信息论中信道容量来选择属性,比互信息更好。IBLE方法建决策规则树,每个结点由多个属性取值组成,提高了属性组合的识别效果。 属性的选取通过计算各属性信道容量进行. 各属性的正例标准值由译码函数决定. 结点中判别正反例的阈值(wn,wp)是由实例中权值变化的规律来确定的. IBLE比ID3识别率提高了10个百分点。 课件 5.6.4 数据挖掘的决策支持应用领域 1、金融 (1)“数据清理”、金融市场分析和预测 (2)帐户分类、银行担保和信用评估。 2、医疗保健 任务是进行数据清理,预测医疗保健费用。 3、市场业 进行市场定位和消费者分析,辅助制定市场策略。 课件 5.6.4 数据挖掘的决策支持应用领域 4、零售业 目前主要应用于销售预测、库存需求、零售点选择和价格分析。 5、制造业 进行零部件故障诊断、资源优化、生产过程分析等。 6、司法 应用在案件调查、诈骗监测、洗钱认证、犯罪组织分析等工作。 课件 * 1.由于数据库技术的发展,各企业积累并存放了大量业务数据,而它为企业提供辅助决策信息太少,需要改变目前现状。 2. 由于市场竞争激烈,新产品周期缩短,如何综合利用分散的异构环境数据源,及时得到准确的信息是使企业取得成功的关键。 * 1.由于数据库技术的发展,各企业积累并存放了大量业务数据,而它为企业提供辅助决策信息太少,需要改变目前现状。 2. 由于市场竞争激烈,新产品周期缩短,如何综合利用分散的异构环境数据源,及时得到准确的信息是使企业取得成功的关键。 2、集合论方法 (1)粗糙集(Rough Set)方法 对数据库中的条件属性集与决策属性集建立上下近似关系,对下近似集合建立确定性规则,对上近

文档评论(0)

1亿VIP精品文档

相关文档