- 1
- 0
- 约1.4万字
- 约 64页
- 2018-02-14 发布于江西
- 举报
电子商务新进展-数据挖掘
* 电子商务新进展:数据挖掘 遗传算法 变异算子:以一个很小的概率随机改变某条染色体中的某些基因位,形成新的种群,改变种群结构。 例:设染色体 s1= 00110 10010 11011 01100 10101 11101 00111 10011 按下划线所指进行变异操作,得到一条新的染色体。 s1’= 00110 10110 11011 01000 10101 11101 00110 10011 * 电子商务新进展:数据挖掘 References O. Maimon, L. Rokach (eds.), Data Mining and Knowledge Discovery Handbook(2nd ed.), 2010, Springer, 1-15, 149-174, 231-265, 269-319, 371-400, 419-444 * 电子商务新进展:数据挖掘 决策树—ID3学习算法 ID3算法(Quinlan):ID3算法对CLS做了两方面的改进:(1)增加窗口技术;(2)以信息熵的下降速度(信息增益)作为测试属性选择标准。 窗口技术:对于训练集很大的情形可选择其某个子集(称为窗口)构造一棵决策树,如果该决策树对训练集中的其它样本的判决效果很差,则扩大窗口,选择不能被正确判别的样本加入到窗口中,再建立一个新的决策树,重复这个过程得到最终的决策树,显然不同的初始窗口会产生不同的决策树。 * 电子商务新进展:数据挖掘 决策树—ID3学习算法 信息增益 :设决策树根结点的样本数据为X={x1,x2,…,xn},称X的两个训练子集PX(对应类标签为1)和NX (对应类标签为-1)为正例集和反例集,并记正例集和反例集的样本数分别为P和N,则样本空间的信息熵为 假设以随机变量A作为决策树根的测试属性,A具有k个不同的离散值v1,v2,…,vk,它将X划分为k个子集,且假设第j个子集中包含Pj个正例,Nj个反例,则第j个子集的信息熵为I(Pj,Nj)。 * 电子商务新进展:数据挖掘 决策树—ID3学习算法 以A为测试属性的期望信息熵为 以A为根节点的信息增益是: Gain(A)=I(P,N)-E(A) ID3的策略就是选择信息增益最大的属性作为测试属性。 ID3的问题:测试属性的分支越多,信息增益值越大,但输出分支多并不表示该测试属性有更好的预测效果。 * 电子商务新进展:数据挖掘 决策树—C4.5学习算法 信息增益率: 其中: 目前一种比较流行的决策树算法C4.5算法就是以信息增益率作为测试属性的选择条件。 生成的决策树往往过大,不利于决策时的应用,需要对其剪枝(Pruning),请参阅相关文献。 决策树—算例 * 电子商务新进展:数据挖掘 A0 A1 A2 A3 类 0 0 0 0 -1 0 0 0 1 -1 0 0 1 0 -1 0 0 1 1 -1 0 1 0 0 1 0 1 0 1 1 0 1 1 0 1 0 1 1 1 1 1 0 0 0 -1 1 0 0 1 -1 1 0 1 0 -1 1 0 1 1 -1 1 1 0 0 1 1 1 0 1 1 1 1 1 0 -1 1 1 1 1 -1 确定根结点 I(P,N)=-10/16log(10/16)-6/16log(6/16) =-5/8log5-3/8log3+3=0.9544 E(A0)=1/2(-4/8log(4/8)-4/8log(4/8)) +1/2(-6/8log(6/8)-2/8log(2/8))=0.9056 E(A1)=1-3/8log3=0.4084 E(A2)=1-3/16log3=0.9056 E(A3)=3-5/8log5-3/8log3=0.9544 因此选A1作为起始根结点。A3没有改变任何信息量,无分类价值,可以删除。 * 电子商务新进展:数据挖掘 决策树—算例 A1 1 0 -1 A0 A1 A2 A3 类 0 0 0 0 -1 0 0 0 1 -1 0 0 1 0 -1 0 0 1 1 -1 0 1 0 0 1 0 1 0 1 1 0 1 1 0 1 0 1 1 1 1 1 0 0 0 -1 1 0 0 1 -1 1 0 1 0 -1 1 0 1 1 -1 1 1 0 0 1 1 1 0 1 1 1 1 1 0 -1 1 1 1 1 -1 确定子树根结点 I(P,N)=-6/8log6/8-2/8log2/8=0.8112 E(A0)=E(A2)=1/2=0.5 E(A3)=2-3/4log3=0.8112 A0,A2具有相同的分类能力,任取一个均可。 * 电子商务新进展:数据挖掘 决策树—算例 A1 A0 1 0 -1 +1 A2 +1 0 1 -1 0
您可能关注的文档
最近下载
- 食堂食材配送采购投标方案(技术标).doc
- 毕业设计 大连文翠苑小区2#楼建筑结构设计.doc VIP
- 2025年山东信息职业技术学院单招语文测试模拟试卷真题题库.docx VIP
- DB32T 5156-2025零碳园区建设指南.pdf VIP
- 2026年潍坊环境工程职业学院单招综合素质考试题库附答案.docx VIP
- 零售业职业经理人胜任特征模型研究.doc VIP
- CASIO PRW-5000T-7E-5114 说明书.pdf VIP
- 2025高考政治全国二卷真题试卷+参考答案.docx VIP
- 制造企业外购件管理规范及流程.docx VIP
- DB31_T 1582-2025 智能网联汽车网络安全保障能力测评要求.pdf VIP
原创力文档

文档评论(0)