第三章电子商务信息搜集10-09解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章电子商务信息搜集10-09解析

3.利用k-means算法将以下用户分成两类 * * U 消费金额(万元) 未消费金额(万元) u1 1 1 u2 2 1 u3 1 2 u4 2 2 u5 4 3 u6 5 3 u7 4 4 u8 5 4 利用Apriori算法分析以下政务问答数据集的3项频繁集,并推出相应关联规则和置信度。 * * 序号 项目集 1 医疗,安全,就业 2 医疗,交通,社会福利 3 医疗,交通,社会福利,安全 4 交通,社会福利 构造子树根节点 * * 确定数据子集(3) 的根节点 计算数据子集(3)的先验熵 * * 数据子集(3)下windy属性的信息增益 1)计算数据子集(3)下windy属性取值的后验熵 * * No Windy Play 4 false yes 5 false yes 6 true no 10 false yes 14 true no 2)计算数据子集(3)下windy属性的条件熵 3)计算数据子集(3)下windy属性的信息增益 * * 数据子集(3)下temperature属性的信息增益 1)计算数据子集(3)下temperature属性取值的后验熵 * * No Temperature Play 4 mild yes 5 cool yes 6 cool no 10 mild yes 14 Mild no 2)计算数据子集(3)下temperature属性的条件熵 3)计算数据子集(3)下temperature属性的信息增益 * * 在数据子集(3)下,比较不同属性的信息增益,选出信息增益最大的属性字树根节点 因此,选择windy属性作为数据集(3)的树根节点 * * 构造子树根节点 rain,cool,normal,false ? no/yes? * * 3.4.2 K-means聚类算法 K-means聚类思想:根据“物以类聚”的思想,将 没有类别的样本聚集成不同的组(簇),使得簇内紧凑,簇间疏远。 * * * * 欧氏距离 给定数据集合X={xi | i=1,2,3,..,n},其中, xi的维度为d,即样本xi =( xi1 , xi2 ,…., xi d), 样本xj =( xj1 , xj2 ,…., xj d); 规定样本xi和xj欧氏距离为: * * k-means聚类算法采用误差平方和准则函数评价聚类性能。 假设数据集X包含k个聚类子集X1 ,X2,…,Xk ;各个聚类子集的聚类中心分别为 m1 .m2 …,mk ,则误差平方和准则函数为 * * k-means聚类算法描述: 输入: N个d 维聚类样本 ,聚类簇数 k 输出: k个聚类簇,使得误差平方和准则足够小或聚类簇不再发生变化 Step1:为每个聚类簇确定一个聚类中心 Step2:将样本集中的样本按照最小距离原则最邻近簇中; Step3:计算每个簇中样本的均值,并将其作为该簇的新聚类中心 Step4:重复step2, step3,直到误差平方和准则足够小或聚类中心不再发生变化 * * 例:利用k-means算法将以下用户分成两类 * * U 消费金额(万元) 未消费金额(万元) u1 0 2 u2 0 0 u3 1.5 0 u4 5 0 u5 5 2 (1)选择u1(0,2), u2(0,0)为初始簇中心,对应簇分别为C1, C2 即m1=u1=(0,2), m2=u2=(0,0) (2)对剩余的用户数据,根据其到每个簇中心 的距离,划分到不同簇中 对u3 则把 u3划分到簇C2中 * * 对u4 则把 u4划分到簇C2中 对u5 则把 u5划分到簇C1中 * * 得到新簇C1={u1,u5,}, C2={u2,u3,u4,} 计算平方误差准则 E1 =|0-0|2+|2-2|2 +|5-0|2+|2-2|2 =25 E2 =|0-0|2+|0-0|2 +|1.5-0|2+|0-0|2 +|5-0|2+|0-0|2 =27.25 E = E1 + E2 = 25+27.25=52.25 * * 计算簇的新聚类中心 m1=((0+5)/2, (2+2)/2)=(2.5,2) m2=((0+5+1.5)/3, (0+0+0)/3)=(2.17,0) * U 消费金额(万元) 未消费金额(万元) u1 0 2 u5 5 2 U 消费

文档评论(0)

441113422 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档