原数据挖掘习题.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
原数据挖掘习题

ch1 讨论下列每项活动是否是数据挖掘任务:(a)?? 根据性别划分公司的顾客。 (b)?? 根据可赢利性划分公司的顾客。 (c)?? 计算公司的总销售额。 (d)?? 按学生的标识号对学生数据库排序。 (e)?? 预测掷一对骰子的结果。 (f)??? 使用历史记录预测某公司未来的股票价格。 (g)?? 监视病人心率的异常变化。 (h)?? 监视地震活动的地震波。 (i)???? 提取声波的频率。 A 数据越多越好 B 尽可能多的适合的数据 C数据越少越好 D 以上三条都正确 7. 数据挖掘算法以( D )形式来组织数据。 A 行 B列 C 记录 D 表格 Ch2 8. (ch2) 假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,20,21,22,22,25,25,25,25,30,33,33,35,35,35,35,36,40,45,46,52,70使用按箱平均值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。使用按箱值平滑对以上数据进行平滑,箱的深度是3。解释你的步骤。、 假定大学的数据仓库包含4个维{student学生、course课程、semester学期、instructor教师},2个度量count和avg_grade。在最低的概念层(例如对于给定的学生、课程、学期和教师组合),度量avg_grade存放学生的实际成绩。为数据仓库画出雪花模式图 、 假定数据仓库包含4个维date,spectator,location和game,2个度量count和charge。其中,change是观众在给定的日期观看节目的付费。观众可以是学生、成年人或老人,每类观众有不同的收费标准。画出该数据仓库的星形模式图 、数据库有4个事物。设min_sup=60%,min_conf=80%TID 日期 购买的物品 T100 99/10/15 {K,A,D,B} T200 99/10/15 {D,A,C,E,B} T300 99/10/19 {C,A,B,E} T400 99/10/22 {B,A,D} a)使用Apriori算法找出频繁项集 b)列出所有强关联规则(带支持度s和置信度c) 咖啡 不喝咖啡 汇总 茶 150 50 200 不喝茶 650 150 800 汇总 800 200 1000 若支持度和置信度阈值分别为10%,50%,评估关联规则{茶}——{咖啡}。(负相关) 12.(ch5,参P224 ) 有如下事务数据集。试挖掘频繁项集。(最小支持度为2) TID 项 1 {a,b} 2 {bcd} 3 {acde} 4 {ade} 5 {abc} 6 {abcd} 7 {a} 8 {abc} 9 {abd} 10 {bce} 结果: 后缀 频繁项集 e {e},{de},{ade},{ce},{ae} d {d},{cd},{bcd},{acd},{bd},{abd},{ad} c {c},{bc},{abc}{ac} b {b}{ab} a {a} 13.(ch5,参P256,17) 假定有一个购物篮数据集,包含100个事务和20个项。如果项a的支持度为25%,项b得支持度为90%,且项集{ab}得支持度为20%。令最小支持度阈值和最小置信度阈值分别为10%和60%。 1)计算关联{a}——{b}的置信度。根据置信度度量,这条规则是有趣的么?(这条规则是否是强关联规则?)(80%,是) 2){a}——{b}是否有趣?(负相关,无趣) 11. 求出下表的强关联规则(ch5) ID P1 P2 P3 P4 1 bread cheese butter water 2 water milk bread noodle 3 orange noodle meat beer 4 fish softdrink frozenmeal bread 12、 下表给出某门课程若干学生期中和期末考试成绩 期中 72 50 81 74 94 86 59 83 65 33 88 81 期末 84 63 77 78 90 75 49 79 77 52 74 90绘数据图。X和Y看上去具有线性联系吗? 年龄 收入 学生 信誉 归类:买计算机? 64 青 高 否 良 不买 64 青 高 否 优 不买 128 中 高 否 良 买 60 老 中 否 良 买 64 老 低 是 良 买 64 老 低 是 优 不买 64 中 低 是 优 买 128 青 中 否 良 不买 64 青 低 是 良 买 132 老 中 是 良 买 64 青 中 是 优 买 32 中 中

文档评论(0)

qiwqpu54 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档