数据分析方法与技术-关联规则实验报告.docVIP

数据分析方法与技术-关联规则实验报告.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据分析方法与技术-关联规则实验报告

电子科技大学政治与公共管理学院 本科教学实验报告 (实验)课程名称:数据分析技术系列实验 电子科技大学教务处制表 电 子 科 技 大 学 实 验 报 告 学生姓名: 学 号: 指导教师: 一、实验室名称: 电子政务可视化实验室 二、实验项目名称:关联规则 三、实验原理 设I={i1,i2,…,in}是项目的集合,其中的元素称为项目(item)。 记D为事务T (transaction)的集合,这里 T 是项目的集合,并且。 对应每一个事务有一个唯一的标识,如事务号,记为TID。 设 X 是一个I中项目的集合,如果,那么称事务T包含X。如果项目 X 包含个项目,则称其为项集。 一个关联规则是形如的逻辑蕴含式,这里,,并且。 支持度(support): 规则在事务集 D 中的支持度是事务集中同时包含 X 和 Y 的事务数与所有事务数之比。 它反映了规则的可靠程度,记为 support( )即 如果项集的支持度超过用户给定的最小支持度阈值,则称该项集为频繁项集(或大项集Large)。 置信度(confidence) 规则X Y在事务集中的置信度是指同时包含X和Y的事务数与包含 X 的事务数(不考虑是否包含 Y )之比。 它反映规则的把握程度,是一个条件概率,即support(XY)/support(X), 记为confidence(X ( Y) 同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。 四、实验目的 理解关联规则的基本原理,掌握在Statistica软件中因子分析的主要参数设置及其含义,掌握Statistica软件分析结果的含义及其分析。 五、实验内容及步骤 实验内容:以青少年消费偏好 调查数据为基础,运用关联规则分析方法对数据进行分析。 实验步骤: (1) 基于对青少年消费偏好的调查,对青少年在快餐食品选择上的偏好进行关联分析。数据集见实验数据包:Fastfood.sta。 (2) 关联规则分析的调用 启用Statistics菜单下的Data-Mining中的Association Rules分析功能,如下图示。 图1.关联规则的调用 (3) 分析变量选取及参数设置 首先进行分析变量的选取。 图2变量选取-1 图3变量选取-1 图4支持度、置信度阈值的设置 六、实验器材(设备、元器件): 计算机、打印机、硒鼓、碳粉、纸张 七、实验数据及结果分析 图5 从图5可以看出,Gender==Male的频数为164,支持度为82%;Pizza的频数为138,支持度为69%;Hamburger的频数为114,支持度为57%;Gender==Male,Pizza的频数为115,支持度为57%;Gender==Male,Hamburger的频数为94,支持度为47%。 图6 从图6可以看出,Gender==Male==Pizza的支持度为57.5%,信度为70.1295%,相关度为76.44276,为强规则;Gender==Male==Hamburger的支持度为47%,信度为57.31307%,相关度为68.74696%,为强规则;Pizza==Gender==Male的支持度为57.50000%,置信度为83.33333%,相关度为76.44276%,为强规则;Hamburger==Gender==Male的支持度为47.00000%,置信度为82.45614%,相关度为68.74696%,为强规则。 图7 图8 从图8和9可以看出,面积越大,颜色越深,二者关联规则越强。 八、实验结论 Statistica在数据分析方面提供了强大的能力,可以快速地得到丰富的关联结果供数据分析人员选用,重点在于理解各输出参量的含义及其与数据分析对象属性之间的关系。本实验的结果让我比较好地了解了基于本调查数据的关联分析 九、总结及心得体会 通过此实验懂得了Statistica基本,掌握了关联规则分析的原理。应学会应用在工作中关联规则分析问题。 学生用spss或者excel进行关联分析,通过Statistica计算结果进行比较,更好的理解各统计量的含义及其计算过程。 学生应Statistica软件的相关操作。

文档评论(0)

youshen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档