- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
090804068_黄小凤_实验1.doc
……………………………………………装……………………………………订……………………………………线……………………………………………………………
《数据分析与挖掘》实验报告 学号 090804068
开课实验室:中心302 2012年 月 日
学院 陈守仁工商信息学院 年级、专业、班 09电子商务 姓名 成绩 课程
名称 数据分析与挖掘 实验项目
名 称 购物篮分析 指导教师 郭建宏 教师评语
教师签名:
年 月 日 一、实验目的
本实验通过一个超市购物篮分析的示例,来说明数据挖掘关联分析的实现步骤,包括数据挖掘的两个阶段:关联规则建模和一个揭示所购买商品之间联系的 Web 显示?描绘已标识产品组的购买者的特征(C5.0 规则归纳)。本示例处理描述超级市场购物篮内容(即,所购买的全部商品的集合)的虚构数据,以及购买者的相关个人数据(可通过忠诚卡方案获得)。目的是寻找购买相似产品并且可按人口统计学方式(如按年龄、收入等)刻画其特征的客户群。计算机每位同学一台,SPSS Clementine软件(本次实验使用11.1版本),已安装。要求将实验结果直接输出Stream文件根据学生提交的Stream文件进行成绩的判定。(数据、图表、计算等)
1.访问数据
使用“变量文件”节点连接到数据集 BASKETS1n,选择要从该文件读取的字段名称。将“类型”节点连接到数据源,然后将该节点连接到“表”节点。将字段卡 ID 的类型设置为无类型(因为每个忠诚卡 ID 在数据集中只出现一次,因此对于建模没有用处)。选择集作为字段性别的类型(这是为了确保 GRI 建模算法不会将性别视为标志)。执行该流以将“类型”节点实例化并显示表。数据集包含 18 个字段,其中每条记录表示一个购物篮。 发现购物篮内容的关系首先,需要使用一般规则归纳 (GRI) 大致了解购物篮内容的关系(关联)以生成关联规则。选择要在此建模过程中使用的字段,方法是:编辑“类型”节点,将所有产品类别的方向设置为双向,并将所有其他方向设置为无。(双向表示该字段可以是结果模型的输入或输出。)注意:通过按住 Shift 键并单击以选择多个字段,然后指定列中的选项,可为多个字段设置选项。
指定了用于建模的字段后,请将 GRI 节点附加到“类型”节点,编辑它,选择选项只显示值为真的标志变量,然后执行 GRI 节点。结果(管理器窗口右上角“模型”选项卡上的非精练模型)包含您可以查看(使用上下文菜单,然后选择浏览)的关联规则。Apriori 节点了解购物篮内容的关系(关联)GRI 模型和Apriori 模型的结果有什么不同。
这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联;酒和糖果也具有关联。出现双向关联规则如:
Frozenmeal
beer >> frozenmeal
由于只显示双向关联可能会突出显示此数据中的一些模式。 将 Web 节点附加到“类型”节点,编辑 Web 节点,选择所有购物篮内容字段,选择仅显示 true 标志,然后执行 Web 节点。 因为大多数产品类别组合都会出现在多个购物篮中,所以此 Web 上的强链接太多,无法显示 GRI 模型表示的客户群。要提高临界值以便只显示最强的链接,请使用工具栏上的滑块来实现最多只显示 50 个连接。
要指定弱连接和强连接,请单击工具栏上的黄色双箭头按钮。这会展开显示 Web 输出摘要和控件的对话框。
选择大小表示强/正常/弱。
将弱链接设置为低于 90。
将强链接设置为高于 100。
在最终显示中,会有三个客户群突出显示:??购买鱼和果蔬的客户,可将这类客户称为“健康食客”
??购买酒和粮果的客户
??购买啤酒、冻肉和罐装蔬菜(“啤酒、豆类和比萨”)的客户
请注意,GRI 仅标识这些客户群中的最后两个;健康食客未形成足够强的模式,GRI 无法发现它。
描绘客户群的特征现在,您已经根据客户购买的产品类型标识了三个客户群,但是还要知道这些客户是谁,即,他们的人口统计学特征。通过为每个群中的每名客户添加标志,并使用规则归纳 (C5.0) 来基于规则描绘这些标志的特征,可以实现这一点。
首先,必须获取每个群的标志。使用刚刚创建的 Web 显示,可以自动生成每个群的标志。使用鼠标右键,单击fruitveg和fish之间的链接,并选择为链接生成“导出”节点。编辑最终的“导出”节点以将“导出”字段名称更改为。使用从wine到confectionery的链接重复该练习,并将最终的“导出”字段命名为 wine_chocs。
对于第三个群(涉及三个链接),首先要确保未选择任何链接。然后,在按住 shift 键的
您可能关注的文档
最近下载
- 2024年10月27日云南昭通市事业单位选调笔试真题及答案解析.doc VIP
- 讲义总结岩土工程勘察讲义.ppt VIP
- 非常规油气勘探开发地质风险评估.pdf
- 中职 图形图像处理(Photoshop CS5)PS(第7章)教学课件 高教版.ppt VIP
- 市政道路监理规划-范本.pdf VIP
- 2025海南省通信网络技术保障中心招聘事业编制人员12人(第1号)笔试模拟试题及答案解析.docx VIP
- 《飞机上应急医疗》课件——心肺复苏的流程.pptx VIP
- 中职 图形图像处理(Photoshop CS5)PS(第6章)教学课件 高教版.ppt VIP
- 抖音直播社区公约.pdf VIP
- 地质灾害治理工程施工技术规范 DB50_T 989-2020 重庆.pdf VIP
文档评论(0)