(数据挖掘实验报告.docxVIP

下载本文档

30
0
约 9页
2018-05-30 发布于四川
举报
版权申诉

(数据挖掘实验报告.docx

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

(数据挖掘实验报告

市场购物篮分析经济管理学院企业管理专业 1306122427 杨欢欢实验背景随着社会进入信息化时代，现代化的企业搜集了大量数据或高维数据，包括市场、客户、供货商、竞争对手以及未来趋势等重要信息，但是信息超载与无结构化，使得企业决策部门无法有效利用现存的信息，甚至使决策行为产生混乱与误用。通过数据挖掘技术，可以从大量的数据中，挖掘出不同的信息与知识来支持决策，必能产生企业的竞争优势。数据挖掘和知识发现是一个涉及多学科的研究领域。数据库技术、人工智能、机器学习、统计学、粗糙集、模糊集、神经网络、模式识别、知识库系统、高性能计算、数据可视化等均与数据挖掘相关。近年来，与数据库的知识发现研究领域已经成为热点，其中关联规则数据挖掘算法是数据挖掘中的一个很重要的课题，它是从背后发现数据中的关联或联系。本实验主要处理描述超级市场购物篮内容（所购买的全部商品的集合）的虚构数据，以及购买者的相关个人数据。目的是寻找购买相似产品并且购买相似产品的客户群特征。实验目的掌握数据挖掘的基础知识，能够深刻理解并熟练运用GRI和C5.0规则，能够熟练运用SPSS Clementine11.1软件进行数据分析。利用GRI和C5.0规则对商场客户交易数据进行分析，从中发现客户购买的商品之间的关联关系，并进一步归纳出购买相似商品的顾客群的特征。理解并操作实验中数据挖掘的两个部分，一是关联规则建模和一个显示所购买商品关联关系的网络图；二是C5.0 规则归纳，显示购买建立的产品组合的顾客群具有的特征。操作环境1、系统环境：Windows XP2、软件环境：SPSS Clementine11.13、软件简介：作为一个数据挖掘平台， Clementine结合商业技术可以快速建立预测性模型，进而应用到商业活动中，帮助人们改进决策过程。强大的数据挖掘功能和显著的投资回报率使得Clementine在业界久负盛誉。同那些仅仅着重于模型的外在表现而忽略了数据挖掘在整个业务流程中的应用价值的其它数据挖掘工具相比， Clementine其功能强大的数据挖掘算法，使数据挖掘贯穿业务流程的始终，在缩短投资回报周期的同时极大提高了投资回报率。四、实验数据本实验所使用的数据是SPSS Clementine11.1自带的数据，名为BSAKETS1n，该数据包含18个字段，1000条记录。1、购物篮摘要：cardid（购买此篮商品的客户的忠诚卡标识符）、Value（购物篮的总购买价格）、pmethod（购物篮的支付方法）；2、卡持有者的个人详细信息： Sex、homeown（卡持有者是否拥有住房）、收入、age ；3、购物篮内容—产品类别的出现标志：fruitveg, freshmeat, dairy, cannedveg, cannedmeat, frozenmeal, beer, wine, softdrink, fish, confectionery。五、实验步骤1、新建工作流，附加数据1.1、该模型的数据存储为BSAKETS1n，首先在选择面板选择可变文件节点作为数据读入节点，双击该结点进行编辑，加入数据存储文件。结果如图1。图12、使用一般规则归纳 (GRI) 大致了解购物篮内容的关系（关联）以生成关联规则2.1、选择要在此建模过程中使用的字段，方法是：编辑“类型”节点，将所有产品类别的方向设置为双向，其他方向设置为无，如图2。其中，双向表示该字段可以是结果模型的输入或输出。然后，连接一个“表”节点，执行查看需要字段的数据，如图3。图2图32.2、在选择面板中的建模目录中选择GRI节点连接到到数据流中，然后对该节点进行编辑，选择选项只显示值为真的标志变量，然后执行 GRI 节点。在管理器的模型栏中显示产生未精炼模型，这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联；酒和糖果也具有关联。如图4与图5。这些规则显示冻肉、罐装蔬菜和啤酒之间存在多种关联；酒和糖果也具有关联。图4图5结果分析：图四结果显示了购买各种商品之间的关联关系。这个表的每一行表明了购买某种商品的时候还有可能购买哪些商品，它是用关联分析中的支持度和置信度来分析的。支持度越大，说明同时被购买的可能性越大。我们以第一行结果为例分析，支持度为3.0%，置信度为96.67，顾客在购买cannedveg时有可能会同时购freshmeat,frozenmeal,beer这三种商品，对于其它行同样用此方法分析。2.3、在“图形”中选择“网络”节点拖入到工作框，然后与 “类型”节点连接。编辑“网络”节点，选择购物篮所有产品字段，选择仅显示真值，如图6。图62.4执行网络节点，得到如图7所示的网络图。然后指定弱连接和强连接，单击工具栏上的黄色双箭头按钮。这会展开显示 Web 输出摘要和控件的对话框。选择大小表示强