数据挖掘上机报告.docx

  1. 1、本文档共30页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘上机报告

数据挖掘实验上机报告课程名称 数据挖掘学生学院 管理学院 __专业班级 学 号 学生姓名_____指导教师________刘国胜老师_______2016 年 6 月第一次上机训练内容一 、 基础训练 ( 以下内容可参考课件 )创建标量、行向量、列向量、矩阵;标量——单个数据行向量——一行数据列向量——一列数据矩阵——m行n列的二维数据2、基本函数与操作;(1)创建一个向量(数组),求出向量的长度、转置、各元素之和、最大值、最小值;向量的长度、转置、各元素之和、最大值、最小值(2)创建一个二维矩阵,取出矩阵的某一个元素、某一行、某一列、某一子矩阵;创建一个二维矩阵 取出矩阵的某一个元素、某一行、某一列、某一子矩阵(3)创建两个二维方阵,计算两个矩阵的和、积、点积,计算两个矩阵横向连接和纵向连接后的新矩阵;创建两个二维方阵,计算两个矩阵的和、积、点积,计算两个矩阵横向连接纵向连接新矩阵;(4)创建一个向量,找出向量中所有大于 0 的元素的下标。3、自定义函数(可在帮助文件中搜索关于 function 的帮助文档)(1)自定义一个函数,输入为两个实数,输出为此两个数的和、差、积、商;代码:function [he cha ji shang] = Compute4(a,b)%UNTITLED ′?′|??ê?óD1?′?oˉêyμ??aòa% ′?′|??ê??ê???μ?÷he=a+bcha=a-bji=a*bshang=a/b end代码验证: c=Compute4(4,5)(2)自定义一个函数,输入为一个区间的左边界、右边界和步长,以该步长在此区间内绘制出函数 f(x)=x*sin(x)的图像;代码:function [z] = Image01(a,b,c)x=a:c:by=x.*sin(x)z=plot(x,y) end验证:图像(3)自定义一个函数,输入为一个向量,输出为向量中所有比前一个元素大的当前元素之和。代码: function [bb] = Sum01(a)c=length(a)bb=0for i=2:c if (a(i)a(i-1)) bb=bb+a(i) end end代码验证:4、自定义一个文件夹,将以上所有自定义函数放入此文件夹中,并让 matlab 程序的当前路径指向此文件夹第二次上机训练内容本次上机主要训练如何实现关联规则 Apriori 算法,训练前需掌握如何按算法流程对实例进行手工计算,例如,之前布置的课后作业:? 已知交易记录数据库 D 中有 9 条交易记录(事务):? T1:A,B,E T2:B,D T3:B,C T4:A,B,D? T5:A,C T6:B,C T7:A,C T8:A,B,C,E? T9:A,B,C? 设定最小支持度为 20%,最小可信度为 60%,找出所有的强规则并计算其支持度和可信度在对以上类型的问题进行关联规则挖掘时,需要考虑以下算法实现的问题:(1)首先考虑如何用(-1/0/1)表示事务集、频繁集、关联规则;(2)其次考虑创建两个函数,分别计算项集的支持度和可信度;(3)然后考虑如何得到所有的频繁项集;(4)最后考虑如何从所有频繁集中找出强关联规则。提示 :1、此算法的接口可定义为:[R,sup,conf]=Apriori(D,min_sup,min_conf)其中输入变量分别为事务集、最小支持度和最小可信度,输出分别为强规则、支持度和可信度。在作业中的例子中,事务集的可表示为:D(1:4, :)=[1,1,0,0,1; 0,1,0,1,0; 0,1,1,0,0; 1,1,0,1,0];输出的强规则由-1/0/1 组成,类似有如下形式:R=[-1, 1, 0, -1, 0]此规则的含义是 A,D?B。2、创建的计算支持度的函数有如下形式:sup=compute_sup(S, D)其中 S 为要计算支持度的项集,由 0/1 组成,有类似于上一条中 R 的形式。现在假设 S=[1, 0, 1, 0,0],则其计算支持度时需要顺序与 D 中的每一行进行比较,比较的公式如下:判断:all(D(i, :)-S)==true,如成立则支持度计数增加1,否则不增加。3、此问题的算法实现过程可能用到的 matlab 函数包含:eye, all, find, size, zeros, nchoosek原理:Apriori算法的基本过程是:扫描一遍数据库,得到一阶频繁项;用一阶频繁项构造二阶候选项;扫描数据库对二阶候选项进行计数,删除其中的非频繁项,得到二阶频繁项;然后构造三阶候选项,以此类推,直到无法构造更高阶的候选项,或到达频繁项集的最大长度限制。Apriori算法的示意流程如下图所示:如何从k阶的频繁项集生成k+1阶候选项集:自连接+裁剪(若k+1阶候选项

文档评论(0)

dsf80fhg0j + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档