- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验指导讲解
数据仓库与数据挖掘技术
实验指导
刘小明
实验1. Matlab基础实践
实验目的
熟悉matlab的基本用法
实验内容
1. 编写一个函数,计算给定半径的圆的周长与面积。函数名为fcircle。
2. matlab绘图,在[0,2π]区间内,绘制曲线
3. 熟悉课件中matlab一维和2维数组,数组下标、字符串等相关内容。
实验二 聚类算法实验指导
实验目的
聚类分析是数据分析中的一种重要技术,它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作,如数据挖掘、统计学、机器学习、模式识别、生物学、空间数据库技术、电子商务等。
用Matlab 7实现聚类基本算法. 掌握聚类算法中以下的关键步骤的实现
1) 选择模型类别
2)定义代价函数
3)选择模型结构
4) 搜索模型参数
实验内容
1)利用 clusterdata 函数对数据样本进行一次聚类
2)分步聚类:( 1)用 pdist函数计算变量之间的??离,找到数据集合中两辆变量之间的相似性和非相似性;( 2)用 linkage函数定义变量之间的连接;( 3)用 cophenetic函数评价聚类信息;( 4)用 cluster函数进行聚类。
实验步骤
1)一次聚类 。任意生成一个2维数据集,用Clusterdata函数对其进行聚类,并用图示方式显示聚类结果
提示:Clusterdata函数可以视为 pdist、 linkage与 cluster的综合,一般比较简单。
【 clusterdata函数: 调用格式: T=clusterdata(X,cutoff)?????
???????????????????? ?等价于Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z,cutoff)? 】
2)分步聚类
( 1)求出变量之间的相似性
用pdist生成一个 M*(M-1)/2个元素的行向量,分别表示 M个样本两两间的距离。用 squareform函数将其转化为方阵,其中 x(i,j)表示第 i个样本与第 j个样本之的距离,对角线均为 0.
提示:用 pdist函数计算出相似矩阵,有多种方法可以求距离,若此前数据还未无量纲化,则可用 zscore函数对其标准化
【 pdist函数: 调用格式: Y=pdist(X,’metric’)
?说明: X是 M*N矩阵,为由 M个样本组成,每个样本有 N个字段的数据集
????????metirc取值为:’ euclidean’:欧氏距离(默认) ‘seuclidean’:标准化欧氏距离; ‘mahalanobis’:马氏距离 … 】
( 2)用 linkage函数来产生聚类树
提示:【 linkage函数: 调用格式: Z=linkage(Y,’method’)
说明: Y为 pdist函数返回的 M*(M-1)/2个元素的行向量,
??method可取值: ‘single’:最短距离法(默认); ’complete’:最长距离法;
??????????????????????????????????‘average’:未加权平均距离法; ’weighted’:加权平均法
????????????????????????????? ? ?‘centroid’: 质心距离法; ????? ‘median’:加权质心距离法;
?????????????????????????????? ? ‘ward’:内平方距离法(最小方差算法) 】
返回的 Z为一个 (M-1)*3的矩阵,其中前两列为索引标识,表示哪两个序号的样本可以聚为同一类,第三列为这两个样本之间的距离。另外,除了 M个样本以外,对于每次新产生的类,依次用 M+1、 M+2、 …来标识。
为了表示 Z矩阵,我们可以用更直观的聚类数来展示, 方法为: dendrogram(Z), 产生的聚类数是一个 n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列。
???????? 另外,还可以设置聚类数最下端的样本数,默认为 30,可以根据修改 dendrogram(Z,n)参数 n来实现, 1nM。 dendrogram(Z,0)则表 n=M的情况,显示所有叶节点。
( 3)用 cophenetic函数评价聚类信息
提示:【 cophenet函数:?? 调用格式: c=cophenetic(Z,Y)
??说明:利用 pdist函数生成的 Y和 linkage函数生成的 Z计算 cophenet相关系数。】
cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度 ,就是检测二叉聚类树中各元素间的距离和 pdist计算产生的实际
文档评论(0)