数据挖掘实验指导讲解.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘实验指导讲解

数据仓库与数据挖掘技术 实验指导 刘小明 实验1. Matlab基础实践 实验目的 熟悉matlab的基本用法 实验内容 1. 编写一个函数,计算给定半径的圆的周长与面积。函数名为fcircle。 2. matlab绘图,在[0,2π]区间内,绘制曲线 3. 熟悉课件中matlab一维和2维数组,数组下标、字符串等相关内容。 实验二 聚类算法实验指导 实验目的 聚类分析是数据分析中的一种重要技术,它的应用极为广泛。许多领域中都会涉及聚类分析方法的应用与研究工作,如数据挖掘、统计学、机器学习、模式识别、生物学、空间数据库技术、电子商务等。 用Matlab 7实现聚类基本算法. 掌握聚类算法中以下的关键步骤的实现 1) 选择模型类别 2)定义代价函数 3)选择模型结构 4) 搜索模型参数 实验内容 1)利用 clusterdata 函数对数据样本进行一次聚类 2)分步聚类:( 1)用 pdist函数计算变量之间的??离,找到数据集合中两辆变量之间的相似性和非相似性;( 2)用 linkage函数定义变量之间的连接;( 3)用 cophenetic函数评价聚类信息;( 4)用 cluster函数进行聚类。 实验步骤 1)一次聚类 。任意生成一个2维数据集,用Clusterdata函数对其进行聚类,并用图示方式显示聚类结果 提示:Clusterdata函数可以视为 pdist、 linkage与 cluster的综合,一般比较简单。 【 clusterdata函数: 调用格式: T=clusterdata(X,cutoff)????? ???????????????????? ?等价于Y=pdist(X,’euclid’); Z=linkage(Y,’single’); T=cluster(Z,cutoff)? 】 2)分步聚类 ( 1)求出变量之间的相似性 用pdist生成一个 M*(M-1)/2个元素的行向量,分别表示 M个样本两两间的距离。用 squareform函数将其转化为方阵,其中 x(i,j)表示第 i个样本与第 j个样本之的距离,对角线均为 0. 提示:用 pdist函数计算出相似矩阵,有多种方法可以求距离,若此前数据还未无量纲化,则可用 zscore函数对其标准化 【 pdist函数: 调用格式: Y=pdist(X,’metric’) ?说明: X是 M*N矩阵,为由 M个样本组成,每个样本有 N个字段的数据集 ????????metirc取值为:’ euclidean’:欧氏距离(默认) ‘seuclidean’:标准化欧氏距离; ‘mahalanobis’:马氏距离 … 】 ( 2)用 linkage函数来产生聚类树 提示:【 linkage函数: 调用格式: Z=linkage(Y,’method’) 说明: Y为 pdist函数返回的 M*(M-1)/2个元素的行向量, ??method可取值: ‘single’:最短距离法(默认); ’complete’:最长距离法; ??????????????????????????????????‘average’:未加权平均距离法; ’weighted’:加权平均法 ????????????????????????????? ? ?‘centroid’: 质心距离法; ????? ‘median’:加权质心距离法; ?????????????????????????????? ? ‘ward’:内平方距离法(最小方差算法) 】 返回的 Z为一个 (M-1)*3的矩阵,其中前两列为索引标识,表示哪两个序号的样本可以聚为同一类,第三列为这两个样本之间的距离。另外,除了 M个样本以外,对于每次新产生的类,依次用 M+1、 M+2、 …来标识。 为了表示 Z矩阵,我们可以用更直观的聚类数来展示, 方法为: dendrogram(Z), 产生的聚类数是一个 n型树,最下边表示样本,然后一级一级往上聚类,最终成为最顶端的一类。纵轴高度代表距离列。 ???????? 另外,还可以设置聚类数最下端的样本数,默认为 30,可以根据修改 dendrogram(Z,n)参数 n来实现, 1nM。 dendrogram(Z,0)则表 n=M的情况,显示所有叶节点。 ( 3)用 cophenetic函数评价聚类信息 提示:【 cophenet函数:?? 调用格式: c=cophenetic(Z,Y) ??说明:利用 pdist函数生成的 Y和 linkage函数生成的 Z计算 cophenet相关系数。】 cophene检验一定算法下产生的二叉聚类树和实际情况的相符程度 ,就是检测二叉聚类树中各元素间的距离和 pdist计算产生的实际

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档