.数据挖掘实验指导书.docVIP

下载本文档

55
0
约1.18万字
约 21页
2017-09-08 发布于湖北
举报
版权申诉

.数据挖掘实验指导书.doc

1、本文档共21页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘实验指导书

《数据挖掘》实验指导书 2011年3月1日长沙学院信息与计算科学系前言随着数据库技术的发展，特别是数据仓库以及Web等新型数据源的日益普及，形成了数据丰富，知识缺乏的严重局面。针对如何有效地利用这些海量的数据信息的挑战，数据挖掘技术应运而生，并显示出强大的生命力。数据挖掘技术使数据处理技术进入了一个更高级的阶段，是对未来人类产生重大影响的十大新兴技术之一。因此加强数据挖掘领域的理论与实践学习也已成为专业学生的必修内容。本实验指导书通过大量的实例，循序渐进地引导学生做好各章的实验。根据实验教学大纲，我们编排了五个实验，每个实验又分了五部分内容：实验目的、实验内容、实验步骤、实验报告要求、注意事项。在实验之前，由教师对实验作一定的讲解后，让学生明确实验目的，并对实验作好预习工作。在实验中，学生根据实验指导中的内容进行验证与总结，然后再去完成实验步骤中安排的任务。实验完成后，学生按要求完成实验报告。整个教学和实验中，我们强调学生切实培养动手实践能力，掌握数据挖掘的基本方法。实验一 K-Means聚类算法实现一、实验目的通过分析K-Means聚类算法的聚类原理，利用Vc编程工具编程实现K-Means聚类算法，并通过对样本数据的聚类过程，加深对该聚类算法的理解与应用过程。实验类型：验证计划课间：4学时二、实验内容 1、分析K-Means聚类算法； 2、分析距离计算方法； 3、分析聚类的评价准则； 4、编程完成K-Means聚类算法，并基于相关实验数据实现聚类过程；三、实验方法 1、K-means聚类算法原理 K-means聚类算法以k为参数，把n个对象分为k个簇，以使簇内的具有较高的相似度。相似度的计算根据一个簇中对象的平均值来进行。算法描述：输入：簇的数目k和包含n个对象的数据库输出：使平方误差准则最小的k个簇过程：任选k个对象作为初始的簇中心； Repeat for j=1 to n DO 根据簇中对象的平均值，将每个对象赋给最类似的簇 for i=1 to k DO 更新簇的平均值计算E Unitl E不再发生变化按簇输出相应的对象 2、聚类评价准则： E的计算为：四、实验步骤 4.1 实验数据 P192：15 4.2初始簇中心的选择选择k个样本作为簇中心 For (i=0;ik;i++) For (j=0;jAttSetSize;j++) ClusterCenter[i][j]=DataBase[i][j] 4.3 数据对象的重新分配 Sim=某一较大数；ClusterNo=-1; For (i=0;ik;i++) If (Distance(DataBase[j],ClusterCenter[i])Sim) {Sim=Distance(DataBase[j],ClusterCenter[i]); ClusterNo=i;} ObjectCluster[j]=ClusterNo; 4.4 簇的更新 For (i=0;ik;i++) {Temp=0;Num=0; For (j=0;jn;j++) If (ObjectCluster[j]==i){Num++; Temp+=DataBase[j];} If (ClusterCenter[i]!=Temp) HasChanged=TRUE; ClusterCenter[i]=Temp; } 4.5 结果的输出 For (i=0;ik;i++) { Printf(“输出第%d个簇的对象:”，i); For (j=0;jn;j++) If (ObjectCluster[j]==i) printf(“%d ”,j); Printf(“\n”); Printf(“\t\t\t 簇平均值为(%d,%d)\n”, ClusterCenter[i][0], ClusterCenter[i][1]); } 五、注意事项 1、距离函数的选择 2、评价函数的计算实验二 DBSCAN算法实现一、实验目的要求掌握DBSCAN算法的聚类原理、了解DBSCAN算法的执行过程。在此基础上，利用DBSCAN算法对给定样本数据实现聚类过程。实验类型：综合计划课间：4学时二、实验内容 1、了解DBSCAN算法的聚类原理； 2、了解DBSCAN算法的执行过程； 3、编程实现DBSCAN算法； 4、对给定样本数据实现聚类过程三、实验方法 3.1、DBSCAN算法的基本概念对象的ε-邻域：给定对象在半径ε内的区域；核心对象：若一个对象ε-