模式识别报告模版.docVIP

下载本文档

9
0
约6.95千字
约 17页
2016-04-13 发布于江西
举报
版权申诉

模式识别报告模版.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别报告模版.doc

数学与计算机学院课程名称: 模式识别题目: K-Means聚类任课老师: 王晓明年级专业: 2011级计算机应用技术姓名: 段文峰学　　号: 212011081203004 时间: 2011 年 12 月 25 日目录一、K-means聚类介绍 2 二、K-means算法描述 3 三、K-means算法java实现 4 1、实例 4 2、算法的JAVA实现 7 四、K-means算法性能分析 8 1、优势 8 2、弊端 9 五、K-means算法改进 9 1、K的调整 9 2、初始聚类中心的选取 10 3、用类核代替类心 10 六、附录——核心算法的主要源代码 11 参考文献 14 K-Means聚类一、K-means聚类介绍 K-means算法，也被称为k-平均或k-均值算法（k由来是由于算法实现要用户事先给定要划分成K类），是一种得到最广泛使用的动态聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点。 K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。 1、条件及约定设待分类的模式特征矢量集为：类的数目k是事先取定的。 2、算法思想算法的主要思想是通过迭代过程把数据集划分为不同的类别，使得评价聚类性能的达到最优，从而使生成的每个聚类内紧凑，类间独立。该方法取定 k个类别和选取 k个初始聚类中心，按最小距离原则将各模式分配到 k类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其判属类别中心的距离平方之和最小。 3、划分聚类方法对数据集进行聚类时包括如下二个要点：（1）选定某种距离作为数据样本间的相似性度量 k-means聚类算法不适合处理离散型属性，对连续型属性比较适合。因此在计算数据样本之间的距离时，可以根据实际需要选择欧式距离、曼哈顿距离或者明考斯距离中的一种来作为算法的相似性度量，其中最常用的是欧氏距离。假设给定的数据集，X中的样本用n 个描述属性A1,A2…An来表示，并且n个描述属性都是连续型属性。数据样本xi=(xi1,xi2,…xin), xj=(xj1,xj2,…xjn)其中， xi1,xi2,…xin和xj1,xj2,…xjn分别是样本xi和xj对应n个描述属性A1,A2,…An的具体取值。样本xi和xj之间的相似度通常用它们之间的距离d(xi,xj)来表示，距离越小，样本xi和xj越相似，差异度越小；距离越大，样本xi和xj越不相似，差异度越大。欧氏距离公式如下：（2）选择评价聚类性能的准则函数 k-means聚类算法使用误差平方和准则函数来评价聚类性能。给定数据集X，其中只包含描述属性，不包含类别属性。假设X包含k个聚类子集X1,X2,…XK；各个聚类子集中的样本数量分别为n1，n2,…,nk;各个聚类子集的均值代表点（也称聚类中心）分别为m1，m2,…,mk，则误差平方和准则函数公式为：。二、K-means算法描述 K-means算法步骤： (1)任选k个模式特征矢量作为初始聚类中心： z1(0)， z2(0) ，……， zk(0) ，令t=0； (2)将待分类的模式特征矢量集｛xi｝中的模式逐个按最小距离原则分划给k类中的某一类，即如果则判式中，表示xi和的中心的距离，上标表示迭代次数。于是产生新的聚类，j=1,2,…,k。（3）计算重新分类后的各类心式中，为类中所含模式的个数。因为这一步采取平均的方法计算调整后各类的中心，且定为k类，故称为K-均值法。（4）如果，则结束；否则，t=t+1.转至步骤（2）。三、K-means算法java实现 1、实例例：已知有20个样本，每个样本有2个特征，数据分布如图1所示,使用k－均值法实现样本分类（k=2）。样本序号 x1 x2 x3 x4 x5 x6 x7 x8 x9 x10 特征X 0 1 0 1 2 1 2 3 6 7 特征Y 0 0 1 1 1 2 2 2 6 6 x11 x12 x13 x14 x15 x16 x17 x18 x19 x20 8 6 7 8 9 7 8 9 8 9 6 7 7 7 7 8 8 8 9 9 图1 例题样本点初始分布解：第一步(1)：令簇的数目k=2，选