模式识别大作业_萌_1306020.docVIP

下载本文档

1
0
约3.06万字
约 15页
2016-11-02 发布于贵州
举报
版权申诉

模式识别大作业_萌_1306020.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别大作业_萌_1306020

第一题对数据进行聚类分析 1.题目要求用FAMALE.TXT、MALE.TXT和/或test2.txt的数据作为本次实验使用的样本集，利用C均值聚类法和层次聚类法对样本集进行聚类分析，对结果进行分析，从而加深对所学内容的理解和感性认识。 2.原理及流程图 2.1 C均值聚类法原理 C均值算法首先取定C个类别数量并对这C个类别数量选取C个聚类中心，按最小距离原则将各模式分配到C类中的某一类，之后不断地计算类心和调整各模式的类别，最终使各模式到其对应的判属类别中心的距离平方之和最小。 2.2 C均值聚类算法流程图图1.1 C均值聚类算法流程图 2.3 层次聚类算法原理 N个初始模式样本自成一类，即建立N类，之后按照以下步骤运算： Step1：计算各类之间（即各样本间）的距离，得一个维数为N×N的距离矩阵D(0)。“0”表示初始状态。 Step2：假设已求得距离矩阵D(n)（n为逐次聚类合并的次数），找出D(n)中的最小元素，将其对应的两类合并为一类。由此建立新的分类： Step3：计算合并后所得到的新类别之间的距离，得D(n+1)。 Step4：跳至第2步，重复计算及合并。直到满足下列条件时即可停止计算： ①取距离阈值T，当D(n)的最小分量超过给定值 T 时，算法停止。所得即为聚类结果。 ②或不设阈值T，一直到将全部样本聚成一类为止，输出聚类的分级树。 2.4层次聚类算法流程图图1.2层次聚类算法流程图 3 验结果分析对数据文件FAMALE.TXT、MALE.TXT进行C均值聚类的聚类结果如下图所示：图1.3 C均值聚类结果的二维平面显示将两种样本即进行聚类后的样本中心进行比较，如下表：从下表可以纵向比较可以看出，C越大，即聚类数目越多，聚类之间差别越小，他们的聚类中心也越接近。横向比较用FEMALE,MALE中数据作为样本和用FEMALE,MALE，test2中数据作为样本时，由于引入了新的样本，可以发现后者的聚类中心比前者都稍大。但是它们的分布类似，变化不大。样本 C 以FEMALE和MALE中得数据作为样本以FEMALE和MALE以及test2中的数据作为样本 2 A（163.5738，53.1541） B（175.8974，68.2692） A（165.0479，53.6491） B（176.4506，69.9378） 3 A（159.2333，49.9333） B（168.8158，57.0105） C（176.4375，70.0156） A（163.3438，51.8742） B（174.5561，64.5024） C（178.8657，80.4776） 4 A（157.4286，49.2381） B（164.7727，53.3545） C（170.4400，58.2640） D（176.4375，70.0156） A（159.8548 ，48.3145） B（167.5567，56.6485） C（175.4783，65.7908） D（179.3684，81.7368） 5 A（158.1579，47.3684） B（163.3913，54.4652） C（170.3462，58.1423） D（176.0741，67.7593） E（178.4000，82.2000） A（160.5732，50.0512） B（170.0510，57.5020） C（175.3836 ，65.9452） D（178.6429,75.7589) E（179.6667，91.3889） 6 A（158.3462，49.8462） B（166.9259，54.5889） C（171.4737，60.8158） D（175.6842，68.1842） E（178.0000，80.6667） F（183.3333，66.6667） A（160.8427，50.6596） B（170.6296，55.1241） C（172.6381，62.9143） D（176.8488，76.8837） E（177.2955，68.0057） F（181.5952，89.1905）表１.1　不同聚类初值对聚类结果的影响第二题 Bayes 分类器 1.题目要求用FAMALE.TXT和MALE.TXT的数据作为训练样本集，建立Bayes分类器，用测试样本数据对该分类器进行测试。调整特征、分类器等方面的一些因素，考察它们对分类器性能的影响，从而加深对所学内容的理解和感性认识。 2.原理及流程图 2.1 实验原理首先，以两个训练样本身高数据作为特征，利用最大似然法分别算出均值的最大似然估计和方差的最大似然估计，分别带入到假设模型一维