- 1、本文档共28页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章随机数学模型
9.7分类问题 一、引例 1981年生物学家格若根(W. Grogan)和维什(W.Wirth)发现了两类蚊子(或飞蠓midges).他们测量了这两类蚊子每个个体的翼长和触角长,数据如下: 翼长 触角长 类别 1.64 1.38 Af 1.82 1.38 Af 1.90 1.38 Af 1.70 1.40 Af 1.82 1.48 Af 1.82 1.54 Af 2.08 1.56 Af 翼长 触角长 类别 1.78 1.14 Apf 1.96 1.18 Apf 1.86 1.20 Apf 1.72 1.24 Af 2.00 1.26 Apf 2.00 1.28 Apf 1.96 1.30 Apf 1.74 1.36 Af 数 学 模 型 问:如果抓到三只新的蚊子,它们的触角长和翼长分别为(l.24,1.80); (l.28,1.84);(1.40,2.04).问它们应分别属于哪一个种类? 解法一: 把翼长作纵坐标,触角长作横坐标;那么每个蚊子的翼长和触角决定了坐标平面的一个点.其中 6个蚊子属于 APf类;用黑点“·”表示;9个蚊子属 Af类;用小圆圈“。”表示. 得到的结果见图1 图1飞蠓的触角长和翼长 数 学 模 型 思路:作一直线将两类飞蠓分开 例如;取A=(1.44,2.10)和 B=(1.10,1.16),过A B两点作一条直线: y= 1.47x - 0.017 其中X表示触角长;y表示翼长. 分类规则:设一个蚊子的数据为(x, y) 如果y≥1.47x - 0.017,则判断蚊子属Apf类; 如果y<1.47x - 0.017;则判断蚊子属Af类. 数学模型 分类结果:(1.24,1.80),(1.28,1.84)属于Af类;(1.40,2.04)属于 Apf类. 图2 分类直线图 数学模型 ?缺陷:根据什么原则确定分类直线? 若取A=(1.46,2.10), B=(1.1,1.6)不变,则分类直线变为 y=1.39x+0.071 分类结果变为: (1.24,1.80), (1.40,2.04) 属于Apf类; (1.28,1.84)属于Af类 哪一分类直线才是正确的呢? 因此如何来确定这个判别直线是一个值得研究的问题.一般地讲,应该充分利用已知的数据信息来确定判别直线. 数学模型 再如,如下的情形已经不能用分类直线的办法: 数学模型 1.距离判别法 1.1欧氏Euclidean distance距离判别法 1.2马氏 (P. C. Mahalanobis)距离判别法 1.3海明Hamming距离判别法 两个合法代码对应位上编码不同的位数称为海明距离。 合理的距离 如果用dij表示第i个样品和第j个样品之间的距离,那么对于一切i,j和k,dij应该满足如下三个条件: ①dij≥0,当且仅当i=j时,dij=0 (非负性) ② dij=dji (对称性) ③ dij≤dik+dkj(三角不等式) 显然,欧氏距离满足以上三个条件。 欧氏距离的缺点 欧氏距离虽然简单,但也有明显的缺点。它将样本的不同属性(即各指标或各变量)之间的差别等同看待,这一点有时不能满足实际要求。 马氏距离优缺点 1)马氏距离的计算是建立在总体样本的基础上的,这一点可以从上述协方差矩阵的解释中可以得出,也就是说,如果拿同样的两个样本,放入两个不同的总体中,最后计算得出的两个样本间的马氏距离通常是不相同的,除非这两个总体的协方差矩阵碰巧相同; 2)在计算马氏距离过程中,要求总体样本数大于样本的维数,否则得到的总体样本协方差矩阵逆矩阵不存在,这种情况下,用欧式距离计算即可。 3)还有一种情况,满足了条件总体样本数大于样本的维数,但是协方差矩阵不可逆,比如三个样本点(3,4),(5,6)和(7,8),这种情况是因为这三个样本在其所处的二维空间平面内共线。这种情况下,也采用欧式距离计算。 4)在实际应用中“总体样本数大于样本的维数”这个条件是很容易满足的,而所有样本点出现3)中所描述的情况是很少出现的,所以在绝大多数情况下,马氏距离是可以顺利计算的,但是马氏距离的计算不稳定,不稳定的来源是协方差矩阵,这也是马氏距离与欧式
您可能关注的文档
- 第三章节简单程序设计.ppt
- 第三章节简单的C程序设计.ppt
- 第三章节理想光学系统.ppt
- 第三章节标志的设计程序.ppt
- 第三章节科学决策与信息分析.ppt
- 第三章节管理信息系统规划与分析.ppt
- 第三章节第二节同角三角函数基本关系式与诱导公式.ppt
- 第三章节管理的经济学原理.ppt
- 第三章节第二节Multisim的菜单命令和器件库.ppt
- 第三章节自定义WIN2000桌面.ppt
- 数据仓库:Redshift:Redshift与BI工具集成.docx
- 数据仓库:Redshift:数据仓库原理与设计.docx
- 数据仓库:Snowflake:数据仓库成本控制与Snowflake定价策略.docx
- 大数据基础:大数据概述:大数据处理框架MapReduce.docx
- 实时计算:GoogleDataflow服务架构解析.docx
- 分布式存储系统:HDFS与MapReduce集成教程.docx
- 实时计算:Azure Stream Analytics:数据流窗口与聚合操作.docx
- 实时计算:Kafka Streams:Kafka Streams架构与原理.docx
- 实时计算:Kafka Streams:Kafka Streams连接器开发与使用.docx
- 数据仓库:BigQuery:BigQuery数据分区与索引优化.docx
文档评论(0)