计算药学第6章.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第6章 药学研究中的模式识别技术 6.1 基本概念 模式识别的基本概念(Pattern Recognition) 6.2. 数据预处理 6.2.1 遗漏的数据、中心化与比例调整 遗漏数据: 不宜用零替代,而用行或列的平均来替代,或者使用随机数来替代。 消除数据量纲不同或分布范围过大造成的常数偏移量,可以对坐标原点做变换,一般的步骤是均值中心化, 6.2.2 协方差矩阵与相关矩阵 数据预处理的另一种常用方法: 将原始数据变换坐标系,用于后面介绍的各种模式识别方法。 变换的思路是根据原始数据矩阵得到一个可以反映原始数据中各数据点之间关系的数据矩阵,即方差-协方差矩阵或相关矩阵。 方差-协方差矩阵 相关矩阵 6.2.3 距离与相似性度量 距离 6.3 聚类分析 聚类分析的一般概念 距离相关系数 例讲 6.3.2 系统(谱系) 聚类法 谱系聚类法 聚类分析谱系图 MATLAB 命令 pdist: 计算距离矩阵 linkage: 生成谱系数据 dendrogram: 绘制谱系图 cluster 聚类分析 例题: X1 (5个陨石样品, 四种元素) 如何定义两类的距离 最短距离法 例 解 6.3.3 动态聚类分析 动态聚类法 算法 对A和D,其中心点*1坐标为: x1=(45+64)/2=54.5 x2=(24+52)/2=38 对B、C、E、F、G的中心点*2坐标为: x1=(24+14+36+56+20)/5=30 x2=(42+23+121+140+148)/5=95 下一步再计算各点离*1和*2的距离确定下一轮的类别。 结果为(A、B、C、D)(E、F、G),显然这一轮已经得到了正确的结果。继续计算新的中心点*3和*4,得到的结果仍为(A、B、C、D)(E、F、G) 动态聚类的结果为(A、B、C、D)和(E、F、G)。 最小生成树法 最小生成树法 聚类分析 步骤与应用 如何进行聚类分析 6.3.4 模糊聚类法 6.4 降维和显示技术 处理多变量数据时,当变量数为2或3时,我们可以通过绘图或计算机屏?幕显示的方式直观地观察图形并识别其特征。当变量数超过3时,这种直接显示则不再可能,这就涉及降维问题。 如何将多维的数据在二维或三维空间中显示出其最大多数的信息,是降维和显示技术要解决的主要问题。 降维和显示技术有多种方法,因子分析技术是多数方法的算法基础, 6.5 有监督模式识别方法 有监督学习方法需要运用一组已知其类别的样本,这些样本集在特征空间中构成的点集称为训练集(training Set) 有监督模式识别就是利用训练集通过训练获得判别准则(或判别函数),然后再利用识别准则来判决未知模式所属的类别。 为了检验从训练集中得到的识别准则的可靠程度。常利用一组未包含在训练集中的已知类别的样本构成预示集(prediction set),利用从训练集中获得的识别准则对预示集中的各模式进行识别,以检验其识别的可靠性。 常见的有监督学习方法包括贝叶斯线性判别法、Fisher线性判别分析、线性学习机、最近邻毓域判决法、SIMCA分类法等。 基本概念 K-最近邻域判决法(K-NN法) 计算各点间的距离得下表: 解: 据上表,按两点距离小到大排列得如下顺序 BC AB EF EG AC AD CD DE C? A° ?B D? ?E G? F? x1 x2 将最长的边DE剪断,将7个样本分为两类 选择恰当的特征来描述分类对象 变量指标 确定相似性的测度 如采用距离 提出到达分类的步骤和算法 解析聚类的结果 应用 解析和分析实验数据 优化分析过程,既选择最佳分析方法,最合理的组合 分析方法和最恰当地安排分析过程的顺序 * * 引言 模式识别的基本概念 聚类分析 有监督模式识别 分析化学已扩展到多维空间; 越来越多的智能型分析仪器采集到多维多变量数据; 化学模式识别技术是多变量数据分析在化学领域的重要应用。 HPLC中,二极管阵列检测器 色谱光谱图 每个组分多个波长的吸收度。 如: “模式”: 模式识别: 供模仿用的完美无缺的样本;具有某种共同性质的一类现象的集合。 认识出某个样本与哪一种供模仿用的样本相同体相似。 是鉴别数据阵提供的信息,用数学方法识别具有一定模式的样品和变量,其功能是对样本进行分类或识别。 例如: 中医凭舌苔和脉搏进行诊断;公安人员根据指纹查证罪犯。 分类: 无监督模式识别(unsupervised learning): 模式识别的基本概念 聚类 分析 根据样本数据判别样本是否可属于不同的类别。 有监督模式识别(supervised lear

文档评论(0)

wyjy + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档