- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 概论
什么是模式识别?
使计算机模仿人的感知能力,从感知数据中提取信息(判别物体和行为)的过程。(老师的简略说法:用机器判断事物类别)
模式识别系统主要由四个部分组成:原始数据的获取和预处理,特征提取与选择,分类或类聚,后处理。
紧致性:做模式识别的前提条件是每个模式类满足紧致性。
相似性度量满足的条件:1234点
一些专业术语的中英文:
PR(pattern recognition)模式识别
BP(back-propagation)反向传播算法
PCA(principal component analysis)主成分分析
NN (neural networks)神经网络
欧式距离:
马氏距离:
贝叶斯决策
(两大贝叶斯决策=最小错误率贝叶斯决策+最小风险贝叶斯决策):
贝叶斯决策的三个前提条件:类别数确定,各类的先验概率p(wi)已知,各类的条件概率密度函数p(x|wi)已知。
最小错误率贝叶斯决策:使错误率最小的分类决策。对应于最大后验概率。
贝叶斯公式:
P17 白细胞例子
最小风险贝叶斯决策:考虑各种错误造成损失不同时的一种最优决策。
第三章 最大似然估计
(两大参数估计=最大似然估计+贝叶斯估计):
最可能出一题最大似然估计的计算题。
判断估计好坏的标准:无偏性、有效性、一致性。
最大似然估计的求解
流程:1、构造似然函数
2、对数化
3、求偏导
4、求解
第四章 线性分类器
Fisher判别法
Fisher准则:找到一个最合适的投影轴,使两类样本在该轴上的投影之间的距离尽可能远,而每一类样本的投影尽可能紧凑,从而使分类效果为最佳。
各类样本均值向量mi
判定函数J(w)越大,说明分子类间距离越大,分母类内距离越小。符合fisher准则。
引入拉格朗日函数:
求偏导
最小二乘法 y=ax+b
第五章 非线性分类器
反向传播算法BP:
三层结构
简述BP过程、偏差回来调整权系数P95
学习规则:
随机给定权系数;
计算输出;
得到偏差;
进行调整
算法步骤:
第七章 特征选择
遗传算法过程:
初始化:设置进化代数计数器t=0,设置最大进化代数T,随机生成M个个体作为初始群体P(0).
个体评价:计算群体P(t)中各个个体的适应度。
选择:将选择算子作用于群体。选择的目的是把优化的个体直接遗传到下一代或通过配对交叉产生新的个体再遗传到下一代。选择操作是建立在群体中个体的适应度评估基础上的。
交叉:将交叉算子作用于群体。作为交叉是指把两个父代个体的部分结构加以替换重组而生成新个体的操作。遗传算法中起核心作用的就是交叉算子。
变异:将变异算子作用于群体。即是对群体中的个体串的某些基因座上的基因值变动。群体P(t)经过选择、交叉、变异运算之后得到下一代群体P(t+1)。
终止条件判断:若t=T,则以进化过程中所得到的具有最大适应度个体作为最优解输出,终止计算。(终止条件:达到适应度函数或达到进化规定的代数)
第八章 特征提取
PCA(主成分分析)
K-L变换(最优正交线性)(完整掌握)
结合KL变换叙述人脸识别的经典流程:
对向量x用确定的完备正交归一向量基uj展开,对应到的人脸识别问题上就是一个脸可以由无穷多个本征脸进行重构;
用有限项估计X,对应人脸识别时一个脸由有限个本征脸进行重构,假设有d个,则;
下面是寻找uj,即对应的本征脸;
由于是用d个本征脸来重构一张脸x,所以存在一定的误差。求估计的均方误差:
第九章 非监督模式识别
K均值聚类
基本思想:k均值聚类是最著名的划分聚类算法,由于简洁和效率使得他成为所有聚类算法中最广泛使用的。给定一个数据点集合和需要的聚类数目k,k由用户指定,k均值算法根据某个距离函数反复把数据分入k个聚类中。
K均值算法:先随机选取K个对象作为初始的聚类中心。然后计算每个对象与各个种子聚类中心之间的距离,把每个对象分配给距离它最近的聚类中心。聚类中心以及分配给它们的对象就代表一个聚类。一旦全部对象都被分配了,每个聚类的聚类中心会根据聚类中现有的对象被重新计算。这个过程将不断重复直到满足某个终止条件。终止条件可以是以下任何一个:
1)没有(或最小数目)对象被重新分配给不同的聚类。
2)没有(或最小数目)聚类中心再发生变化。
3)误差平方和局部最小。
缺点:初始点很重要,对分类有影响,可能掉进局部优解,影响速度效率;类的个数未知
文档评论(0)