- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第十四章 多媒体识别技术 多媒体识别和机器视觉 文字识别的基本原理 声音识别的基本原理 图像识别的基本原理 生物特征的辨别与验证 常用的多媒体特征识别类型 1.指纹识别(fingerprinting) 2.虹膜识别 3.视网膜识别 4.面部识别 5.手掌几何学识别 6.声音识别 7.签字识别 8.文字识别 几类生物识别特点的比较 特征识别技术的测量因子 1. 拒假率(FRR) 在获取一个对像的特征信息进行生物测量时,所得结果与该对像已经记录在多媒体数据库中的模板不匹配,称为拒假事件。拒假事件的发生概率或者实际发生的频率就是拒假率。 2. 容假率(FAR) 对一个对象的特征采样取得的数据与多媒体数据库中另外一个非该对象的模板足够相似,以至于匹配,这种误认称为接受假事件,相关的概率叫做容假率FAR。 多媒体识别技术的1:1与1:N方法 1:1技术 1:1技术可概括为:“是我吗?”1:1技术是一个验证过程,是通过把一个现场采集到的特征与一个已经登记的特征进行一对一的比对,以确认身份的过程,验证是否是对应的对像。 1:N技术 1:N技术可概括为:“我是谁” 1:N技术是一个辨识过程,是把现场采集到的特征同特征数据库中的特征逐一进行匹配,从中找出与现场特征相匹配的库内数据。这也叫一对多匹配。 几种识别方法的误接受率和安全等级 机器视觉的概念和原理 机器视觉就是用各种成像系统代替视觉器官作为输入敏感手段,由计算机来代替大脑完成处理和解释。机器视觉的最终研究目标就是使机器能像人那样通过视觉观察和理解世界,具有自主适应环境的能力。 机器视觉系统通过图像摄取装置(分 CMOS 和 CCD 两种)将被摄取目标转换成图像信号,传送给专用的图像处理系统,根据像素分布和亮度、颜色等信息,转变成数字化信号;图像系统对这些信号进行各种运算来抽取目标的特征,进而根据判别的结果来控制现场的设备动作。 机器视觉系统的构成 1.照明 2.镜头 3.相机 4.图像采集卡 5.视觉处理器 光学字符识别OCR 光学字符识别OCR(Optical Character Recognition)技术,是指使用扫描仪或数码相机等电子设备检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程,也是对文本资料进行扫描,然后对图像文件进行分析处理,获取文字及版面信息的过程。 OCR的工作原理 图像输入:要辨识处理的对像须通过光学仪器,如图像扫描仪、传真机或摄影器材,将图像转入计算机。 图像前处理:包含了图像正规化、去除噪声、图像矫正等的图像处理,及图文分析、文字行与字分离的文件前处理。 OCR的工作原理 文字特征抽取:是 OCR的核心,特征抽取的区分可分为两类, 一是统计的特征,如文字区域内的黑、白点数比,当文字区分成好几个区域时,这一个个区域黑、白点数比之联合,就成了空间的一个数值向量,在比对时,基本的数学理论就能完成。 另一类特征为结构的特征,如文字图像细线化后,取得字的笔划端点、交叉点之数量及位置,或以笔划段为特征,配合特殊的比对方法,进行比对,线上手写输入软件的识别方法多以这种结构的方法为主。 对比数据库:数据库的内容应包含所有欲识别的字集文字,根据与输入文字一样的特征抽取方法所得的特征群组。 OCR的工作原理 对比识别:对比识别是运用数学运算理论的模块,根据不同的特征特性,选用不同的数学距离函数,利用各种特征比对方法的相异互补性,使识别出的结果更好。 字词后处理:用户利用比对后的识别文字与其可能的相似候选字群中,根据前后的识别文字找出最合乎逻辑的词,做更正的功能。 字词数据库:为字词后处理所建立的词库。 人工校正:一个好的OCR软件,除了有稳定的图像处理及识别核心,以降低错误率外,人工校正的操作流程及其功能,亦影响OCR的处理效率。 结果输出:因用户的使用目的而异 。 语音识别技术 主要包括特征提取、模型训练和模式匹配准则3个方面,另外还涉及到语音识别单元的选取技术。 声学特征 声学特征的提取与选择是语音识别的一个重要环节。 语音识别系统的模型 语音识别系统的模型通常由声学模型和语言模型两部分组成,分别对应于语音到音节概率的计算和音节到字概率的计算。 语音识别系统的模型 声学模型 HMM声学建模:马尔可夫模型的概念是一个离散时域有限状态自动机 ,HMM通常是用从左向右单向、带自环、带跨越的拓扑结构来对
您可能关注的文档
- 多媒体技术及应用 王坤 第5章多媒体图像的编辑与制作.ppt
- 多媒体技术及应用 王坤 第6章动画的编辑与制作.ppt
- 多媒体技术及应用 王坤 第7章视频的编辑与制作.ppt
- 多媒体技术及应用 王坤 第8章多媒体产品的设计与制作.ppt
- 多媒体技术及应用 王坤 第9章基于流程图的创作工具.ppt
- 多媒体技术及应用 王坤 第10章流媒体技术及应用.ppt
- 多媒体技术教程 第3版 教学课件 胡晓峰 吴玲达 老松杨 司光亚 多媒体技术教程V3 ch2.ppt
- 多媒体技术教程 第3版 教学课件 胡晓峰 吴玲达 老松杨 司光亚 多媒体技术教程V3 ch6.ppt
- 多媒体技术教程 第3版 教学课件 胡晓峰 吴玲达 老松杨 司光亚 多媒体技术教程V3 ch8.ppt
- 多媒体技术教程 第3版 教学课件 胡晓峰 吴玲达 老松杨 司光亚 多媒体技术教程V3 ch9.ppt
文档评论(0)