手写数字识别实践指导基础手册.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
手写数字系统实践指导手册 1 问题描述 设计一个简单手写数字识别系统,能够识别手写输入数字1-9而且能够识别选中文本文件中数字,应含有简单方便操作界面,输入输出等。 1.1功效需求分析 经过分析,和从用户角度考虑,系统应该含有以下功效: 数字手写输入。作为一个手写数字识别系统,首先应该能够让用户过绘制窗口进行数字绘制,系统得到用户手写输入进行处理。 直接选择文件。用户还能够选择系统中文本文件进行处理。 数据预处理。包含计算数据大小、二值化、格式化处理等。 数字提取。将经过二值化后图像中个数字区域进行提取,只有能够将数字进行正确提取,才能将其一一识别。 基准库选择和建立。选择一个可供系统训练和测试样本库很关键,本系统训练集和测试集选择是《机器学习实战》中所给数据。 识别数字。经过训练集进行训练后,使用knn算法对需要识别数字识别。 2 数据集获取 任务要求: 从网上爬取或下载适合进行手写数字识别系统训练集和测试集 实践指导: 方法一:自己从网上找适合数据下载 方法二:推荐数据集:“手写数字数据集光学识别”一文中数据集合,该文登载和20XX年10月3日UCI机器学习资料库中 3 功效设计和实现 3.1手写数字识别系统结构图: 图一: 系统结构图 3.2识别用户选择手选文件功效设计和实现 任务要求: 用户能够自己从电脑中选择文本文件进行识别。 实践指导: KNN分类器结构思绪及原理以下: 选择训练集和测试集。系统所采取数据集选择是“手写数字数据集光学识别”一文中数据集合。0-9每个数字大约有200个训练数据20个测试数据。数字文本格式图所表示。 文本格式存放数字文件命名也很有特点,格式为:数字值_该数字样本序号,图所表示。 格式化处理数据。将训练集中32*32二进制图像矩阵转换为1*1024向量。用于knn距离计算 将训练集中全部文件内容存在列表中,创建一个m*1024训练矩阵,矩阵每行存放一个图像。 将需要进行估计测试集图像矩阵转换为1*1024向量。 编写KNN算法对训练集进行训练,然后对测试集进行估计。假如使用python话,能够调用sklearn.neighbors中KNeighborsClassifier函数对测试集进行估计。 5)真实值和估计值进行比较。数据中文件根据规则命名,我们能够从文件名中解析出分类数字,如文件9_1.txt分类时9,她是数字9第一个实例。 3.3识别用户手写输入功效设计和实现 任务要求: 用户能够在手写识别系统界面上用鼠标进行手写输入,然后系统自动识别出用户输入。 实践指导: 识别用户手写输入思绪和原理以下: 简单说就是把数字划分成很多很多小块,图二所表示:每个数字被划分成了4*5=20个小块。分好了小块以后,其实我们要知道每个小块是由很多个像点素组成。比如数字8,是由5行4列累计:5*4=20个小块组成。 (2)数一下每个小块内,有多少个黑色点。比如第一行: 第2个小块中,共有28个点,记为28. 第3个小块中,共有10个点,记为10. 第4个小B中,共有0个点,记为0. 以这类推,能够计算出每一行每一个小块数字是多少。 为了方便,我们把得到特征,排成一排(数组)就好了。 (4)照着葫芦画瓢,每个数字特征其实全部是一堆数字组成。这个数字类似于我们身份证号码,通常来说,是独一无二。 识别原理:就是比较要识别数字特征和步骤4中哪个数字特征最靠近。 这里为了方便,假设要识别数字“8”,然后看看怎么从一堆数字里面选出来她到底应该是几。具体方法时计算其欧式距离,距离越小代表其相同性越大。 4 系统评定 比较测试集中各个样本分类结果和真实类别,统计下表中a,b,c,d取值。 真实类别 正例 负例 分类器判定 正例 A B 负例 C D 依据下列公式计算查准率、查全率、F1值、正确率 查准率: 查全率: F1值: 正确率: 如不能完全实现查准率、查全率、F1值、正确率,最少计算下正确率。 5 简单系统界面 设计良好图形用户界面来展示系统功效。 输入:用户选择文本文件或鼠标手写输入 输出:识别后数字结果

文档评论(0)

132****5705 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5104323331000004

1亿VIP精品文档

相关文档