第六次全国人口普查光电录入系统手写汉字民族识别问题分析.DOC

下载文档

2
0
约2.16千字
约 5页
2017-06-28 发布于天津
举报
版权申诉
保障服务

第六次全国人口普查光电录入系统手写汉字民族识别问题分析.DOC

1、本文档共5页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第六次全国人口普查光电录入系统手写汉字民族识别问题分析

附件2、第六次全国人口普查光电录入系统手写汉字民族识别问题分析第六次全国人口普查光电录入系统采用了对手写汉字民族的识别技术，增加了对手写汉字民族的校对功能。虽然此项技术在本次普查中获得了较高的精度，但仍在数据处理的实际工作中发现了一些问题。从目前反映的情况看，由于普查表汉字书写不规范以及在光电录入阶段人工校对不细致等原因，民族项目误识的现象在各地普遍存在，导致有些地区出现较多的新增民族或基数小的民族人口数量大幅增长。为此，我们对民族项目误识的原因以及对民族人口的分布带来的影响进行了分析，并提出了解决问题的建议。问题产生的原因分析 1、光电录入系统民族识别流程第六次全国人口普查光电录入系统中关于民族识别录入操作流程如下图所示。普查表扫描进入光电系统后，识别系统自动执行图像定位、切图和识别等功能。其中，置信度高的识别结果直接输出入库，置信度较低的识别结果被视为疑似错误识别结果，送入人工校对环节，校对后入库。由此可以看出，目前，光电录入数据民族项目中存在的错误主要来源于两个方面：识别错误和人工校对错误。 2、手写汉字民族识别算法手写汉字识别主要包括特征抽取和字符分类两大步骤。字符分类的过程是通过单字图像抽取的特征与汉字分类器字典中存储的所有汉字的特征模板一一比较，用置信度表示该单字图像与某汉字的相似程度，置信度最高的汉字即为该单字图像的识别结果。在人口普查调查表中，民族填写区域为一个2方格竖排区域，每个方格限写一个汉字。民族识别首先将每个方格里的字切分出来，送入汉字单字识别引擎，单字识别引擎对每个输入的单字产生一个识别置信度。根据单字识别置信度结果，可进一步计算民族词置信度，置信度最高的即为识别结果，置信度最高的5个为前5个候选。民族识别算法流程图如下所示：民族置信度计算方法的基本过程如下： ⑴单字识别引擎输出单字置信度（0-100）； ⑵计算民族识别置信度。假设填写民族名称的长度为n（即包含n个字符）. 置信度1 = 在限定长度为n的民族集中识别所得前n个字的单字置信度之和 / n 如果最后一个字的识别候选列表中包含“族”字：置信度2 = 在限定长度为n-1的民族集中识别所得前n-1个字的单字置信度之和 + “族”字置信度 / n 否则置信度2 = 0 民族置信度 = max（置信度1, 置信度2）在本次人口普查中，对普查表汉字书写的要求是：字迹工整、清晰，避免连笔、草书和大的笔划布局变形。光电录入软件中对于民族识别的阈值设置为10，当汉字书写不够规范时，就会导致识别引擎可能将民族项目误识别为其它民族，而对此项的人工校对工作量也会大幅增加。二、对数据产生的影响分析为了研究光电录入系统中手写汉字民族的识别性能和误识后对数据产生的影响，我们从本次人口普查光电录入现场获取5批数据人口数为1558499人进行测试，测试方法为：利用“民族校对工具”对普查表图像民族项目重新识别，将置信度阈值设置为100，进行3次全人工校对，得出足够可靠的民族项数据，为基础值；再将基础值与光电录入数据结果进行比对分析，计算出光电录入环节的误识率、人工校对错误率和整体错误率，计算公式如下：误识率 = （非校对项中识别错误项数 / 总识别项数） × 100%；人工校对错误率 = （光电结果与基础值不一致的项数 - 非校对项中识别错误项数）1558499人口中，整体错误率为0.076%，其中，误识率0.052%，人工校对错误率0.024%。在这批样本中，汉族的基础值为1100010人，其他民族被误识或误校为汉族的有65人，汉族被误识或误校为其他民族的为755人，其中包括了水、、、、、、、、此表为民族识别错误数目分布矩阵，主栏为民族基础值，即普查表中实际填写的民族，宾栏为光电录入识别、校对后的结果，主栏和宾栏的交叉项表示基础值在光电软件中被识别校对为其它民族的数量，如：红框中的“121”表示有121个“汉”被识别为“回”。此表为民族识别错误率构成分布矩阵，主栏为民族基础值，即普查表中实际填写的民族，宾栏为光电录入识别、校对后的结果，主栏和宾栏的交叉项表示光电软件中民族识别校对结果的实际基础值来源构成比率，如：红框中的“86.428”表示在光电录入软件中有86.428%的“回”实际基础值是“汉”。由此看出，民族识别和人工校对的错误会导致该地区新增民族，如：藏族；或人口数量少的民族人口数量会大幅增加，如：回族、白族、水族等。三、解决建议由于民族项目识别错误问题会对民族人口的分布造成较大的影响，所以必须采取措施进行更正。方法1：在数据处理软件中增加民族的审核关系在数据处理软件中增加民族项目的审核关系，可以调阅原图，对民族项进行确认或更正。方法2：利用“民族校对工具”进行比对对民族项目误识较严重的批次，可以