面向文本数字化自动纠错方法.docVIP

下载本文档

17
0
约5.72千字
约 13页
2018-09-22 发布于福建
举报
版权申诉

面向文本数字化自动纠错方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向文本数字化自动纠错方法

面向文本数字化自动纠错方法　　摘要：为了提高文本数字化系统的质量，针对该系统的错误特点，采用频率统计树构建查错模型，结合切分信息进行标点纠错，通过表形码和缓存集给出纠错建议，提出了规则与统计结合的自动纠错方法。实验结果表明，该方法召回率为84.65%，准确率为78.89%，误判率为9.07%，能够满足数字化系统需求。　　关键词：自动纠错；文本数字化；频率统计树；切分信息；表形码　　中图分类号：TP391.1文献标志码：A 　　文章编号：1001-3695(2008)05-1434-03 　　　　文本数字化系统包括图像扫描、版式分析、行字切分、图像分析、切分集成、OCR识别、文本纠错、质量判别等几个环节。其中文本纠错环节对于提高识别准确率，降低最终成品的错误率，达到客户需求具有重要的意义。传统的纠错方法主要是依赖人工校对，费时费力。虽然也有产品化的校对软件，但这些软件的适应性和纠错率均有较大的局限性。对于大规模的文本数字化项目而言，因其范围广、数量庞大，且素材个体差异较大，若能进行计算机自动纠错，则可以满足高效率与高质量的要求，同时稳定性和灵活性也有所保障。?? 　　国外对英文文本纠错技术的研究开始较早，目前主要有误拼字典法、骨架键法[1]等；国内对中文文本纠错技术的研究从20世纪90年代开始，多采用统计与规则相结合的方法。张仰森等人对文本分词并寻找散串，使用字、词、词性的二元或三元模型查错[2]，构建拼音、五笔等外码相近字的混淆词典，采用最大熵方法进行纠错排歧[3]。骆卫华、龚小谨等人结合模式匹配和分析句型成分的方法进行语法错误检查[4]，并综合使用基于实例、基于统计和基于规则的搭配关系进行语义查错[5]。张磊等人综合使用邻接词、词性的三元接续关系、上下文语义类、词内邻接汉字四种特征模板，提出了基于特征的中文校对方法[6]。上面提到的方法均是非受限的纠错方法。中文自动纠错技术由于汉字自身特点及汉语语法和语义计算机表示的不完善，还没有令人满意的通用方法。针对不同的纠错环境采用特定的方法，往往能够大幅度提高纠错准确率。基于此，本文对文本数字化系统的错误进行分析，利用切分信息和表形码，结合工程经验和频率统计树，提出一种有针对性的自动纠错方法。?? 　　　　1问题分析?? 　　　　1．1错误分析?? 　　文本数字化系统中的错误有其独有的特点。进行数字化的源文本，往往是经过多次校对的报刊、杂志等，其本身正确率较高。而数字化生成文件的质量则受版式分析、字词切分和OCR等各个环节的影响，且原文版面污染以及印刷质量差也会降低其正确率。?? 　　对某项目中一份待校文本进行错误分析，该文本共含字数??8 424个。其中包含错误435处，类型分析如下（表1）：?? 　　a) 标点错误共238个。其中：“，”误识为“’”多次出现；另外还有“，”误识为“于”或“夕”，“。”误识为“o”，“（”误识为“《”等。?? 　　b) 形近字错误共156个，如“即”误识为“郎”，“句”误识为“旬”，“人”误识为“入”。?? 　　c) 切分造成的错误23个，如“品”误识为“口凹”。?? 　　d) 杂点造成的错误13个，如多出“.”或“。”等标点。?? 　　e) 其他错误5个。?? 　　　　1．2输入/输出?? 　　传统的自动纠错方法一般是输入待校文本，输出经过纠错处理的成品文件。本文中的纠错方法将字切分模块提供的idd信息作为附加输入，用于进行标点纠错。Idd信息保存的是切分后单字的相关特征，如它所属的行号、字号、字宽、字高、行高等。本方法输出的成品文件根据不同的客户需求，可以带有一定的备选字。此外还输出纠错记录文件chg。?? 　　1．3性能评价?? 　　纠错方法的性能采用召回率(recall)、准确率(precision)和误判率(false)三个指标来评价；文本整体质量采用错误率(error)来评价；文本质量改进率(improve)则用纠错前后错误的比值来衡量。分别用e????all、e????suc、e????fail、e????false、e????fixed表示待校文本错误数、成功纠错数、失败纠错数、误判数、纠错总数，则有e????fixed=e????suc+e????fail+e????false。?? 　　　　2．1必对词集、必错词集与经验纠错?? 　　通过长期纠错经验积累，得到必错词集和必对词集两个集合。必错词集是错误字组（以下称必错词）到对应的正确词（以下称替换词）的映射。它有以下特点：?? 　　a)必错词本身不能成词，一般为三个字以上的词组，只要在纠错文本出现，可以直接利用替换词纠错（非法例子：“人口”替换“入口”；合法例子：“深圳特区”替换“深?[特区”）；??