图书文献 OCR 语料生成与标注规范.pdfVIP

  • 0
  • 0
  • 约1.9万字
  • 约 16页
  • 2026-03-24 发布于山东
  • 举报

图书文献OCR语料生成与标注规范

StandardforOCRCorpusGenerationandAnnotationofBooksandDocuments

第二稿二次修订稿

目次

1范围3

2术语与定义3

3总体要求4

4文本语料生成规范4

5图像资源存储规范11

6交付格式与结构要求12

7质量要求与验收标准15

8参考标准与规范16

图书文献OCR语料生成与标注规范

1范围

本规范适用于对提供的纸质或电子扫描版书籍进行OCR识别后,生成的文本

语料、图像资源及其元数据标注的标准化要求。适用于包括但不限于教材、专著、

辞典、论文集等各类图书资料。

2术语与定义

下列术语和定义适用于本文件。

2.1OCR

OpticalCharacterRecognition,光学字符识别。

2.2TMX

TranslationMemoryeXchange,翻译记忆交换格式。

2.3XML

ExtensibleMarkupLanguage,可扩展标记语言。

2.4UT

文档评论(0)

1亿VIP精品文档

相关文档