推广工程数字资源联合建设地方文献数字化加工规则2015.docxVIP

  • 20
  • 0
  • 约1.39万字
  • 约 33页
  • 2016-12-24 发布于广东
  • 举报

推广工程数字资源联合建设地方文献数字化加工规则2015.docx

PAGE \* MERGEFORMAT22 推广工程数字资源联合建设地方文献数字化加工规则(2015) 1术语和定义 1.1双层PDF 将标准资料通过扫描仪快速录入后,经过去污、纠偏和OCR识别,直接生成的可检索的PDF文件。该文件是双层的,上层是原始图像,下层是识别结果。 1.2单版TXT文件 由图像数据一一对应进行文本转换得到的TXT文件。一个单版TXT文件对应一个图像文件。 1.3合并版TXT文件 将单版TXT文件按顺序合并得到一册书的完整TXT文件。 2图像数字化和命名规则 2.1图像数字标准 2.1.1扫描标准 黑白页和灰度页用灰度方式扫描 色彩位深:8 位 分辨率:300 dpi;小于5号字体用400 dpi 档案典藏级格式:TIFF 不压缩 彩色页用彩色方式扫描 色彩位深:24 位 分辨率:300 dpi;小于5号字体用400 dpi 档案典藏级格式:TIFF 不压缩 2.1.2拍照标准 像素:不小于300万 档案典藏级格式:TIFF 不压缩 2.2数字化要求 数字化环境注意防护光源,避免透光或反射光的影响。 数字化后的图像清晰,文件页码连续,没有重页、缺页、错页等情况(原书缺页、错页除外)。补扫的图像要与同册图像文件的大小一致,颜色接近。 以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变。 数字图像放大至实际尺寸100%,图像不失真。 数字图像文件与文献原件颜色不一致,须先进行设备色彩校正,再重新进行扫描或拍照工作。 2.3 数字图像处理要求 数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行。数字图像文件处理内容及要求如下: 纠偏处理。对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯。 图像剪裁。图像保留到文献的外边缘。 不能进行锐化或者图像增强处理,不能更改图像的颜色,尽量减少对图像文件的后期处理。 2.4数字图像检查要求 根据本项目要求,数字化单位检查各级别图像数据的质量,建议扫描完成后立即进行质检。数据检查的内容和要求如下: 图像文件(各种格式)放大到1:1状态,逐页检查。检查文件是否有透光、透字、彩点、彩线、太淡、太浓、黑边、污点、歪斜、模糊(马赛克等)或图像内容不完整等现象。若不符合图像质量要求应进行图像校正或重新扫描(拍照)。 发现文件漏扫时,应及时补扫并正确插入图像。 拼接图像接缝处无错位、无缝吻合,不应出现白边和内容缺失,没有明显的歪斜。 检查是否符合扫描(拍照)规格要求和技术参数。 所有文件保存位置正确,可以有效打开和显示。 图像名称必需正确,同一数据流水号不得有跳号情况,按顺序排列命名,图像文件的排列顺序应与原文献一致。 2.5命名规则 2.5.1加工编号(book_id) 文献数字化加工过程中一册文献的唯一标识,它由11位数字和1位下划线组成。 文献基本资料类型(1位)、文献语种(1位)、加工年(2位)、机构代码(4位)、下划线(1位)、单位内部流水号(3位)。 本规则针对图书的文献基本资料类型为0,文献语种为1,加工年为公元年后两位数字(15年项目统一为15),机构代码见《推广工程数字资源联合建设机构代码》,单位内部流水号由各单位自行分配,从1开始,不足3位以0补齐。 例001 2.5.2图像文件名 前封(含封一、封二) 扫描文件名为Axxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。 前附页 目录页之前的前附页扫描文件名为Bxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。 目录页之后的前附页扫描文件名为Dxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。 目录页 扫描文件名为Cxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。 正文 有页码的正文扫描文件名为Txxxxx_00,其中xxxxx为5位数字,与原书页号一致,按原书顺序依次排序。 正文中插页扫描文件名为Txxxxx_yy,其中xxxxx为5位数字,表示插页的前一页顺序号,yy为数字,表示插页,并按原书顺序依次排序。 后附页 扫描文件名为Yxxxxx_00,其中 xxxxx为5位数字,按原书顺序依次排序。 后封(含封三、封四) 扫描文件名为Zxxxxx_00,其中xxxxx为5位数字,按原书顺序依次排序。 3双层PDF标准 3.1双层PDF输出 将处理完成后的TIFF图像进行OCR逐页识别校对。采用图在文上的模式进行双层PDF输出,包括单版PDF和合并版PDF两种,单版PDF命名与对应TIFF文件保持一致,合并版的命名同该文献的加工编号。 PDF文件根据图像尺寸、颜色、数据存储量、按JPEG2000有损压缩,压缩因子适度动态调整,在确保图

文档评论(0)

1亿VIP精品文档

相关文档