- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
電子古籍格式
格式,是劃分文本不同層次的手段和區別文本內容的不同性質的標識。文本格式化是古
籍數字化的重要工作。
電子古籍文本格式化的方法和手段,應該繼承自紙質文本,同時兼及一般電子文本格式
的慣例,同時還要適應計算機處理的需要。
紙質文獻有悠久的發展歷史,文本格式逐漸形成了一些慣例或規范,國家也頒布了一些
相關的標準。近一個世紀以來的古籍整理工作,特別是像標點本二十四史這樣的大型工程,
也逐漸形成了一些學術規范,為學術界普遍遵循。古籍數字化的工作,至今也有三四十年,
文本格式主要沿襲一般紙質文本,很少注意古籍的特點,很少考慮到數字化古籍計算機處理
的需要,更缺乏對電子古籍格式化問題的系統研究。
電子古籍是紙質文獻在電腦上的再現,必須盡量重現原始文本的固有形態,並充分發揮
計算機文本處理的強大功能,二者兼顧,完美結合,是電子古籍文本格式化工作追求的目標。
電子古籍可以用于閱讀,應該盡量保留紙本文獻的原貌,照顧用戶的閱讀習慣。
紙本文獻格式化的手段主要有文字格式和標點符號。
一、文字格式
文字格式包括字號、字體、字式、行款和顏色。
1. 字號
字號指字符大小,用于區分文本不同層次:正文字號大,注釋字號小;上一級標題字號
大,下一級標題字號小。
計量字符大小的單位,漢字用字號,一般從初號、小初至七號、八號,共 16 種,字號
越大字越小。國際通用的單位是“磅”,磅值的範圍從 1 至 1638,磅值越大字越大。最大的
1638 磅字約 58cm 見方,最小的 1 磅字,3 個加起来僅約 1mm 嶟。漢字字號與磅的對應關
係如下:
字號 初號 小初 一號 小一 二號 小二 三號 小三
磅值 42 36 26 24 22 18 16 15
子樣 永 永 永 永 永 永 永 永
字號 四號 小四 五號 小五 六號 小六 七號 八號
磅值 14 12 10.5 9 7.5 6.5 5.5 5
1
子樣 永 永 永 永 永 永 永 永
鈔本和版刻古籍,字體大小沒有統一的規范和嚴格的規定,只是圖書內部正文與注釋有
相對大小的區別。版刻由於版面內芯有行格的限制,書名、篇名等標題與正文大小一致。現
代鉛印古籍大致繼承了這些格式,正文一般用 5 號字,注釋用小 5 號字,各級標題字號與正
文相同。
正文用 5 號字,是紙本圖書的一般格式,如果加大字號,用紙必多,成本劇增。電子文
獻載體由甲骨、竹木、縑帛、紙張變為磁盤、光碟等材料,成本幾可不計,所以儘可利用不
同字號來進行文本格式化。
本課題研製的電子古籍正文用 4 號字,注用小 4 號字,疏用 5 號字。書題篇目則視同正
文。正文如使用 4 號以上的字符,占用版面過多。本課題研製的漢語言文字學典籍,疏文比
經和注份量大得多,使用小於 5 號的字符,則閱讀不易。
2. 字體
字體指字符的體式。漢字常見的字體有宋體、仿宋、楷體、黑體、隸書、行書等。下表
是各種常見漢字字體的示例:
字體 宋體 仿宋 楷體 黑體 隸書 行書 幼圓
子樣 永 永 永 永 永 永 永
圖書使用不同的字體來區分內容的不同性質,例如篇名、作者,正文、引文,作者工作
單位……;或區分不同的層次,例如正文、注釋。
本課題研製的漢語言文字學典籍,使用的字種數量龐大,冷僻字眾多,必須有支持國際
標準 ISO / IEC 10646 - 2:2001 / Unicod
原创力文档


文档评论(0)