Ch.2TextAccessMethods文字存取方法.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
Ch.2TextAccessMethods文字存取方法.ppt

Ch.2 Text Access Methods 文字存取方法 陳薏如 顧曉芹 前言 前言 今日的數位圖書館有兩種基本的方法論: 電腦處理文字的能力 電腦處理影像的能力 本章討論電腦處理文字、字元的技術 前言[續] 電腦處理文字的能力包含有搜尋、版面格式以及其他的功能 concordance (堪靠燈,意為逐字索引)今日已全面機械化 現在要搜尋一個字串並不是一件難事 前言[續] 電腦最顯著的成功之處是在文件製作上 現在的文字處理業界大量使用Word和Wordperfect 商業界都不再用傳統打字或手寫的文件 伴隨而生的副產品是 幾乎所有的文字都有機讀格式 (machine-readable form) 而這使得它在其他方面再被利用時就簡單、廣泛得多 Computer Typesetting and Online Databases 電腦排版及線上資料庫 電腦排版及線上資料庫 電腦排版的副產品 新的文字處理技術產生了大量的線上資料庫 過去只能從打孔紙帶、Monotype鑄字機來控制排版設備 到了1960年代,電腦排版開使被使用 參考工具書成了第一批電腦排版的產品 Books in Print 電腦排版及線上資料庫[續] 電腦排版技術的演變 幻燈片字母帶 (filmstrips with images of specific letters) 陰極射線管(CRT)螢幕 (cathode ray tube screens) 雷射印表機 (laser printers) 彩色雷射印表機 (color laser printers) 電腦排版及線上資料庫[續] 電腦排版軟體的問世始於1960年代美國麻省理工學院(MIT),卡內基美隆大學(Carnegie Mellon University,簡稱CMU)和史丹佛大學(Stanford)也跟進 印刷軟體的兩種基本模式 有些文字處理軟體直接以它所呈現的樣子來命名:WYSIWYG (what you see is what you get) 以內容的型態來描述:標題(heading)或註腳(footnote) 電腦排版及線上資料庫[續] 文字一旦為了印刷被鍵入電腦,它就可以被儲存下來做他用 大型的文字資料庫光是靠線上報紙的來源就迅速累積了大量資料 文字檢索工業發展自撥接進大型資料庫系統並組織其互動問題的語句,這樣的系統在1950和1960年代由政府開始研究 最大的商業系統Dialog,源自於NASA一個名為RECON的計劃 電腦排版及線上資料庫[續] 線上資料庫的數量在過去十五年來一直呈現穩定成長,近幾年來成長率的小幅下滑是因為受到光碟及網路的影響 今日線上可得的資料量很大,報紙、期刊摘要和索引、現期期刊…都有數位化資料,這些都是商業印刷工業的副產品 電腦排版及線上資料庫[續] 線上數位資料的現況 付費線上系統 許多雜誌、一些科學期刊(特別是醫學期刊)、大約1970年以後所有的索引摘要服務、1990年以後大部份的報紙 付費光碟 許多主要的參考工具,如:百科全書、字典。許多光碟型式的期刊通常大部分是圖,只有少部分為文字 網路上的免費資源 許多技術報告、最新的報告、各式各樣針對1920年以前文學的學生報告或主要研究 電腦排版及線上資料庫[續] 大部份的書和期刊現在還不能從網路上看到全文,但這是經濟的問題,而非技術上的問題,此情況在將來會改變 Text Formats 文字格式 文字格式 文字可以被儲存成各種不同的型式,即使是最基本的英文字母也是如此 有許多其他的語言需要更多的符號,或是有上千種的表意文字(中國及日本) Unicode Standard 以每個個字元16bits的方式表示了所有主要的語言 文字格式[續] 如何處理文字? 在WYSIWYG模式中不能改變型式,它只有輸出格式而無法輸入,這就是機讀格式(machine-readable form) 文字格式[續] 大型出版商使用更高階的文件描述系統 MARC (Machine-Readable Cataloging) SGML (Standard Generalized Markup Language) AAP Electronic Manuscript Standard (美國出版商協會電子稿件標準) CALS rules TEI standard (文件編碼計劃標準) HTML (Hypertext Markup Language) 文字格式[續] 現況 大部份的文字處理機都還是是用WYSIWYG模式,幾乎沒有改成使用SGML的 有些出版商說輸入正確的SGML語言會比使用普通的文字處理機花費兩倍的費用 雖然有些格式可以自動被轉換,畢竟還是沒有方

文档评论(0)

zcbsj + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档