标记系统及学术文本处理的未来(二).docVIP

  • 1
  • 0
  • 约1.44万字
  • 约 20页
  • 2017-10-09 发布于北京
  • 举报

标记系统及学术文本处理的未来(二).doc

标记系统及学术文本处理的未来(二)   [摘 要] 标记事务影响着学者们对思考与写作系统的采纳使用。程序性标记和表示性标记会阻碍这一进程的发展,描述性标记则通过简化机械性任务,让学者们将注意力集中于内容上的做法,以加快这一进程。   [关键词] 标记 学术文本 文献 标准通用标记语言   [中图分类号] G231 [文献标识码] A [文章编号] 1009-5853 (2016) 06-0009-08   [Abstract] Markup practices can affect the move toward systems that support scholars in the process of thinking and writing. Whereas procedural and presentational markup systems retard that movement, descriptive markup systems accelerate the pace by simplifying mechanical tasks and allowing the authors to focus their attention on the content.   [Key words] Markup Scholarly text Document SGML   8 文档可移植性的可选方案   目前文档可移植性有四种方案,但它们仅提供了部分解决方案。这些可供选择的方案包括:   (1)作者对自己的作品进行排版并提供完稿复本;   (2)作者提交与设备独立的页面描述文件,比如附言;   (3)作者提交打印输出文件,出版商使用光符阅读器(OCRs)将其转换成电子形式;   (4)作者发送无描述性标记的源文件,出版商用专门的工具来转换标记。   第一种选择方案里,作者过多地参与作品的描述过程,这使他们不能将注意力集中于作者这个角色。这个过程存在许多严重问题。首先,需要明确的是,排版是一项技术活,诸如字体、字形和字号,行距、加粗、字距、色框、手稿正面、手稿反面、字符间距、分散对齐等这些概念,以及专业设计师的所有设备都需要进行专门的培训。其次,大部分排版程序需要编程技术或者大量的人工参与。非技术性的问题甚至可能会有更重要的意义。出版商的排版规范通常存在许多不足。这些不足往往通过与专业人员的长期合作才能解决。因此,作者需要花费大量的时间和精力来明确排版规范和重置类型。再次,与专业排版人员一样,作者排版可能需要对不是根据出版商规范和出版商评估费用来设置的任何事务负经济上的责任。最后,作者排版会受限于紧迫的生产周期,这个周期会干扰他们的教学、学术、管理计划。   文档可移植性的第二种方案――提供页面描述文件――仍然让作者受限于大部分排版问题。为了准备页面描述文件,作者必须有完整的排版规范,以及确保他们的文件与规范相符合。   第三种方案――提交用OCRs进行阅读的打印文件――这能使作者摆脱一些排版问题,但是这并不能很好地改善生产流程。尽管OCRs正在变得更快以及更加精准,但它们的价格仍然昂贵且容易出错。因操作人员介入的需要,校对在生产环节被淘汰的可能性很小。此外,OCRs限制了从打印输出生成标记文件的能力。现在的系统能生成一些程序性标记,但不能区分比如定理和公理,或者甚至不能区分章和小节。因此,OCRs生成文件仍然需要受过培训的人员来识别和编码文本元素(需要注意的还有,就算是经过训练的操作员,也不会做诸如公理和定理这样复杂的区分)。当字符识别的问题被解决,我们可以期望OCRs生产商再集中到元素识别的问题上。但是,没有精确的编码,文本元素的自动识别将是一项充满随意性的任务。而且,当知识已经能够很轻易地被记录在源文件中时,开发系统来恢复被遗弃的知识是一件极其浪费资源的事情。   最后,普遍观点认为,出版商能使用专门的工具将作者的源文件转换成他们自己的格式。比如,据出版系统希尔伯德报告[20,pp.37-38] 所述:“ Shaffstal 通信/转换系统已经逐渐成为一种先进的工具,几乎能够处理接口域出现的任何问题。” 但是在Shaffstall 5000 XT 的测试中,记者试图处理来自MacWrite 2、MacWrite 4.2、PageMaker、ReadySetGo和Microsoft Word的文件。他们发现系统能很好地处理MacWrite 2 文件,但是不能很好地处理其他的文件,因为“这些程序使用不同的方式处理数据”。 很明显,每个程序的每个新版本都会危及系统的实用性。此外,这些系统并没有提供必要的元素识别;它们只是简单地生成了带有基本程序标记的源文件。专业人员仍然需要辨别每一种元素

文档评论(0)

1亿VIP精品文档

相关文档