标记系统与学术文本处理未来(二).docVIP

下载本文档

5
0
约1.42万字
约 24页
2017-06-01 发布于福建
举报
版权申诉

标记系统与学术文本处理未来(二).doc

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

标记系统与学术文本处理未来(二)

标记系统及学术文本处理的未来(二) 　　[摘要] 标记事务影响着学者们对思考与写作系统的采纳使用。程序性标记和表示性标记会阻碍这一进程的发展，描述性标记则通过简化机械性任务，让学者们将注意力集中于内容上的做法，以加快这一进程 [关键词] 标记学术文本文献标准通用标记语言 [中图分类号] G231 [文献标识码] A [文章编号] 1009-5853 （2016） 06-0009-08 [Abstract] Markup practices can affect the move toward systems that support scholars in the process of thinking and writing. Whereas procedural and presentational markup systems retard that movement， descriptive markup systems accelerate the pace by simplifying mechanical tasks and allowing the authors to focus their attention on the content. [Key words] Markup Scholarly text Document SGML 8 文档可移植性的可选方案目前文档可移植性有四种方案，但它们仅提供了部分解决方案。这些可供选择的方案包括：（1）作者对自己的作品进行排版并提供完稿复本；（2）作者提交与设备独立的页面描述文件，比如附言；（3）作者提交打印输出文件，出版商使用光符阅读器（OCRs）将其转换成电子形式；（4）作者发送无描述性标记的源文件，出版商用专门的工具来转换标记第一种选择方案里，作者过多地参与作品的描述过程，这使他们不能将注意力集中于作者这个角色。这个过程存在许多严重问题。首先，需要明确的是，排版是一项技术活，诸如字体、字形和字号，行距、加粗、字距、色框、手稿正面、手稿反面、字符间距、分散对齐等这些概念，以及专业设计师的所有设备都需要进行专门的培训。其次，大部分排版程序需要编程技术或者大量的人工参与。非技术性的问题甚至可能会有更重要的意义。出版商的排版规范通常存在许多不足。这些不足往往通过与专业人员的长期合作才能解决。因此，作者需要花费大量的时间和精力来明确排版规范和重置类型。再次，与专业排版人员一样，作者排版可能需要对不是根据出版商规范和出版商评估费用来设置的任何事务负经济上的责任。最后，作者排版会受限于紧迫的生产周期，这个周期会干扰他们的教学、学术、管理计划文档可移植性的第二种方案――提供页面描述文件――仍然让作者受限于大部分排版问题。为了准备页面描述文件，作者必须有完整的排版规范，以及确保他们的文件与规范相符合第三种方案――提交用OCRs进行阅读的打印文件――这能使作者摆脱一些排版问题，但是这并不能很好地改善生产流程。尽管OCRs正在变得更快以及更加精准，但它们的价格仍然昂贵且容易出错。因操作人员介入的需要，校对在生产环节被淘汰的可能性很小。此外，OCRs限制了从打印输出生成标记文件的能力。现在的系统能生成一些程序性标记，但不能区分比如定理和公理，或者甚至不能区分章和小节。因此，OCRs生成文件仍然需要受过培训的人员来识别和编码文本元素（需要注意的还有，就算是经过训练的操作员，也不会做诸如公理和定理这样复杂的区分）。当字符识别的问题被解决，我们可以期望OCRs生产商再集中到元素识别的问题上。但是，没有精确的编码，文本元素的自动识别将是一项充满随意性的任务。而且，当知识已经能够很轻易地被记录在源文件中时，开发系统来恢复被遗弃的知识是一件极其浪费资源的事情最后，普遍观点认为，出版商能使用专门的工具将作者的源文件转换成他们自己的格式。比如，据出版系统希尔伯德报告[20，pp.37-38] 所述：“ Shaffstal 通信/转换系统已经逐渐成为一种先进的工具，几乎能够处理接口域出现的任何问题。” 但是在Shaffstall 5000 XT 的测试中，记者试图处理来自MacWrite 2、MacWrite 4.2、PageMaker、ReadySetGo和Microsoft Word的文件。他们发现系统能很好地处理MacWrite 2 文件，但是不能很好地处理其他的文件，因为“这些程序使用不同的方式处理数据”。很明显，每个程序的每个新版本都会危及系统的实用性。此外，这些系统并没有提供必要的元素识别；它们只是简单地生成了带有基本程序标记的源文件。专业人员仍然需要辨别每一种元素类型。最终，文件很可能