一种智能文档存档格式方案及其应用.docVIP

一种智能文档存档格式方案及其应用.doc

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种智能文档存档格式方案及其应用

一种智能文档存档格式方案及其应用档案形成于人们的社会实践活动,是社会信息资源的重要组成部分,而在各种档案中,文书类文档作为各种信息的集大成者,在综合数量上占据绝大多数。文书类文档可以集成嵌入显示各种文字、图形、图像甚至音视频信息,其内容复杂度非常高。目前,通过各种计算机档案系统,相当部分的档案已经显示电子化,档案信息同时具有实物和电子副本两种管理格式。随着档案应用的深入,电子档案的重要性越来越突出。 从电子档案的来源来划分,可以分为存量档案和增量档案。存量档案是指历史已经形成的档案文件,通常只有纸质文件,没有电子副本,但可以通过扫描、数字化加工等手段获得。增量档案则来自于当前各种计算机应用系统,如办公自动化系统等,增量档案的来源往往已经采用了电子化的管理方案,所以可以直接以电子化的形式归档,纸质的原件虽然需要同时提交,但更多用作备查。电子文件在新型档案系统的应用越来越多,也越来越重要,基于电子档案的附加应用也将越来越多,全电子化将成为新的潮流。 在这种形势下,档案收集时应当采用何种格式既能解决电子文件长期保存的要求,又能蕴含丰富的数据提高利用价值,支持使用者信息编研、多终端查询等需求呢?这就要从电子文件的格式进行分析。 文书类文件格式分析 文书类电子文件主要分为流式和版式两种:流式文档中的信息图元的显示和打印等版式属性由该信息之前(后)的语义内容以“灌排”的方式综合确定,其解释必须“从头至尾、顺流而下”。流式文档的主要代表就是微软公司的文字处理格式(.doc)。 版式文档中的信息图元中已经完整定义了版式位置属性,其解释和呈现主要依赖于位置信息和成像描述而非语义顺序,因而有较强的独立性。版式文档的主要代表是Adobe公司的便携式文档格式(.pdf)。 流式和版式是上下游的关系,流式的排版结果即是版式,而版式文档所承载的信息则可能在流式中重新利用。 长期以来,流式文档和版式文档分处于两大相对独立的阵营中。虽然两者之间有着明显的逻辑关系,但并没有在格式上紧密地联系起来。但这种相对封闭有时也会出现松动和突破,比如微软先后在Office2003和Office2007中推出了自己的版式格式,mdi和,xps,Adobe则在PDF1.4规范中加入标签功能并开始支持重新排版(Reflow)。 1 文书类文件处理的对象 版式文档和流式文档在处理对象上有相当一部分是重叠的,流式文档处理的对象在最底层归结为文本、图形、图像三大基本对象,而版式文档的主体业务也集中于此,两者的不同在于,流式文档将这些对象组织于章节、段落、句等不同的语义逻辑结构中,在运行时通过运算实时确定对象的显示位置,其重点在于高效的排版引擎,而版式文档则将这些对象组织于页面、块、层等的逻辑结构中,对象的位置信息得以保存,其重点在于根据版式位置渲染呈现图元。版式和流式处理的对象这些特点,为在不同的逻辑结构中利用统一定义的对象提供的可能。 2 文书类文件的逻辑关系 从电子文件的生命周期来看,版式文档和流式文档是上下游的关系,流式的办公文档是版式文档的主要来源,如图1所示。但文件转化成版式文档并长期保存并不是文档生命周期的终结,在大多数情况下,转化为版式文档的信息在新的电子文件的生成过程中被引用和摘录,在一个意义上说,版式文档又成为流式文档的上游。这是一个循环的上下游关系,这也符合现实生活中人们对信息的利用情况,文明总是在不断的继承过程中发展。 3 电子文件的组成要素 电子文件发展到现在,经常是一个混合型的结构体,文件本身成为各种信息资源的一种容器,在2000年以后新出现的几种影响较大的新格式MARS、OOXML、ODF等,均使用XML+打包的文件总体架构,这是因为让一个文件同时承担信息描述和容器的双重功能已经使任务过于复杂化,因而倾向于“分工”,信息描述使用结构清晰的XML,容器功能则交由专业的打包压缩格式来完成。 流式文档和版式文档在处理的基层对象上是相同的,在逻辑上则是循环利用关系,流式的优势在于变动性和高可利用性,版式的优势在于固定版式、长期可读性。随着档案系统应用的深入,需要在一个文档内同时含有版式和流式两种信息才能更好地满足应用需求。这种需求促成了我们在应用中寻求一种同时具有流式和版式特性,能满足长期保存和高效利用各种场景需求的“智能文档”。 智能存档格式的若干观点 智能文档,是否就是将一个文档版式和流式原文合在一起呢?答案是否定的,现有的版式和流式格式由于分隔已久,各种信息表示上已经难以兼容,难以合起来,最多也不过将两个文档强行打包在一起或同时保存有两个副本。这样,将造成文件极度臃肿,不利于文件的分析、传输、监管,也就不利于电子文件的高效利用。显然,智能文档的初衷不是这样的,它不是对现有材料的“堆砌”,而是一种

文档评论(0)

docman126 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:7042123103000003

1亿VIP精品文档

相关文档