基于XML的可扩展文档转换系统的设计和实现.pdfVIP

基于XML的可扩展文档转换系统的设计和实现.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于XML 的可扩展文档转换系统的设计与实现 薛红军,杨俊,孙强 北京邮电大学计算机科学与技术学院,北京(100876) E-mail:xuehongjun52@ 摘 要:本文给出了一种以XML 为中间格式的多格式文档互相转换的解决方案。并根据此 方案采用纯 java 开发出了扩展文档转换系统(简称 EDCS ),它不仅支持各种常见文档如 WORD,EXCEL,PDF,HTML 等格式文档到 XML 文档的转换,而且也支持 XML 文档到 RTF,PDF,HTML 文档的转换。此外,还具有跨平台,可移植性等优点。 关键词:XML ,MS Word,文档解析,文档转换 中图分类号:TP391 1. 引言 随着我国办公自动化、电子政务的飞速发展,公文文档的交换也日趋频繁。当今主流文 档的格式也很多,Microsoft Office 、WPS Office 、OpenOffice、PDF 等都为广大政府和个人 所用。而文档格式的不同为信息的快速传输和交换带来了极大的不变,因此如何在各种文档 转之间进行转换已经成为一个急待解决的问题。本文首先介绍了可扩展文档转换系统的框 架,然后分析了 Word 文档的格式。在此基础上提出了如何将 Word 文档转换为 XML 文档, 以及将XML 文档转换为 HTML 文档。 2. 系统框架设计 文档转换的通用方法是在分析文件格式的基础上,定义一种中间语言或中间结构来描述 文件有效语义和内容数据,并定义代表这些数据的标记规则,建立该标记规则与其它文件之 间的映射关系,从而实现文件之间的转换[1][2] 。 由于XML 元语言特性及结构化的特点,使其成为了互联网异构环境中不同类型和不同 领域数据交换的开放标准。XML 文档通过定义标记描述文档的结构与意义,它处理的数据 具有结构化特点,容易阅读和编写。同时具有强大的可延展性和自我描述性,为实现 Web 文件在网络间的数据交换、处理、存储和信息搜索提供了最方便的载体。因此成为交换语言 的首选[3] 。因此,以XML 为中间格式文档,设计系统框架如图 1 所示: 源文档 XML DOM 树 Word 目标文档 RTF Excel PDF PPT HTML RTF Text PDF 其它 其它 图 1 可扩展文档转换系统的框架 - 1 - 在图 1 中,通过从底层分析源文件的二进制格式,解析出源文件的文字、图片、样式等 信息,生成 XML DOM 树,存储在我们定义好的 XML 文件中,然后可以根据需要转换成目 标格式的文档。在从源文档转 XML 文件以及从 XML 转目标文档的过程中,根据不同的转 换需要定义一些规则,比如从 XML 到 HTML 的转换,需要定义XSLT 文档,在 XSLT 文档 中记录了的规则包括:XML 中表示表格的标签与HTML 中的table,tr,td对应,……

文档评论(0)

kehan123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档