基于.NET的word的文档信息读取解析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于.NET的word的文档信息读取解析.doc

基于.NET的word的文档信息读取解析 摘要:本文主要介绍了在基于word 2007的OPEN XML存储格式的基础上结合.NET技术实现word文档关键信息和内容信息的读取和解析。提供了更加简单易用的操作界面,极大地提高了对word文档操作的效率。 关键词:OPENXML;.NET;文档信息读取;文档信息解析 中图分类号:TP317.1 随着市场需求的不断更新,在过去几年中肩负着存储和转换数据的二进制文件格式已经无法满足需求,由此产生了基于XML的文件格式。这种格式称为Office Open XML格式,改变了Microsoft Office建立解决方案的方式[1][2]。 Office Open XML对word文档(2007和2003均可)关键信息、内容的解析更加方便,能够从各个XML文件中获取信息来组建新的WORD文档,而且能够使文档中的各独立数据重新组合。由于它采用了Open XML这种存储格式,使得Office办公程序和其他业务系统之间能够方便地传递数据。Office Open XML这种存储格式的可靠性比二进制格式要好,可以有效地减小破坏文件数据的风险。由于Office办公程序的设计是以Office Open XML格式为基础,因而提高了创建和恢复文档的可靠性。 1 文档信息读取解析 1.1 基础原理介绍 1.2 基本过程 进行解析的文档不仅仅是指以Office Open XML为基本存储结构的word2007文档,当然也可以对word2003文档进行相应的操作,但是由于word2003采用的是二进制流的存储格式,在进行文档信息读取解析的过程之前需要先将word2003文档进行格式转换,转换为word2007文档[3-6]。文档格式转换的过程只需要将word2003的文档存储格式变成wd Format XML Document格式即可。 本文介绍的文档(一般情况文档)信息的读取解析针对的是文档基本内容信息、标题信息、目录信息。 1.2.1 文档基本内容信息,文档标题信息读取 文档文本信息主要包括的是文本基本内容信息和文档标题信息。主要的内容均存放在其Open XML格式的word文件夹中的document.xml文件中。 文本基本内容信息只包括文档的文本(暂时不包括标题)、图片和表格信息等。而文档标题信息就是常见的一级,二级,……标题等。 (1)寻找所要读取部分的标识符。一般情况下,不同的文本内容在XML文件中具有不同的标识符号。文本信息和标题信息均位于相同的表示符“P”(即Paragraph)中,能够标识两者区别的是其属性信息。文档基本文本信息和标题信息的最主要的区别是在paragraph的段落属性信息中的pStyle的值中体现出来的。最简单情况下标题信息在XML文件中的段落属性pStyle值为1,2……或者是heading1,heading2……,则此时表示此段落为标题信息段落。pStyle的Val值不为上述值或者是此段落没有pStyle属性信息则表示的为当前的段落为一般的文本信息。 (2)表格信息一般是位于标识符为“tbl”标识符内部。而在“tbl”标识符内部会有相应的行标识符“tr”和单元格标识符“tc”。可根据相应的“tr”和“tc”标识符来读取当前的表格内部信息。 (3)图片信息一般由标识符“drawing”或者是“Embedded Object”来确定。 在word2007的Open XML存储格式当前文档中的图片信息是存放在media文件夹当中的。图片信息获取是通过文档的主要部分MainDocumentPart.Parts中的RelationshipId与当前图片中ID信息相同时来获取当前的图片信息的。即使用图片与文档相关联的一些ID信息,然后从\word\media文件夹中寻找相应图片信息。 1.2.2 目录信息读取与解析 在我们平常使用的文档中生成目录以后,目录就会含有超链接,点击相应的目录跳转到相应的位置。这个信息在word2007的Open XML存储格式中是有相应体现的。 目录信息一般由表示符“TOC”或者是目录级别标识确定。同时由于目录一般属于超链接形式其标识为“hyperlink”。 以上所有的内容均是按照读取普通XML文档格式的方式根据基本信息的标识符信息来读取相应的内容加载到不同的位置进行显示。 2 结束语 Office Open XML的基本存储结构为利用.NET对word文档基本内容读取解析提供了很大的便利。让我们对word2007的存储结构有了更加轻松深刻的了解。本文所述的情况为基本情况下的文档读取与解析过程,不包括自定义一些文档特殊格式或者是添加了内容控件等情况。由于只是初学阶段,一些复杂的文档的读取解析过程会在后续介绍。 参考文献: [1]杨杰.VSTO.NET平台下

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档