多种类型文档的数据处理.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多种类型文档的数据处理   摘 要:pdf、word、txt等类型文档在学习和办公中的使用越来普遍,为了方便对这些文档进行统一归类、整理等必要的处理,在处理文档的时候,那么就需要把文档转换成统一的格式进行处理,这就涉及到各种类型文档的相互转换。还需要提取关键词等功能来帮助用户对文档分类或了解文档的大概内容。   本文会讲解在多种类型文档进行数据处理时所采用的关键词抽取的相关技术和数据格式转换技术的调研和使用。拟用C/S结构开发,采用JAVA作为开发工具,在Eclipse环境下,实现对多种类型文档进行数据处理的模拟。   关键词:格式转换;关键词抽取   1 设计方案   1.1文档格式转换方案   因各类文档的转换方法类似,而word文档转换为pdf文档是最常用的。所以设计方案用实现word文档转换为pdf文档的作为例子,详细方案如下。   方案1:   首先利用程序直接打开Word文档,从原文档中获取文字和图像的内容以及它们的相关属性(因word文档对文字和图像的属性设置过多,只能获取部分关键属性),再直接生成PDF文档并按照Word文档的对应属性把对应的文字内容和图像内容分别输入到相应的位置上,最后关闭文件。   但是,因为需要从文档中直接获取其中的内容和对应属性,如果要采用此方案,就必须精通Word以及PDF的文档的结构。但是Word和PDF的文档的结构非常复杂(单单文档的规则就有几千条,时间会浪费在阅读和使用规则上)。这就意味着,在读取Word文档的时候不但要获取Word文档的文本内容,而且还要获取到对应的字体格式、颜色、背景图像以及表格的位置等等。又因为微软的office软件和Adobe Acrobat Professional都不是开源软件,没有它们的源代码,就很难保证在定义Word和PDF文档对应属性、设置文档格式时不会遇到非开源的部分。综上所述,此方案体实现困难。   方案2:   对于方案1中存在的问题,微软公司和第三方公司提供了操作Word、Excel和PDF的类库、接口和组件,这就有了解决方案。第二种方案就是先制作一个中间件,即将word文档先转换成Ps文档,然后再把Ps文档转换成PDF文档。最终编写图形界面,上传文档并利用代码使用这个中间件完成文档转换。   方案3:   为了提高多种类型文档的数据处理的稳定性和安全性,本方案对方案2进行修改,取消使用件。方案2调用提供的相应组件和类库的使用是在中间件中实现的,每当对中间件打包处理时,只能把中间件打包,而对于其中所调用的组件和类库等无法打包,若用方案2开发模拟数据处理的模拟程序必受到软件环境的制约。所以方案3放弃使用中间件,采用PDFBOX、POI类库。考虑到需转换的文?n具有很多的规范,且不易直接操作的特点,同时为了数据处理模拟程序的通用性,因此决定使用方案3进行模拟。   1.2关键词抽取方案   在文档被统一的转换为同一类文档后,接下来就需要对文档进行关键词抽取。   1.利用ANSJ中文分词对转换后文档进行处理,将文档中所有词汇和词性放入数组中存储。   2.统计特征值。创建一个哈希表。里面需要有词汇所在位置(标题,摘要,正文,句首,句尾)和出现总次数等等。   3.从正文的开始处,若开头不是虚词也不是符号,若相连的两个词都不是,计算这两个词连续出现的次数。如果计算的次数大于设定的阈值,就把这两个词或者合并到一起并修正词性为new(表示为名词),再从这个重新组成的词作??开始,循环以上操作;若相连两个词的出现的次数小于设定的阈值,或有虚词、符号,则跳过。然后寻找下一个不是虚词或者符号的实词。直至正文内容的结尾。   4.根据修改的数组重新遍历。重新整理哈希表的信息。修改原来的新词汇new和里面的特征值。   以上步骤能够重新切分出一些新词。这些新词可以作为关键词提取的一个特征值,它们会起很大的作用。   2 程序模拟   按照方案3进行程序模拟的结果如下图所示:   参考文献   [1] 田学军.PDF文件格式及其转化方法探讨[J],荆门职业技术学院学报,2005,(3):5-31.   [2] 郑家恒,卢娇丽,关键词抽取方法的研究[J].计算机工程,2005,18(9):194-196.   [3] 宋艳娟,李金铭,陈振标.基于XSLT的PDF信息抽取技术的研究[J].计算机与数字工程,2008,36(5):156-159.

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档