- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
抽取WORD文档为结构化信息并存储的方法.PDF
疾风资料库()
抽取 WORD 文档为结构化信息并存储的方法
【摘要 】在交通行业领域存在着很多的执行标准,这些标准基本上都是以
word 这种半结构化的数据而存在的。为了进行标准的快速检索和一致性检测,就需要自动化
的提取 word 标准为结构化信息并存入数据库,以便于后续知识数据元的提取进而进行标准比
对,得到检测报告。本文采用 Jacob 技术操作 word 文档,抽取 word 为结构化信息并存
入 Mysql 数据库。
【关键词 】半结构化数据,数据抽取, Jacob,数据存储, Mysql
【中图分类号 】TP311.13 【文献标识码 】A 【文章编号 】1672-5158(2013)
04-0161-02
引言
我们知道交通系统是一个涉及面非常广,领域非常多的庞杂的信息系统。对于这样一
个系统要进行正确而又权威性的管理,建立相应各个方面的执行标准进而为我们的交通管理提
供一个执行标准是一个项非常必要的工作。交通部作为全国的交通管理部门就成立了相应的标
准管理委员会,并委托各个标准制定委员会去制定相应领域的标准以供执行。因为交通问题涉
及的领域实在是太复杂了,不仅面广,而且还存在着不同领域的交界信息,甚至同一领域内也
存在很多模糊难以界定的问题。每一个标准制定委员会制定出很多的标准,而且各个标准的制
定单位还不一样,所以就出现了标准之间存在重复性规定,不一致性规定的问题。
标准的制定都遵从的是一个统一的总章规则,又是以 word 这种半结构化的数据
存在的。所以我想做的就是把 word 文档信息提取为结构化的信息并存储到结构化数据库当
中。那么我们就可以通过比较自动的进行标准的冲突性检测了,检测出存在冲突性的标准并给
出冲突检测报告。这样就可以给我们的标准检索和为标准制定者的制定工作提供非常有意义的
辅助工作。
1、提取技术
疾风资料库()
涉及到 word 格式内容的抽取。目前,用 iava 实现对 word 内容进行抽取的工具
一般有两种: Jacob 和 Apache 的 Poi。
因为要把 word 的内容抽取为格式化的信息并存入到数据库中,所以首先要能够抽取
去整篇 word 文档的结构化信息及标题结构存人数据库,再抽取相应的文本信息到对应数据库
表中。 Poi 是 Apache 的一个项目,但是目前只能操作简单的 word 文档,复杂的、带表
格的都不行,不过,相信 Apache 对 Poi 的不断完善,效果会有改观。 Poi 是用纯
Java 实现的。
Jacob 是 Java 和 Com 的连接桥,连接 Java 和 Com 或者 win32 函数的一个中
间件。 Microsoft Word 以一种专用格式存储其文档,它通过 “组件对象模型( COM)”
对象显示其某些特征。 Jacob 允许任何 JVM 访问 COM 对象,从而使 Java 应用程序能够
利用 COM 对象。所以我才用了 Jacob 的工具来实现对 word 文档的信息抽取。
2、系统设计
通过对一篇 word 文档的研究可以发现,每篇
文档评论(0)