基于Tika的复合文档文本信息抽取及其应用开发.pdfVIP

下载本文档

20
0
约1.5万字
约 4页
2017-06-19 发布于河南
举报

基于Tika的复合文档文本信息抽取及其应用开发.pdf

基于Tika的复合文档文本信息抽取及其应用开发

基于Tika 的复合文档文本信息抽取及其应用开发吴鹏飞摘要：介绍了开源复合文档文本信息抽取工具 Apache Tika 的应用环境、系统架构、功能函数和支持的文档格式，介绍一个开发应用实例为下一步深入进行文本内容索引、实体关系识别、语义分析和跨语言理解等奠定了良好的基础。关键词： Tika ；信息抽取；元数据；中文分词；复合文档成。具体 Tika 系统架构如图 1 所示。 1 引言当前 Web 环境下信息资源是以复合文档作为载体存在的，例如 HTML、 XML、 DOC、 XLS、 PDF、 JPG、 FLV 等格式文档，海量、分布、异构的复合文档构成了整个 Web 信息环境。 Web 环境下的智能信息处理和检索需要理解跨语言、跨文化、跨文档的内容。 Web 中的复合文档作为信息资源的载体，要想理解不同类型复合文档，首先需要对复合文档进行信息解析与抽取。主要介绍了开源复合文档文本信息抽取工具 A

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于Tika的复合文档文本信息抽取及其应用开发.pdfVIP

基于Tika的复合文档文本信息抽取及其应用开发.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档