基于Tika的复合文档文本信息抽取及其应用开发.pdfVIP

  • 20
  • 0
  • 约1.5万字
  • 约 4页
  • 2017-06-19 发布于河南
  • 举报

基于Tika的复合文档文本信息抽取及其应用开发.pdf

基于Tika的复合文档文本信息抽取及其应用开发

基于Tika 的复合文档文本信息抽取及其应用开发 吴鹏飞 摘 要: 介绍了开源复合文档文本信息抽取工具 Apache Tika 的应用环境、 系统架构、 功能函数和 支持的文档格式, 介绍一个开发应用实例为下一步深入进行文本内容索引、 实体关系识别、 语义 分析和跨语言理解等奠定了良好的基础。 关键词: Tika ; 信息抽取; 元数据; 中文分词; 复合文档 成。 具体 Tika 系统架构如图 1 所示。 1 引言 当前 Web 环境下信息资源是以复合文档作为载体存在的, 例如 HTML、 XML、 DOC、 XLS、 PDF、 JPG、 FLV 等格式文 档, 海量、 分布、 异构的复合文档构成了整个 Web 信息环境。 Web 环境下的智能信息处理和检索需要理解跨语言 、 跨文化、 跨文档的内容。 Web 中的复合文档作为信息资源的载体, 要想 理解不同类型复合文档, 首先需要对复合文档进行信息解析与 抽 取 。 主要介绍了开源复合文档文本信息抽取工具 A

文档评论(0)

1亿VIP精品文档

相关文档