- 20
- 0
- 约1.5万字
- 约 4页
- 2017-06-19 发布于河南
- 举报
基于Tika的复合文档文本信息抽取及其应用开发
基于Tika 的复合文档文本信息抽取及其应用开发
吴鹏飞
摘 要: 介绍了开源复合文档文本信息抽取工具 Apache Tika 的应用环境、 系统架构、 功能函数和
支持的文档格式, 介绍一个开发应用实例为下一步深入进行文本内容索引、 实体关系识别、 语义
分析和跨语言理解等奠定了良好的基础。
关键词: Tika ; 信息抽取; 元数据; 中文分词; 复合文档
成。 具体 Tika 系统架构如图 1 所示。
1 引言
当前 Web 环境下信息资源是以复合文档作为载体存在的,
例如 HTML、 XML、 DOC、 XLS、 PDF、 JPG、 FLV 等格式文
档, 海量、 分布、 异构的复合文档构成了整个 Web 信息环境。
Web 环境下的智能信息处理和检索需要理解跨语言 、 跨文化、
跨文档的内容。 Web 中的复合文档作为信息资源的载体, 要想
理解不同类型复合文档, 首先需要对复合文档进行信息解析与
抽 取 。 主要介绍了开源复合文档文本信息抽取工具 A
您可能关注的文档
- MAX V 白皮书.pdf
- n]^n}单调有界的几种证明方法.pdf
- PHP工程师综合笔试卷一.pdf
- RobotFramework快速入门指南.pdf
- uboot 入门(一) mkconfig的理解.pdf
- ZKB剪切破碎机及其性能分析.pdf
- {In Archive} FW_ 上班族正确坐__.pdf
- 二维码_成为又一新型犯罪工具.pdf
- 五子衍宗丸质量标准的研究.pdf
- 关于一类非正则语言的证明.pdf
- 东亚危机中金融传染的研究.docx
- 2026湖南湘江研究院有限责任公司招聘7人备考题库含答案详解(a卷).docx
- 三级公立中医医院关于出院病员欠费情况审计报告.docx
- 三级调研员屈全胜个人简历.docx
- 2026湖南湘江研究院有限责任公司招聘7人备考题库附答案详解(综合卷).docx
- 2026湖南湘江研究院有限责任公司招聘7人备考题库含答案详解(精练).docx
- 2026湖南省交通科学研究院有限公司招聘37人备考题库有完整答案详解.docx
- 三晖电气三季度财务分析报告银行版.docx
- 2026湖南湘江研究院有限责任公司招聘7人备考题库及答案详解(全优).docx
- 2026玉溪硅基智能科技有限公司招聘10人备考题库及参考答案详解一套.docx
最近下载
- 仕豪模具制造公司绩效管理培训讲义.ppt VIP
- 首件盖板涵施工方案-(上传).doc VIP
- 2026年金山职业技术学院单招职业适应性测试题库及答案解析.docx VIP
- (完整版)化工毕业设计论文.doc VIP
- T_CHTS 10021-2020 在役公路隧道长期监测技术指南.docx VIP
- TCNEA-核电厂人机接口设计导则 第2部分:信息显示.pdf VIP
- 施耐德ION 7550 7650 User Guide电能质量监测装置说明书.pdf VIP
- 人教PEP版(一起)(2024)英语一年级下册Unit4 My pet(课件).pptx VIP
- 2025年生物济南二模试题及答案.docx VIP
- 杜邦反渗透和纳滤膜元件产品与技术手册(陶氏DOW)2020.pdf
原创力文档

文档评论(0)