Apache POI提取功能与应用.pdfVIP

  • 1
  • 0
  • 约9.2千字
  • 约 6页
  • 2026-05-22 发布于北京
  • 举报

ApachePOI‑文本提取

作者:NickBurch

1.概述

ApachePOI为所有支持的文件格式文本提取功能。此外,它还了与给定文件相

关的元数据的功能,例如标题和作者。

除了直接的文本提取类之外,POI还与ApacheTika文本提取库紧密合作。用户可

能希望简单地利用Tika的功能。

2.常见功能

所有POI文本提取器都扩展自org.apache.poi.POITextExtractor。这为所有提取器了

一个通用的方法getText()。在许多情况下,返回的文本就是你所需要的。然而,许多提取器确

实了更针对性的文本提取方法,因此在某些情况下,你可能希望使用这些方法。

所有基于POIFS/OLE2的文本提取器也扩展自

org.apache.poi.POIOLE2TextExtractor。这还了获取HPFS文档元数据的常用方法。

所有基于OOXML的文本提取器(POI3.5及更高版本中可用)也扩展自

org.apache.poi.POIOOXMLTextExtractor。这还了获取OOXML元数据的常用方法。

3.文本提取器工厂‑POI3.5或更高版本

POI3.5中的新类org.apache.poi.extractor

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档