- 1、本文档共3页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
C实现将PDF转文本的功能.doc
2014年2月27日:?这篇文章最初只描述使用 PDFBox 来解析PDF文件。现在它已经被扩展到包括使用 IFilter 和 iTextSharp 的例程了。
这篇文章和对应的Visual Studio项目已经更新到目前最新的 PDFBox 版本(1.8.4)。可以从/how-to-convert-pdf-to-text-in-net-sample-project/?下载包含所有依赖内容的完整项目(要消除依赖关系有点棘手)。
如何解析 PDF 文件
在.NET中从PDF文件里提取文本的几种主要方法有:
Microsoft 的 IFilter 接口 和 Adobe 的 IFilter 实现;
iTextSharp;
PDFBox。
不幸的是这些 PDF 解析方案都不完美。我们将在下面讨论这些方法。
Adobe PDF IFilter
为了使用 IFilter 接口来解析?PDF 文件,你需要:
Windows 2000 或者后续版本
Adobe Acrobat 或 Reader 7.0.5+ (或单独的?Adobe PDF IFilter?[])
IFilter COM 封装类?[]
样例代码:
1
2
3
4
5
6
7 using?IFilter;
?
//?...
?
public?static?string?ExtractTextFromPdf(string?path)?{
??return?DefaultParser.Extract(path);?
} 缺点:
使用了不可靠的 COM 互操作来处理 IFilter 接口 (并且组合 IFilter COM、 Adobe PDF IFilter 特别麻烦)。
需要在目标系统上单独安装 Adobe IFilter。如果你需要对其它人发布可索引的解决方案,会很痛苦。
iTextSharp
iTextSharp(/projects/itextsharp/)?是一个 Java 的PDF 操作库iText(/)?的.NET输出。它主要着眼于编辑PDF而不是阅读,但它当然也支持从PDF中提取文本(尽管有点大材小用)。
例程:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19 using?iTextSharp.text.pdf;
using?iTextSharp.text.pdf.parser;
?
//?...
??
public?static?string?ExtractTextFromPdf(string?path)
{
??using?(PdfReader?reader?=?new?PdfReader(path))
??{
????StringBuilder?text?=?new?StringBuilder();
?
????for?(int?i?=?1;?i?=?reader.NumberOfPages;?i++)
????{
????????text.Append(PdfTextExtractor.GetTextFromPage(reader,?i));
????}
?
????return?text.ToString();
??}
} 信用证:?成员号 缺点:
需要许可证(如果你不喜欢?AGPL许可证?的话)
PDFBox
PDFBox是另一个Java PDF类库。它同时也可以与原来的Java Lucene一同使用(参见LucenePDFDocument)。
幸运的是,PDFBox有一个使用IKVM.NET开发的.NET版本?(只需访问PDFBox下载页)。
在.NET中使用PDFBox需要引用:
IKVM.OpenJDK.Core.dll
IKVM.OpenJDK.SwingAWT.dll
pdfbox-1.8.4.dll
并将下列文件复制到bin文件夹下:
commons-logging.dll
fontbox-1.8.4.dll
IKVM.OpenJDK.Util.dll
IKVM.Runtime.dll
使用PDFBox解析PDF十分简单:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19 using?org.apache.pdfbox.pdmodel;
using?org.apache.pdfbox.util;
?
//?...
?
private?static?string?ExtractTextFromPdf(string?path)
{
??PDDocument?doc?=?null;
??try?{
????doc?=?PDDocument.load(path)
???
您可能关注的文档
最近下载
- 2021-2022学年初中化学人教版九年级上册 4.4.4 有关相对分子质量的计算 同步习题.docx VIP
- 浙教版科学九年级上册化学方程式汇总复习.docx
- WWT 0050-2014 文物建筑维修基本材料+青瓦.pdf
- 砂浆作业指导书.doc
- TCI 313-2024 碳酸锂中碳酸锂含量测定 电位滴定法.pdf
- 垃圾填埋场飞灰安全填埋专区扩建及环境综合整治工程可行性研究报告.pdf
- (新课标)新冀人版小学科学五年级上册第五单元12课《火山》说课稿.docx
- 中国基层房颤中心认证标准(试行).PDF
- 快递行业研究框架:“战国”时代,静待改善.pdf
- 《指向高中历史核心素养的大单元教学设计研究》课题研究方案.doc
文档评论(0)