- 1
- 0
- 约4.04千字
- 约 4页
- 2018-07-04 发布于河南
- 举报
javaword图片
从MS word文档获取图片
2010-07-18 19:47
本文包括如何用java从WORD文档获取图片和其他二进制嵌入式对象的演示
Microsoft 从office 2003开始支持将文档保存为XML. 图片则以二进制形式嵌入在XML文档中, 它使用BASE 64 编码.? MS Word 使用 w:binData 标签存储嵌入式二进制数据, 并使用伪协议wordml创建一个name属性. URI可以使一个带有文件类型扩展名的名字. 例如
w:binData w:name=wordml:/gifw:binData w:name=wordml:/png
标签的内容是BASE64 编码的二进制数据. 没有其他标记来说明这个了,? 就是嵌规则哈.
使用一个 SAX parser 就可以很方便地把图片数据解析出来.? 看看下面的例子吧,? 可以把二进制数据包括所有图片从WORD文档解析出来, 并存到文件里.
运行方法: java com.doylecentral.word.FileTester wordFile.xml outputDirectory
其中 FileTester 这个类用来提供一个简单的例子,? 说明如何使用这些类, 看看它就明白怎么用了.?
写到文件系统里这一步是随意的, 也可以随时改主意, 送到数据库里去.
设计的思路如下:
??public?class?ImageExtractor?{???CharArrayWriter?text?=?new?CharArrayWriter();???Map?dataMap?=?new?HashMap();???int?foundImages;???public?ImageExtractor()?{??????//C???}???/**????*?InputStream?is?closed?internally.????*?@param?is????*?@throws?IOException????*/???public?ImageExtractor(InputStream?is)?throws?IOException?{??????parseXmlFile(is,?new?ImageParseHandler()?,?false);??????is.close();???}???/**????*?Refuse?to?Validate?against?dtd.????*?@param?is????*?@param?handler????*?@param?validating????*/???private?void?parseXmlFile(InputStream?is,?DefaultHandler?handler,????????boolean?validating)???{??????try??????{????????SAXParserFactory?factory?=?SAXParserFactory.newInstance();????????factory.setValidating(validating);????????factory.newSAXParser().parse(is?,?handler);??????}?catch?(SAXException?e)??????{????????//?A?parsing?error?occurred;?the?xml?input?is?not?valid??????}?catch?(ParserConfigurationException?e)??????{????????//??????}?catch?(IOException?e)??????{????????//??????}???}???private?class?ImageParseHandler?extends?DefaultHandler?{??????private?boolean?inImage?=?false;??????private?StringBuffer?encodedDataSb?=?null;??????private?String?imageName;??????Locator?locator;??????public?void?setDocumentLocator(Locator?locator)??????{????????this.locator?=?locator;??????}??????public?void?characters(char[]?cha
您可能关注的文档
- (C语言模拟试卷题解17).doc
- 03用加减法解二元一次方程(十一学校).ppt
- 0Iwlrxn_108精算师非寿险精算实务.doc
- 1-1-4计算机网络复习.ppt
- 05整数规划.ppt
- 06-07上半学年XX小学(学科)工作总结.doc
- 03高计B答案.doc
- 1-2毕业设计任务书-多媒体.doc
- 1.4环控调度员.doc
- 10-01老板.doc
- 全过程工程管理造价咨询工程监理项目服务方案投标方案(技术部分).doc
- 招标代理服务投标技术服务方案(技术方案).doc
- AI大模型与AIGC技术在公安领域的应用解决方案(99页 PPT).pptx
- 工业4.0智能制造数字工厂规划方案.pptx
- 树立社会主义核心价值观.docx
- 三年(2023-2025)中考历史真题分类汇编(全国)专题21 科技文化与社会生活(解析版).docx
- 2025年中考道德与法治真题完全解读(吉林卷).pdf
- 2025年中考道德与法治真题完全解读(安徽卷).pdf
- 三年(2023-2025)中考历史真题分类汇编(全国)专题14 人民解放战争(解析版).pdf
- 三年(2023-2025)广东中考历史真题分类汇编:专题03 中国近代史(八年级上册)(解析版).docx
最近下载
- 云南乌铜走银工艺品艺术符号的现代呈现途径与思路.doc VIP
- GB_T 43852-2024 冷热水用钢增强塑料复合压力管.docx VIP
- 各级配电箱接线系统图.docx VIP
- 组织学和胚胎学泌尿系统.pdf VIP
- 2025及未来5年中国碳酸锂行业市场调研及行业投资策略研究报告.docx
- DB12_T598_3-2024建设项目用地控制指标第3部分:公用设施项目.pdf VIP
- 卫生管理正副高级卫生高级资格理论考试试题库(含答案).docx
- 唐古特白刺NtP5CS和NtCIPK2基因克隆与功能解析:解锁植物耐旱奥秘.docx
- 部编版小学五年级上册道德与法治第八课《美丽文字民族瑰宝》测试题附答案(共3套).pdf VIP
- 《生物材料与医疗应用》课件.ppt VIP
原创力文档

文档评论(0)