数学公式爬取及格式转换统一.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数学公式识别提取 陈立辉 内容 爬虫结构流程 结构 快速识别 Maple转换 Java Dom解析介绍 1.爬虫结构流程 爬取网页模块 提取数学公式模块 转换模块 harvest格式写入文件模块 文件夹 Web 存放 1.爬虫结构流程 快速识别包含数学公式网页模块 提取数学公式模块 (presentation、混合型MathML) maple转换模块 harvest格式写入文件模块 文件夹 Web 存放 ① ② ③ 爬取网页模块 修改后 快速识别包含数学公式网页模块 过滤条件: 纯文字网页: 如:纯中文、英文等网页 不包含数学公式基本变量: 如:x,y,z,a,b,c,k(独立字母) α,β,γ,ε,η,θ(希腊字母) 不包含运算符: 如:=、、、+、-、*、/、×、÷ 获取网页源码 抽取网页MathML源码 不包含运算符 不包含数学公式基本变量 纯文字网页 否 否 否 是 是 是 提取数学公式模块 正则匹配: 实现Presentation、混合MathML、(Content、infix) * 获取网页源码 MathML正则匹配 抽取网页MathML源码 是否找到MathML 是 否 maple转换模块 混合及presentation源码: 为保持公式原型,对mn标记 包含的纯数字添加后缀@, 进行转换,转换后将后缀及 包含此文本的标记修改为原 型 调用maple Presentation MathML转成Content MathML 产生Content MathML源码 Presentation MathML源码 修改包含纯数字的mn标记 修改ci及包含文本为cn及原文本 mn包含文本为数字 ci包含修改文本 是 是 否 否 2.JAVA DOM解析 用Java解析XML文档,最常用的有两种方法: 使用基于事件的XML简单API(Simple API for XML)称为SAX 基于树和节点的文档对象模型(Document Object Module)称为dom 2.JAVA DOM解析 1.接口包含了三个包: (1)org.w3c.dom W3C推荐的用于XML标准规划文档对象模型的接口。 (2)org.XML.sax  用于对XML进行语法分析的事件驱动的XML简单API(SAX) (3)Javax.XML.parsers解析器工厂工具,程序员获得并配置特殊的特殊语法分析器 2.首先来了解点Java DOM 的 API: (1).解析器工厂类:DocumentBuilderFactory 创建的方法: DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); (2).解析器:DocumentBuilder 创建方法:通过解析器工厂类来获得 DocumentBuilder db = dbf.newDocumentBuilder(); (3).文档树模型Document 创建方法: a.通过xml文档 Document doc = db.parse(bean.xml); b.将需要解析的xml文档转化为输入流 InputStream is = new FileInputStream(bean.xml); Document doc = db.parse(is); Document对象代表了一个XML文档的模型树,所有的其他 Node都以一定的顺序包含在Document对象之内,排列成一 个树状结构,以后对XML文档的所有操作都与解析器无关, 直接在这个Document对象上进行操作即可 4.节点列表类NodeList NodeList代表了一个包含一个或者多个Node的列表,根据操 作可以将其简化的看做为数组 5.节点类Node Node对象是DOM中最基本的对象,代表了文档树中的抽象 节点。但在实际使用中很少会直接使用Node对象,而是使用 Node对象的子对象Element,Attr,Text等 6.元素类Element 是Node类最主要的子对象,在元素中可以包含属性,因而 Element中有存取其属性的方法 7.属性类Attr 代表某个元素的属性,虽然Attr继承自Node接口,但因为 Attr是包含在Element中的,但并不能将其看做是Element的 子对象,因为Attr并不是DOM树的一部分 参考资料 DOM Core常用: /blog/839141 Java API * *

文档评论(0)

docindoc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档