数学公式爬取及格式转换统一.pptVIP

下载本文档

24
0
约1.9千字
约 13页
2017-09-16 发布于重庆
举报
版权申诉

数学公式爬取及格式转换统一.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数学公式识别提取陈立辉内容爬虫结构流程结构快速识别 Maple转换 Java Dom解析介绍 1.爬虫结构流程爬取网页模块提取数学公式模块转换模块 harvest格式写入文件模块文件夹 Web 存放 1.爬虫结构流程快速识别包含数学公式网页模块提取数学公式模块（presentation、混合型MathML） maple转换模块 harvest格式写入文件模块文件夹 Web 存放 ① ② ③ 爬取网页模块修改后快速识别包含数学公式网页模块过滤条件：纯文字网页：如：纯中文、英文等网页不包含数学公式基本变量：如：x,y,z,a,b,c,k（独立字母） α,β,γ,ε,η,θ（希腊字母）不包含运算符：如：=、、、+、-、*、/、×、÷ 获取网页源码抽取网页MathML源码不包含运算符不包含数学公式基本变量纯文字网页否否否是是是提取数学公式模块正则匹配：实现Presentation、混合MathML、（Content、infix） * 获取网页源码 MathML正则匹配抽取网页MathML源码是否找到MathML 是否 maple转换模块混合及presentation源码：为保持公式原型，对mn标记包含的纯数字添加后缀@，进行转换，转换后将后缀及包含此文本的标记修改为原型调用maple Presentation MathML转成Content MathML 产生Content MathML源码 Presentation MathML源码修改包含纯数字的mn标记修改ci及包含文本为cn及原文本 mn包含文本为数字 ci包含修改文本是是否否 2.JAVA DOM解析用Java解析XML文档，最常用的有两种方法：使用基于事件的XML简单API（Simple API for XML）称为SAX 基于树和节点的文档对象模型（Document Object Module）称为dom 2.JAVA DOM解析 1.接口包含了三个包：（1）org.w3c.dom　W3C推荐的用于XML标准规划文档对象模型的接口。（2）org.XML.sax　用于对XML进行语法分析的事件驱动的XML简单API（SAX）（3）Javax.XML.parsers解析器工厂工具，程序员获得并配置特殊的特殊语法分析器 2.首先来了解点Java DOM 的 API: (1).解析器工厂类：DocumentBuilderFactory 创建的方法： DocumentBuilderFactory dbf = DocumentBuilderFactory.newInstance(); (2).解析器：DocumentBuilder 创建方法：通过解析器工厂类来获得 DocumentBuilder db = dbf.newDocumentBuilder(); (3).文档树模型Document 创建方法： a.通过xml文档 Document doc = db.parse(bean.xml); b.将需要解析的xml文档转化为输入流 InputStream is = new FileInputStream(bean.xml); Document doc = db.parse(is); Document对象代表了一个XML文档的模型树，所有的其他 Node都以一定的顺序包含在Document对象之内，排列成一个树状结构，以后对XML文档的所有操作都与解析器无关，直接在这个Document对象上进行操作即可 4.节点列表类NodeList NodeList代表了一个包含一个或者多个Node的列表，根据操作可以将其简化的看做为数组 5.节点类Node Node对象是DOM中最基本的对象，代表了文档树中的抽象节点。但在实际使用中很少会直接使用Node对象，而是使用 Node对象的子对象Element,Attr,Text等 6.元素类Element 是Node类最主要的子对象，在元素中可以包含属性，因而 Element中有存取其属性的方法 7.属性类Attr 代表某个元素的属性，虽然Attr继承自Node接口，但因为 Attr是包含在Element中的，但并不能将其看做是Element的子对象，因为Attr并不是DOM树的一部分参考资料 DOM Core常用: /blog/839141 Java API * *