数学公式识别提取.pptVIP

  • 81
  • 0
  • 约1.9千字
  • 约 13页
  • 2017-07-11 发布于天津
  • 举报
数学公式识别提取.ppt

数学公式识别提取 陈立辉 内容 爬虫结构流程 结构 快速识别 Maple转换 Java Dom解析介绍 1.爬虫结构流程 爬取网页模块 提取数学公式模块 转换模块 harvest格式写入文件模块 文件夹 Web 存放 1.爬虫结构流程 快速识别包含数学公式网页模块 提取数学公式模块 (presentation、混合型MathML) maple转换模块 harvest格式写入文件模块 文件夹 Web 存放 ① ② ③ 爬取网页模块 修改后 快速识别包含数学公式网页模块 过滤条件: 纯文字网页: 如:纯中文、英文等网页 不包含数学公式基本变量: 如:x,y,z,a,b,c,k(独立字母) α,β,γ,ε,η,θ(希腊字母) 不包含运算符: 如:=、、、+、-、*、/、×、÷ 获取网页源码 抽取网页MathML源码 不包含运算符 不包含数学公式基本变量 纯文字网页 否 否 否 是 是 是 提取数学公式模块 正则匹配: 实现Presentation、混合MathML、(Content、infix) * 获取网页源码 MathML正则匹配 抽取网页MathML源码 是否找到MathML 是 否 maple转换模块 混合及presentation源码: 为保持公式原型,对mn标记 包含的纯数字添加后缀@, 进行转换,转换后将后缀及 包含此文本的标记修改为原 型 调用mapl

文档评论(0)

1亿VIP精品文档

相关文档