- 81
- 0
- 约1.9千字
- 约 13页
- 2017-07-11 发布于天津
- 举报
数学公式识别提取.ppt
数学公式识别提取 陈立辉 内容 爬虫结构流程 结构 快速识别 Maple转换 Java Dom解析介绍 1.爬虫结构流程 爬取网页模块 提取数学公式模块 转换模块 harvest格式写入文件模块 文件夹 Web 存放 1.爬虫结构流程 快速识别包含数学公式网页模块 提取数学公式模块 (presentation、混合型MathML) maple转换模块 harvest格式写入文件模块 文件夹 Web 存放 ① ② ③ 爬取网页模块 修改后 快速识别包含数学公式网页模块 过滤条件: 纯文字网页: 如:纯中文、英文等网页 不包含数学公式基本变量: 如:x,y,z,a,b,c,k(独立字母) α,β,γ,ε,η,θ(希腊字母) 不包含运算符: 如:=、、、+、-、*、/、×、÷ 获取网页源码 抽取网页MathML源码 不包含运算符 不包含数学公式基本变量 纯文字网页 否 否 否 是 是 是 提取数学公式模块 正则匹配: 实现Presentation、混合MathML、(Content、infix) * 获取网页源码 MathML正则匹配 抽取网页MathML源码 是否找到MathML 是 否 maple转换模块 混合及presentation源码: 为保持公式原型,对mn标记 包含的纯数字添加后缀@, 进行转换,转换后将后缀及 包含此文本的标记修改为原 型 调用mapl
您可能关注的文档
最近下载
- 机车轮对湿法磁粉探伤作业指导书.pdf VIP
- Unit 1 Teenage Life Reading and Thinking 说课稿-2024-2025学年高一英语人教版(2019)必修第一册.docx VIP
- 镗床的培训课件.ppt VIP
- 2025年12月英语四级真题(全三套)及答案解析.pdf VIP
- 黄绿蜜环菌化学成分剖析及染料木素药效的前沿探索.docx VIP
- 建筑材料燃烧热值检验原始记录表格.docx VIP
- 钢筋笼工厂化施工工法.ppt VIP
- 广东省高考:2025年-2023年《物理》考试真题与参考答案 .pdf
- 24J331 地沟及盖板资料.pdf VIP
- 新21XJ004 住宅排气道系统.docx VIP
原创力文档

文档评论(0)