数学公式识别提取的改进.pptVIP

  • 2
  • 0
  • 约小于1千字
  • 约 9页
  • 2017-09-16 发布于重庆
  • 举报
Wiki中数学公式识别提取 内容 提取Wiki网页 识别和提取Wiki网页中数学公式 实验结果及分析 1.提取Wiki网页 爬虫结构图 2.识别和提取Wiki网页中数学公式 采用页面提取特征提取公式 采用LaTex数学符号筛选公式 采用过滤规则过滤提取内容 编号 噪音类型 示例 1 图片后缀 .jpg、.png、.jpeg、.gif等 2 网址链接 http://、link =等 3 非LaTex数学符号ASCII码 Chhìm-cháu、纳戈尔诺-卡拉巴赫等 4 说明文字 Page move-protected等 5 其他 人名、词典未登录词等 采用过滤规则过滤提取内容 过滤规则 规则1:对于第1~2种噪音,它们都有明显的特征,图片均包含固定后缀,而链接包含固定字段,直接通过其包含特征达到过滤目的; 规则2:对于第3种噪音,由于LaTex数学公式中不包含ASCII码大于126的字符,因此可通过字符ASCII码值来判断是否为LaTex数学公式 规则3:对于第4种噪音,主要为英文、中文、其他语言的说明文字。其中的中文和其他语言的说明可通过规则2过滤掉,余下的英文说明文字,绝大多数包含空格或连字符(即“-”)出现。因此过滤英文说明文字,则需要对其进行简单分词,对分出的词匹配建立的单词库的单词。 (注:对第5种噪音而言,由于存在不确定性,无法采用确定的规则去过滤) 3.实验结果及分析 查全率/召回率 3.实验结果及分析 查准率/精度 从实验数据所知: MathCrawler在对Wiki中Latex数学公式的查全率方面,通过公式两次提取和一次过滤,比率略微下降,最终基本维持在92%以上,经过实验分析,被遗漏的公式基本为应变量(如 f(x))、坐标(如 (-x,x))、隐含乘(如 xy)等; 对Wiki中Latex数学公式的查准率方面,通过公式两次提取和一次过滤,比率明显上升,最终基本维持在97%以上,影响查准率的主要是人名(如 Annegret Kramp-Karrenbauer)、未登录词(如 E-maila)、编号或日期(如 N60-90)、隐式代码(如 网页中显示的\sin)等。

文档评论(0)

1亿VIP精品文档

相关文档