数学公式识别提取的改进.pptVIP

下载本文档

2
0
约小于1千字
约 9页
2017-09-16 发布于重庆
举报

数学公式识别提取的改进.ppt

Wiki中数学公式识别提取内容提取Wiki网页识别和提取Wiki网页中数学公式实验结果及分析 1.提取Wiki网页爬虫结构图 2.识别和提取Wiki网页中数学公式采用页面提取特征提取公式采用LaTex数学符号筛选公式采用过滤规则过滤提取内容编号噪音类型示例 1 图片后缀 .jpg、.png、.jpeg、.gif等 2 网址链接 http://、link =等 3 非LaTex数学符号ASCII码 Chhìm-cháu、纳戈尔诺-卡拉巴赫等 4 说明文字 Page move-protected等 5 其他人名、词典未登录词等采用过滤规则过滤提取内容过滤规则规则1：对于第1~2种噪音，它们都有明显的特征，图片均包含固定后缀，而链接包含固定字段，直接通过其包含特征达到过滤目的；规则2：对于第3种噪音，由于LaTex数学公式中不包含ASCII码大于126的字符，因此可通过字符ASCII码值来判断是否为LaTex数学公式规则3：对于第4种噪音，主要为英文、中文、其他语言的说明文字。其中的中文和其他语言的说明可通过规则2过滤掉，余下的英文说明文字，绝大多数包含空格或连字符（即“-”）出现。因此过滤英文说明文字，则需要对其进行简单分词，对分出的词匹配建立的单词库的单词。（注：对第5种噪音而言，由于存在不确定性，无法采用确定的规则去过滤） 3.实验结果及分析查全率/召回率 3.实验结果及分析查准率/精度从实验数据所知： MathCrawler在对Wiki中Latex数学公式的查全率方面，通过公式两次提取和一次过滤，比率略微下降，最终基本维持在92%以上，经过实验分析，被遗漏的公式基本为应变量（如 f(x)）、坐标（如 (-x,x)）、隐含乘（如 xy）等；对Wiki中Latex数学公式的查准率方面，通过公式两次提取和一次过滤，比率明显上升，最终基本维持在97%以上，影响查准率的主要是人名（如 Annegret Kramp-Karrenbauer）、未登录词（如 E-maila）、编号或日期（如 N60-90）、隐式代码（如网页中显示的\sin）等。

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

数学公式识别提取的改进.pptVIP