- 1、本文档共48页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
pdf文档中数公式检测方法研究
Classified Index: TP391 CODE: 10075
U.D.C: NO:
A Dissertation for the Degree of M. Engineering
Research on Method of Mathematical
Formula Detection in PDF Documents
Candidate: Jiao Na
Supervisor: Prof. Tian Xuedong
Academic Degree Applied for: Master of Engineering
Specialty: Computer Applied Technology
University: Hebei University
Date of Oral Examination: June, 2013
II
摘 要
摘 要
随着信息技术的快速发展,电子文档成为人们获取和保存信息的核心途径。在诸多
格式的电子文档中,PDF 格式文档凭借其自身优点得到最为广泛的应用。而如何快速从
海量 PDF 文档中检测出含数学公式的文档,对于以数学公式为主要成分的科技文档的
检索具有重要意义。
本文总结了 PDF 文档的应用特点及技术特点,对 PDF 文档进行了解析,给出了其
内容的提取步骤,之后分析了 PDF 文档中数学公式的特点,从其字体特征、运算符特
征、语法特征等三方面入手,设计了一种数学公式检测方法。该方法通过判断有无数学
字体、所含数学运算符是否在映射表中以及数学运算符是否符合数学公式语法规则来对
PDF 文档进行检测。通过对随机抽取的 PDF 文档进行实验,结果表明,该方法能够有
效地进行 PDF 文档中数学公式的检测,为 PDF 公式检索打下了基础。
关键词 PDF 文档 数学公式检测 字体特征 数学运算符特征 语法特征
I
Abstract
Abstract
With the rapid development of information technology, the electronic document becomes
the core channel for people to obtain and save information. In many kinds of the electronic
document format, the PDF document format with its own advantages used widely. While how
to detect the document containing mathematical formulas quickly from the massive PDF
documents has the important meaning for the retrieval of scientific documents which take the
mathematical formulas as the major components.
This dissertation concludes the application characteristics and technical characteristics of
the PDF document, pa
文档评论(0)