LaTeX数学表达式解析和索引方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
LaTeX数学表达式解析和索引方法

LaTeX数学表达式解析和索引方法   摘要:针对数学表达式复杂二维结构特性所导致的普通文本检索技术难以对其进行检索的问题,提出了一种面向数学检索的LaTeX数学表达式解析与索引方法。在充分考虑公式特点的基础上,通过对LaTeX构成特点的分析和归纳,设计了LaTeX数学表达式的解析和检索特征提取算法;以此为基础,构建了一种适应数学表达式特性的双层索引结构,利用所提取数学表达式各层次运算数和运算符信息,分别以Treap数据结构和倒排索引结构构成数学表达式索引,为实现进一步的数学表达式检索匹配打下基础。在浏览器/服务器模式下采用6234条数学教材中的公式作为数据集进行实验,在解析获得的124960个基线层数最高为11层的表达式节点上,建立索引平均耗时为33.8317s。实验结果表明所提出的LaTeX表达式解析算法和索引结构能够适应数学表达式的特点,有助于实现具有较高效率和准确性的数学表达式检索。   关键词:数学表达式;LaTeX;公式解析;公式索引;公式基线层次;Treap   中图分类号: TP391 文献标志码:A   0引言   数学表达式检索作为信息检索的重要组成部分,是科技信息处理与应用的主要手段。数学表达式不同于一维分布的普通文本,其表现形式属于二维复杂模式,较为成熟的普通文本检索技术还难以对其进行恰当处理。因此,数学表达式检索技术的研究与开发迫在眉睫。目前,数学检索技术尚处于研究阶段,国内外针对数学信息检索进行了相关的研究,并构建了具备数学检索功能的原型系统,对数学表达式检索研究具有很好的参考价值。MathDex[1]是最早能够进行数学内容识别的全文搜索引擎,它为每个表达式建立索引的同时,还对其子表达式及其出现频率加以标记;在查询过程中,采用了Ngrams匹配方法,将待查询表达式拆解为多个子表达式进行并行查询。LeActiveMath[2]系统针对OMDoc编码且具有语义信息的数学文件进行处理。依据OMDoc格式,可以将数学内容分为不同的内容项,如定理项、定义项等。由于数学信息检索往往需要输入一些具有深度层级的表达式,OMDoc的公式可以转换为包含信息深度的文本化标记含在索引中,可以使得对数学信息的检索更加方便。MathSearch[3]基于Lucene全文搜索引擎,通过对其扩展得到数学搜索功能,它构建以Content MathML标记为内容的解析树结构,并通过一系列标准化过程得到规则的解析树结构。该系统以Ngrams划分为基础,构建基于语义的索引结构。另外,为提高系统检索效率,MathSearch采用了一种基于MathML符合XML规范的数学查询语言(Math Query Language, MQL)[4],以支持包括结构查询、语义查询、组合查询、抽象查询的数学查询。同时,由于Content MathML和Presentation MathML同属于MathML,MathSearch融入了针对Presentation型数学公式到Content型转换关键问题的研究成果[5],消除了转换过程中的歧义问题。林晓燕Lin等[6]设计了一种数学表达式检索方法。在表达式预处理阶段,构建了基于语义的操作符树结构,并进行了规范化处理,从而提高具有相同语义的等价表达式的检索查全、查准率。文献[7]设计并实现了一种应用于维基百科(Wikipedia)中数学表达式的检索工具――WikiMirs。该系统设计了分词器,将结构特性清晰的表达式构建成为一种层次明显的树型结构,实现公式归一化。   上述工作从不同的侧面为实现数学表达式检索进行了有益的尝试。由于数学表达式是利用二维复杂模式显性或隐性表达运算意义,这就给相应的检索技术带来了诸多困难,在用户检索需求的表达、数学信息的组织与索引、数学公式的匹配、匹配结果的呈现等方面,还存在许多有待解决的问题。本文针对LaTeX格式的数学表达式,设计了一种解析与索引模型,从数学表达式二维特性出发,以引起数学表达式层次结构变化的二维运算符为关注点,构建数学表达式的层次索引结构,为实现数学检索打下基础。   4结语   本文在对LaTeX数学表达式分词解析的基础上,重构数学表达式基线层次结构,并以Treap数据结构和倒排索引模型为依托,针对数学表达式资源进行索引构建。通过实验,验证了解析方法和索引方法的有效性。但是也存在一些不足,该表达式解析方法和索引方法,应进一步由更为广泛的数学内容加以验证,同时,与侧重不同方面的数学表达式匹配模式相配合,使算法具有更高的鲁棒性。下一步的工作是要设计与索引方法相适应的、具有较丰富实用的检索匹配模型,实现具有较高效率和准确性的数学表达式检索系统。   参考文献:   [1]   MINER R, MUNAVALLI R. An approach to

文档评论(0)

bokegood + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档