网站大量收购独家精品文档,联系QQ:2885784924

排序模块设计.PPT

  1. 1、本文档共40页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
排序模块设计

影响数学公式网页排序的主要因素 公式频率(词频) 网页质量 相关度度量 子公式—公式复杂度 部分匹配、完全匹配(匹配方式) 等价公式—计算复杂度(语义上等价的公式) … … 研究方法与技术路线 研究方法步骤 1. 深入研究MathWebSearch,进一步理解其索引方法、各种数据结构(存储,查询,返回结果)。 2. 在MathWebSearch的基础上探索排序算法。 3. 编程模拟算法 ● 关键技术 javascript+php+html+xml+C++ 计划MathSearch实现的功能:为用户提供公式的基本信息和在网络中引用该公式的url,并将返回的结果按相关性排序。从功能角度出发,MathSearch的实现部分分为两个部分,即获取到该公式的基本信息和获取引用该公式的url。实现的基本流程为编译配置MathWebSearch,格式化地提价查询请求至MathWebSearch,从MathWebSearch捕获其返回的格式化结果并对该结果进行解析后排序输出。其中格式化是指使用MathML格式的XML,提交查询时通过MathEdit的API将输入串格式化为MathML Content格式,最后对返回的结果进行XML解析, XML 解析器把 XML 载入内存,然后把它转换为可通过 JavaScript 访问的XML DOM对象。最后将网页按数学公式相关度排序后通过HTML格式对解析后的数据显示地输出,提取其中需要的信息。 MathEdit实现了把数学公式按语义一致的转化为MathML Content格式,如下图所示: 转化为MathML Content格式后如下: 对MWS Answer Set类型的数据的解析通过文档对象模型DOM完成,由于解析的目的是获取搜索结果中包含公式的每个页面的URI(URL+ID),因此解析算法为: 该过程拟通过Javascript+PHP代码实现。 对于从Berkeley DB中取出数据后,如何生成MWS Answer Set,应在 mathwebsearch中的writeJsonAnswsetToFd函数中添加相应的程序,主要实现以下功能: (1)从索引模块建立的原始公式表、等价公式表、相关公式表、子公式表中获取到含有查询公式的原始公式、等价公式、代数相关公式及子公式的网页,将其url返回给一个数据结构为MWS Answer Set的变量。 (2)对以上返回的结果进行排序,然后send。 数学公式存储流程图 存储流程 1.网络爬虫在网页上爬取含有查询公式的网页; 2.将网页中的公式转化成MWS Harvests格式,并为爬取到的每个数学公式分配一个id号,将公式url和内容进行存储; 3.结合CAS和N-gram方法对公式进行规范化的预处理; 4.结合CAS对预处理结果进行常见计算,为相关公式建立连接; 5.对公式进行解析,得到标准形式后插入最左置换索引树中,为它们建立索引; 6.若某个公式的索引项没有被建立,则将它插入到索引树中,并将相关信息存入数据库中;若索引项已存在,说明它是该索引项的等价公式,则从数据库中找到这个索引项的id号,并把该id号添加到原始公式表中对应的等价公式后面; 7.为解析后的每个公式建立公式索引表、原始公式表、子公式表、相关公示表。 MWS Harvest 数据结构 为了实现索引公式到与之等价原始公式的映射,本系统需要为爬取到的每个数学公式分配一个id号,并将爬取公式的相关信息存入数据库中。MathWebSearch系统中只接受MWS Harvests格式的数学公式,因此我们需要对MWS Harvests 文件做改进,在它的mws:expr标签中添加一个“id”属性,用于表示每个url下各公式的编号,方便在查询阶段对等价公式的定位。其具体结构及内容如下图所示: 改进的MWS Harvest格式 给每个mws:expr标签中添加一个“id”属性,它对应原始公式的编号,方便在查询阶段对等价公式的定位。 XML解析及索引的建立 对MWS Harvests文件进行解析,并为它们建立索引。在解析过程中,若某个索引项没有被建立,则将它插入到索引树中,并将其相关信息存入数据库中。若索引项已经存在,说明它是该索引项的等价公式,则从数据库中找到这个索引项的id号,把该id号添加到原始公式表中对应的等价公式后面。另外,在构建索引树时,对同一索引项下的多个等价公式,在存入索引库时,将其转换成中缀形式,并按字母顺序进行排序。 查询流程 输入:查询公式 输出:按相关度排好序

文档评论(0)

fengruiling + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档