- 1、本文档共40页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
排序模块设计
影响数学公式网页排序的主要因素 公式频率(词频) 网页质量 相关度度量 子公式—公式复杂度 部分匹配、完全匹配(匹配方式) 等价公式—计算复杂度(语义上等价的公式) … … 研究方法与技术路线 研究方法步骤 1. 深入研究MathWebSearch,进一步理解其索引方法、各种数据结构(存储,查询,返回结果)。 2. 在MathWebSearch的基础上探索排序算法。 3. 编程模拟算法 ● 关键技术 javascript+php+html+xml+C++ 计划MathSearch实现的功能:为用户提供公式的基本信息和在网络中引用该公式的url,并将返回的结果按相关性排序。从功能角度出发,MathSearch的实现部分分为两个部分,即获取到该公式的基本信息和获取引用该公式的url。实现的基本流程为编译配置MathWebSearch,格式化地提价查询请求至MathWebSearch,从MathWebSearch捕获其返回的格式化结果并对该结果进行解析后排序输出。其中格式化是指使用MathML格式的XML,提交查询时通过MathEdit的API将输入串格式化为MathML Content格式,最后对返回的结果进行XML解析, XML 解析器把 XML 载入内存,然后把它转换为可通过 JavaScript 访问的XML DOM对象。最后将网页按数学公式相关度排序后通过HTML格式对解析后的数据显示地输出,提取其中需要的信息。 MathEdit实现了把数学公式按语义一致的转化为MathML Content格式,如下图所示: 转化为MathML Content格式后如下: 对MWS Answer Set类型的数据的解析通过文档对象模型DOM完成,由于解析的目的是获取搜索结果中包含公式的每个页面的URI(URL+ID),因此解析算法为: 该过程拟通过Javascript+PHP代码实现。 对于从Berkeley DB中取出数据后,如何生成MWS Answer Set,应在 mathwebsearch中的writeJsonAnswsetToFd函数中添加相应的程序,主要实现以下功能: (1)从索引模块建立的原始公式表、等价公式表、相关公式表、子公式表中获取到含有查询公式的原始公式、等价公式、代数相关公式及子公式的网页,将其url返回给一个数据结构为MWS Answer Set的变量。 (2)对以上返回的结果进行排序,然后send。 数学公式存储流程图 存储流程 1.网络爬虫在网页上爬取含有查询公式的网页; 2.将网页中的公式转化成MWS Harvests格式,并为爬取到的每个数学公式分配一个id号,将公式url和内容进行存储; 3.结合CAS和N-gram方法对公式进行规范化的预处理; 4.结合CAS对预处理结果进行常见计算,为相关公式建立连接; 5.对公式进行解析,得到标准形式后插入最左置换索引树中,为它们建立索引; 6.若某个公式的索引项没有被建立,则将它插入到索引树中,并将相关信息存入数据库中;若索引项已存在,说明它是该索引项的等价公式,则从数据库中找到这个索引项的id号,并把该id号添加到原始公式表中对应的等价公式后面; 7.为解析后的每个公式建立公式索引表、原始公式表、子公式表、相关公示表。 MWS Harvest 数据结构 为了实现索引公式到与之等价原始公式的映射,本系统需要为爬取到的每个数学公式分配一个id号,并将爬取公式的相关信息存入数据库中。MathWebSearch系统中只接受MWS Harvests格式的数学公式,因此我们需要对MWS Harvests 文件做改进,在它的mws:expr标签中添加一个“id”属性,用于表示每个url下各公式的编号,方便在查询阶段对等价公式的定位。其具体结构及内容如下图所示: 改进的MWS Harvest格式 给每个mws:expr标签中添加一个“id”属性,它对应原始公式的编号,方便在查询阶段对等价公式的定位。 XML解析及索引的建立 对MWS Harvests文件进行解析,并为它们建立索引。在解析过程中,若某个索引项没有被建立,则将它插入到索引树中,并将其相关信息存入数据库中。若索引项已经存在,说明它是该索引项的等价公式,则从数据库中找到这个索引项的id号,把该id号添加到原始公式表中对应的等价公式后面。另外,在构建索引树时,对同一索引项下的多个等价公式,在存入索引库时,将其转换成中缀形式,并按字母顺序进行排序。 查询流程 输入:查询公式 输出:按相关度排好序
您可能关注的文档
- 房地产预售制度的比较研究1.PDF
- 房地产建筑安装行业汇算清缴培训课件-山东地方税务局.PPT
- 所属学科-中国农业大学人文与发展学院.DOC
- 扩散工艺-icaredbd.PPT
- 批发价格与收益共享合约并存下的供应链信息泄露研究-运筹与管理.PDF
- 扰乱公共秩序.PPT
- 技术分析-猫否股票.PPT
- 技术设计方案-河南测绘地理信息局.PPT
- 报到须知-番禺中心医院.DOC
- 报告摘要1研究目标2研究方法-教育局.PDF
- 江西上饶中学2025届高考仿真模拟语文试卷含解析.doc
- 安徽六校教育研究会2025届高考语文考前最后一卷预测卷含解析.doc
- 辽宁省沈阳九中2025届高三第三次测评语文试卷含解析.doc
- 湖北省鄂东南省级示范高中教育教学改革联盟学校2025届高考冲刺模拟数学试题含解析.doc
- 宁夏银川市银川一中2025届高考仿真卷语文试卷含解析.doc
- 2025届吉林省蛟河市朝鲜族中学高考数学一模试卷含解析.doc
- 山东省烟台市重点中学2025届高三第一次调研测试语文试卷含解析.doc
- 甘肃省白银市靖远县第一中学2025届高考英语必刷试卷含解析.doc
- 广西柳州铁路第一中学2025届高考语文四模试卷含解析.doc
- 2025届四川省泸州高中高三第三次模拟考试英语试卷含解析.doc
最近下载
- 2025年湖北省武汉市高考数学模拟试卷(附答案解析).pdf VIP
- 河北省2025年12月普通高中学业水平合格性考试数学试题(含答案解析).pdf VIP
- 浙江省嘉兴市南湖区2023-2024学年四年级下学期语文期中试卷 解析版.docx VIP
- 《华为战略管理法》读书笔记PPT.pptx VIP
- 电网工程设备材料信息参考价(2024年第四季度).xlsx
- 2025商业广场哪吒沉浸式 (童魔闹海主题)主题展活动策划方案-47P.docx
- 义务教育版(2024)四年级信息技术 第6课 古往今来话编码 课件.pptx VIP
- 企业筹资问题研究--以小米公司为例.doc
- 式与方程复习课.doc VIP
- 《鸡兔同笼》教学设计优质课公开课一等奖 .pdf VIP
文档评论(0)