北大毕业论文基于PARADISE平台论文检索系统.docxVIP

  • 2
  • 0
  • 约3.01万字
  • 约 30页
  • 2019-09-27 发布于广东
  • 举报

北大毕业论文基于PARADISE平台论文检索系统.docx

本科生毕业论文 题目:基于PARAD I SE平台论文检索系统 Literature Search Design based on PARADISE 姓 名:李峰 学 号: 院 系:信息科学技术学院 专 业:计算机科学与技术系 指导教师:闫宏飞副教授 二O—三年十二月六口 摘要: 本文 基于天 网实验 室白勺 Platfomi for Applying, Researching And Developing Intelligent Search Engine (PARADISE)搜索引擎平台,通过以从 portal, acm. org抓取的计算机网络方向的2500多篇论文为数据,搭建成一个论 文搜索系统,最终目的是通过论文之间的引用关系,获得其他引用这篇论文的作 者对这篇论文的评价,形成一个小的评价段落,以及Impact-based Summaries, 从而使得我们能够从专业级的角度获得这篇论文的内容以及优劣。我们首先根据 portal, acm. org上而抓取了文章Z间的引用关系,然后通过一个算法获得了对 一篇文章评价的候选句子集,根据这些句子的重要程度进行排序,获得一个评价 短文。并月?构建了一个语言模型,通过这些候选句子集对原文的句子进行评分, 取得分最高的几个句子,获得原文基于影响的概括。 关键词 搜索引擎,论文评价,语言模型,KL-divergence算法,基于彩响的概括 Abstract In this paper, based on the PARADISE (Platf001 for Applying, Rcscarchi ng and Dcvclopi ng Int clligc nt Search Eng inc) and the data of 2500 paper in area of comp utcr net work, we cons true t a search engine of papers. Our goal is to get the commont and impact-based summaries of one paper based on the reference rclations between the papers. We firstly get cemdidatc sentence which commont on the previous paper and generate a citati on context. Then we const rue t a Lan guagc Model, t hrough the cit at ion context, we can score the sentcnee in the previous paper, and get the impact^bascd summaries. Key words Search Engine, Paper Commont, Language Model, KL-divcrgcncc Scoring, Impact^bascd Summaries TOC \o 1-5 \h \z \o Current Document 第1章引言 5 \o Current Document 1研究背景 5 \o Current Document 1.2工作内容 2 \o Current Document 1.2.1抓取所需要的论文数据 2 \o Current Document 1. 2. 2获得一篇论文的评价并较好的显示出來 2 \o Current Document 1. 2. 3获得一篇论文基于影响的总结段落 3 \o Current Document 1. 2. 4基于PARADISE平台搭建搜索平台 3 \o Current Document 1.3实验的意义 3 \o Current Document 第2章数据的收集 5 \o Current Document 2.1如何提取数据 5 \o Current Document 2数据抓取的过程 6 \o Current Document 3数据的存储及解析 7 \o Current Document 第3章 牛成评论集 10 \o Current Document 3.1获得评价的候选句子集 10 \o Current Document 2获得评论段落 11 \o Current Document 第4章 建立模型并牛成基于影响的概括 13 \o Current Document 1建模之前我们所有的数据 13 \o Current Document 4.

文档评论(0)

1亿VIP精品文档

相关文档