- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
大学本科生毕业论文-基于PARADISE平台论文检索系统
本科生毕业论文
题目:基于PARADISE 平台论文检索系统
Literature Search Design based on
PARADISE
姓 名: 李峰
号:
系: 信息科学技术学院
专 业: 计算机科学与技术系
指导教师: 闫宏飞 副教授
二〇一五年四月二十日
摘要:
本文基于天网实验室的 Platform for Applying, Researching And Developing Intelligent Search Engine (PARADISE)搜索引擎平台,通过以从抓取的计算机网络方向的2 500多篇论文为数据,搭建成一个论文搜索系统,最终目的是通过论文之间的引 用关系,获得其他引用这篇论文的作者对这篇论文的评价,形成一个小的评价段 落,以及Impact-based Summaries,从而使得我们能够从专业级的角度获得这篇论文的内容以及优劣。 我们首先根据上面抓取了文章之间的引用关系,然后通过一个 算法获得了对一篇文章评价的候选句子集,根据这些句子的重要程度进行排序, 获得一个评价短文。并且构建了一个语言模型,通过这些候选句子集对原文的句 子进行评分,取得分最高的几个句子,获得原文基于影响的概括。
关键词
搜索引擎, 论文评价, 语言模型, KL-divergence算法, 基于影响的概括
Abstract
In this paper, based on the PARADISE (Platform for Applying, Researching and Developing Intelligent Search Engine) and the data of 2500 paper in area of computer network, we construct a search engine of papers. Our goal is to get the comment and impact-based summaries of one paper based on the reference relations between the papers. We firstly get candidate sentence which comment on the previous paper and generate a citation context. Then we construct a Language Model, through the citation context, we can score the sentence in the previous paper, and get the impact-based summaries.
Key words
Search Engine, Paper Comment, Language Model, KL-divergence Scoring, Impact-based Summaries
目录
第1章 引言 1
1.1研究背景 1
1.2工作内容 2
1.2.1抓取所需要的论文数据 2
1.2.2获得一篇论文的评价并较好的显示出来 2
1.2.3获得一篇论文基于影响的总结段落 3
1.2.4基于PARADISE平台搭建搜索平台 3
1.3实验的意义 3
第2章 数据的收集 5
2.1如何提取数据 5
2.2数据抓取的过程 6
2.3数据的存储及解析 7
第3章 生成评论集 10
3.1获得评价的候选句子集 10
3.2获得评论段落 11
第4章 建立模型并生成基于影响的概括 13
4.1建模之前我们所有的数据 13
4.2建模算法 13
4.3算法的实现 14
4.4获得基于影响的概括 15
第5章 搭建搜索引擎 16
5.1 paradise结构简介 16
5.2修改索引部分 17
5.3修改前台部分 18
5.4系统示意图 19
5.4.1主界面 19
5.4.2搜索结果界面 20
5.4.3评论界面 21
第6章 实验结果与分析 22
6.1实验结果 22
6.2具体分析 22
第7章 后续工作 26
第8章 致谢 27
第1章 引言
1.1研究背景
如今,全世界范围内学术活动日益积极,所产生的论文也在不断增多,因此, 如何搜索到自己所需要的论文,以及自动获取一些关于论文的信息,是客观需要 的。学术检索,绝不简简单单的检索出所要查找的论文,这样就和普通的通用搜 索引擎如google等一样了。学术检索,更侧重于深层次的内容挖掘。
例如,可以通过一篇论文所引用的文章以及所属领域,寻找出这个文章所在 领域的主要论文,这对了解一篇论文的背景知识以及理解一个领域的发展非常 重要。在[1]1(
您可能关注的文档
- 外种猪选育与场内测定.ppt
- 外高桥保税区宏达仓库工程12号楼静压桩施工组织设计.doc
- 外连光纤中断应急演练记录及评估报告.doc
- 多元智能讨论与分析论文.doc
- 多伦县盛大矿业有限公司萤石矿一采区复工申请.doc
- 多元统计分析我国主要城市的聚类分析课程设计.doc
- 多元统计实验论文.doc
- 多元统计分析论文我国31个省、市、自治区根据农林牧副渔业产值大小的聚类分析.doc
- 多元统计论文基于微量元素的主成分分析对茶叶的评价.doc
- 多元统计论文系统聚类与回归分析在储集岩物性参数的声波频谱响应特征研究中的应用.doc
- DB62∕T 5073-2024 公路常见特殊地基处治质量监控技术规范.pdf
- DB34∕T 4995.2-2025 高速公路分布式光伏系统建设 第2部分:设计规范.pdf
- DB37∕T 4818-2025 沥青路面泡沫沥青厂拌冷再生技术规范.pdf
- DB41∕T 2797-2024 双边箱钢-混组合梁桥工业化设计建造技术规程.pdf
- 环境社会学与社区参与考核试卷.docx
- 2025年度4月份混凝土排水管道基础及接口附录(ppt).docx
- 2025年度一月混凝土排水管道基础及接口附录(ppt).docx
- 25年2月份混凝土排水管道基础及接口附录(ppt).docx
- 2025年二月份混凝土排水管道基础及接口附录(ppt).docx
- 2025年二月数制与编码(ppt).pptx
最近下载
- 1.人教版小学三年级下册数学易错题题库(含答案解析).pdf VIP
- 新能源汽车项目可行性研究报告(参考模板范文).docx
- 《文化和旅游领域重大事故隐患判定标准》解读和案例警示教育.pptx
- 【中考地理】答题技巧与模板构建:专题04_河流水文、水系特征类(答题模板)(解析版).pdf VIP
- 《泉州海丝文化》PPT课件.pptx VIP
- 《国民经济行业分类和代码表》.doc VIP
- 落实中央八项规定精神、纠治“四风”工作调查问卷.docx VIP
- 工作绩效及薪酬激励方案执行情况及改进情况总结.pptx
- 公路日常养护费—公路日常养护费用.pptx
- 百度智能云水业大模型白皮书(2024).pdf VIP
文档评论(0)