- 1、本文档共10页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
毕业设计双选系统的设计与实现-北京石油化工学院.doc
毕业设计双选系统的设计与实现
计算机科学与技术 隋旭宗
指导教师 沙芸 副教授
摘 要 随着互联网的不断发展,各类信息管理系统已成为数字化校园建设的一部分。毕业设计双选是教学的重要环节,也是毕业设计质量提高的基本保证。目前,毕业设计双选的大部分工作仍需要人工完成。本文通过对当前选题流程及特点分析,设计并实现一个毕业设计双选系统,以完善教学体系,促进数字化校园的建设。
本系统的目的是:简化毕业设计选题申报流程,借助B/S方式,使师生能够不受时间、地域的限制,完成毕业设计双选,并由指导教师向学生提供任务书。本系统的特点是:实现了题目及题目申报表的相似度计算。此功能借助Lucene完成分词操作,经过词频统计后,生成文档向量。系统实现了余弦相似度、Dice和Jaccard三种相似度计算方法。通过对不同算法的相似度比对结果进行评估,确定了相似度的阈值,并对这些结果进行讨论。
本系统为B/S结构,使用ASP.NET技术开发,拥有良好的用户体验。相似度比对能够快速有效地给出参考结果,减少了教师出题过程中因检索题目相似度而消耗的时间。
关键词 毕业设计双选,文档向量,词频统计,文本相似度计算
1 绪论
1.1 研究背景和研究意义
毕业设计是高校教学任务的重要实践环节,是评估学生学位资格的依据之一。目前大多数院校仍沿用传统的选题方式,存在很大弊端。大部分学生不能从题目中了解到更多有效信息,很难评估题目的工作量和难易度。学生盲目选题,开题阶段不能顺利进行,教师需要修改甚至变更题目,给教师和学生增添了许多工作量。
随着毕业生人数逐年增加,毕业设计的题目数量也在增长[1],人工分配学生可能产生错误。此外,教师通过人工筛查的方式不易得知题目是否重复,产生许多雷同或是相同的任务内容在所难免。规范毕业设计的管理流程,提高选题效率,不仅有助于改善毕业设计质量,还可以节约人力、物力成本。设计并实现一个B/S结构的毕业设计选题系统[2],可以减轻教师的工作量,推动毕业设计工作进行。
数字化校园[3]最早是由麻省理工学院于上世纪70年代提出的。目前,西方发达国家的许多高校已经完成了数字化校园的建设工作。在毕业设计选题方面,英国的诺丁汉大学已经拥有了自己的毕业设计双向选择信息服务系统[4],欧美国家的一般大学均实现了在线选题,同时可以进行在线评审、讨论[5]等。
1.2 需要解决的问题
针对学校当前的选题流程,设计并实现一个具有以下功能的毕业设计双选系统:
(1)教师出题,包括题目上传、查重及申报书相似度比对,给出相似度比对结果;
(2)学生选题,按需求查看题目(申报书)信息及下载任务书;
(3)师生双选,并由教师上传任务书及任务书相似度比对,给出相似度比对结果。针对毕业设计的题目和申报书中的内容,比对题目历史信息及申报书相似度;
(4)综合比较各种文本相似度的计算方法,选择区分度更好的,应用在申报书的相似度比对中,对题目、内容进行查重。
要完成以上功能,需要解决以下三个关键问题:
(1)段落主题是文本相似度比对的基本前提,设计并实现一种提取段落主题的方法;
(2)申报书之间的相似度主要通过段落相似度来计算,设计并实现一种主题段落相似度比对的计算方法;
(3)对系统结构和相似度算法的优化。
2 毕业设计双选系统总体设计
2.1 总体结构
毕业设计双选系统的主要用户有:教师、学生、系统管理员。针对各个用户的特点,将系统功能进行划分,如图2.1所示:
2.2 E-R图
本系统涉及的实体、属性以及相互之间的关系如图2.2所示:
2.3 动态模型
系统正常使用时,按照其涉及的主要事件及发生的先后顺序,脚本如下:
□教师登录后,将申报书信息在页面上填写完毕。
□题目申报成功后,形成申报书,并交由教师审核。
□教师审核通过,此题目有效,学生可以看到此题目。
□学生登录后,向系统提交查询请求,如:按难易度降序排序。系统将查询结果显示给学生。
□学生提交选题申请,教师可以看到学生申请。
□教师通过学生信息,选择学生,如:张三。
□教师上传任务书,系统显示上传结果。
□学生提交下载任务书请求。
□系统与学生建立连接,将任务书发送至学生。
根据以上脚本,绘制事件追踪图如图2.3所示:
3 文本相似度计算
查重作为毕业设计双选系统的重要功能之一,需要系统能够有效识别重复信息,给出两篇源文档的相似度比对结果。以词频为特征项,建立向量空间模型[6],计算特征向量[7]的相似度,是解决此类问题的一种常用手段。
3.1 基于词频的相似度比较
本节以词频作为特征项T,对一些相似度计算的方法进行比较分析。流程如图3.1所示,其中文档分析器使用的是Lucene。
3.2 欧氏距离
欧氏距离通常指的是,两个点在n维空间中的真实距离。在二维和三维空间中,欧氏距离
文档评论(0)