- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
C语言组卷系统中重复题问题的研究
C语言组卷系统中重复题问题的研究
摘要:在一套试卷中,重复题问题是影响考试质量的一个重要因素。该文针??C语言试卷中选择题间易出现重复题问题进行深入研究.通过对代码相似性检测以及文本相似性检测综合研究应用,希望能找到较好地处理C语言试卷中选择题的重复题问题的方法,进一步提高C语言组卷模块的组卷质量,减轻教师的工作量。
关键词:重复题;代码相似性检测;文本相似性检测
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2018)01-0214-03
Abstract:In a set of test papers, repetition problem is an important factor affecting the quality of the examination. Aiming at the problem easily appears between the in-depth study of repeated questions C language test. Based on the code similarity detection and text similarity detection method of comprehensive research, hope to repeat questions can find better choice C language in the test, to further improve the quality of the C language test paper module, reduce the teacher the workload.
Key words: Repetition problem;Code similarity detection;Text similarity detection
随着计算机技术的高速发展,越来越多的教学环节向电子化和网络化转变,目前很多高校开始创建自己的C语言试题库平台,大部分的C语言试题库都可以进行试卷的自动生成,这不仅省去了教师编题时苦恼于自身偏向的烦恼,更能体现考试的公平性与公正性,同时减轻了教师的工作压力与负担。计算机自动组卷保证了试卷的客观性、科学性和公平性,使得试题和试卷的管理变得高效便捷,对提高教师工作效率,实现课程管理现代化具有十分重要的意义。但是在C语言自动组卷过程中,有可能会发生重复题问题,导致组卷质量下降,进而影响考试质量。
由于在C语言试卷中选择题形式有其特殊性,主要表现于在一道选择题中文本和代码同时存在,情况相对复杂,因此本文针对C语言试卷中的选择题进行研究。对重复题的检测,本文应用相似性检测原理,并针对选择题的特殊性,采用合理方案,而不能仅仅使用文本相似度检测或者代码相似度检测来对C语言试卷中的选择题进行相似性比对,需要综合应用两种算法进行比对。
1 相关技术分析
本文研究如何解决C语言试卷中选择题易出现的重复题问题,故本文研究的重点是如何寻找选择题中出现的重复题,由于选择题形式的特殊性,本文将引入空间向量模型的概念,综合使用文本相似度比对方法以及代码相似度比对方法来进行C语言选择题中是否出现重复的检测。
1.1 空间向量模型概念
空间向量模型的思想是:每篇文本中都包含一些用特征项表达的揭示其内容的独立属性,而每个属性都可以看成是向量空间的一个维数,那么文本就可以表示为这些属性的集合,从而忽略了文本的结构中段落,句子及词语之间的复杂关系。这样,文本就可以用空间的一个向量来表示,文本之间的相似度可以用向量间的距离来衡量。
本文中把C语言试卷选择题中的文本部分和代码部分的内容当做是一篇文本,那么我们就可以将向量空间模型的概念引入到本文研究的选择题中。两道选择题之间的相似度就可以用向量间的距离来衡量,向量之间的距离通常采用余弦系数法进行判定,即用两个向量之间的夹角余弦来表示两道选择题之间的相似度。夹角越小,说明两道选择题的相似度越大。
通过上述的向量空间模型,文本数据就转换成了计算机可以处理的结构化数据,两个文档之间的相似性问题转变成了两个向量之间的相似性问题。
1.2 分词方法
对于选择题中出现的文本,需要通过分词方法选取出其中的文本关键词,目前常用的分词方法主要有以下两种:
1.2.1 基于统计的分词方法
基于统计的分词方法就是把字与字相邻共现的频率作为成词的可信度评价标准。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词,否则,认为它们不能
原创力文档


文档评论(0)