基于差分优化语义相似度模型的智能组卷系统.docVIP

下载本文档

4
0
约3.08千字
约 3页
2016-07-03 发布于河北
举报
版权申诉

基于差分优化语义相似度模型的智能组卷系统.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于差分优化语义相似度模型的智能组卷系统

基于差分优化语义相似度模型的智能组卷系统　　摘要文章针对组卷系统中容易对同一语义内容但不同形式的题目多次出现在同一张试卷中的问题，提出了基于差分优化语义相似度模型的组卷系统。此系统引入语义相似度模型，在组卷的过程较好地避免了重复知识点的考查，增加了组卷的成功率；在语义相似度模型的基础上，对一些参数不再用手动的方式调整，采用差分算法对模型中的相关参数进行动态的调控，不仅可以避免手动调整参数的辛苦，又在全局范围中获得最优化的参数，从而保证了自动组卷系统的科学性、公正性、高效性，该系统对题目知识结构，数据延展进行全方位的跟踪管理，多种考试形式丰富组织方式。中国论文网 /8/view-7229063.htm 　　关键词自动组卷系统语义相似度模型余弦相似度差分优化　　中图分类号：TP391.3 文献标识码：A DOI：10.16400/ki.kjdks.2016.02.073 　　0 引言　　现阶段，有不断增加的考试类型和不断提高的考试要求，随即而来，也越来越增加了教师的工作量。为适应现代考试的需要，传统的考试方法应该慢慢地被淘汰了。目前有着迅速发展的计算机应用，网络应用不断扩大，如远程教育和虚拟大学的出现等等，且这些应用正逐步深入到千家万户。在线考试都会需要这些网络应用技术，期待减轻教师的工作负担以及提高工作效率，与此同时提高了考试的质量，从而使考试更趋于公正、客观，更加激发学生的学习兴趣。鉴于以上现状和结合当前市面上考试系统的特点与不足，一种新型的语义相似度模型的自动组卷系统应运而生。　　1 基于差分优化语义相似度模型的自动组卷系统　　针对现有自动组卷系统的不足，本论文提出基于差分优化语义相似度模型的自动组卷系统，以提高所组试卷的质量。例如避免在组卷过程中产生选择、填空、判断三者之间对同一知识点考查多次的问题；改进传统的组卷系统，借助语义相似度模型实现对填空，问答的审阅，使得组卷变得更科学、更智能，以减轻老师负担和提高系统工作效率。基于差分优化语义相似度模型的自动组卷系统具有以下特点：　　（1）引入语义相似度模型；（2）具有普适性，基于语义层面的相似度模型使得系统不再局限于少数几门学科；（3）提高组卷效率，借助语义相似度模型，在组卷的过程较好地避免了重复知识点的考查，增加了组卷的成功率；（4）题型更加全面，借助文本相似度的计算实现了对填空，问答等主观题的组卷；（5）组卷具有高效性，省去了人工组卷环节，系统的工作效率得到了质的飞跃；（6）采用差分算法对模型中的相关参数进行动态的调控，不仅可以避免手动调整参数的辛苦，又在全局范围中获得最优化的参数，从而保证了自动组卷系统的科学性、公正性、高效性。　　1.1 语义相似度模型的设计与实现　　文本语义相似度量方法大多将文比文本看作一组词的集合体，分析每个词在文本中出现的次数以及在整个文本集合中出现的次数，进而利用这些词频信息将文本建模为一个向量，并利用向量间的余弦相似度、Jaccard相似度等方法计算文本之间的相似度。基于语义的文本相似度量方法则通过同义词、冗余和蕴涵等语义关系来考查文本之间的相似度。　　鉴于已经存在的问题的一些不足，在本文中将采用一种能有效降低文本表示模型的维度，又能结合词项语义信息进行相似度量计算的方法。　　1.2 语义相似度模型具体算法　　对于语义相似度模型的算法，主要有两个关键操作：关键词的提取、关键词项向量间的相似度计算。　　1.2.1 关键词的提取　　（1）首先预处理文本中的人名、地名、无实意的常用字（在TF-IDF方法中有相关识别技术），将它们用per，loc，org等词代替，因为这类词具有较高的TF-IDF值，从而容易导致对文本关键词项的错误选择；然后，必须对文本中的词项进行词性分析，给出词项的语义属性，即该词项是名词、动词还是副词等。　　（2）关键词项的选择：文本预处理完成后，需要对整个文本集合中的词项进行TF-IDF值计算，并将词项的TF-IDF值进行排序，选取TF-IDF值大于P（P为百分比）的名词动词词项作为关键词项。　　（3）由于关键词项代表了一篇文本中最重要的信息，因此文本的相似度就可以由关键词项向量间的相似度来描述。因此，文本之间的相似度就转换为关键词项向量间的相似度。　　1.2.2 关键词项向量间的相似度计算　　借助HowNet中的思想，将词语理解为多个义原（语义的最小原子）的集合，两个义原集合相似度即词项相似度，先寻找最优匹配，集合中批次最相似的元素两两组合，然后加权值就是整体相似度。每个义原在定义概念中的作用大小不同，义原所携带的语义信息越丰富，权值越大。义原相似度的计算则使用刘群的公式：sSim（S1，S2）=a/（a+distance（S1，S2））计算。