受限语境下文本语义相似度计算的研究及应用.pdfVIP

下载本文档

5
0
约6.55万字
约 48页
2018-06-07 发布于福建
举报

受限语境下文本语义相似度计算的研究及应用.pdf

受限语境下文本语义相似度计算的研究及应用

摘要考试制度是我国现行教育体制和各类评审选拔中的一个重要环节。文字类考试题分为客观和主观题。客观题的考后判分可以用计算机实现，主观题尚无法有效地通过计算机进行评判，有必要研究用计算机进行主观题判分的方法，以节省教师工作量。开发计算机自动评分系统的关键是找到衡量多个文本间语义相似程度的方法，本文研究了受限语境下中文文本语义相似度计算，提出一种文本语义形式化表示方法一语片表示法，主要内容如下方面。 (1)针对传统向量空间模型(VSM)语义表示法中采用关键词特征项的不足。在组块概念的基础上，对其进行扩展，提出语片的方法，语片结构为“关键词+附属词”。从理论的可行性和技术的必要性对语片的可用性进行了论证。将语片与关键词、组块等概念作比较，给出语片区别于它们的地方，并指出语片的特点和优势。用语片表示文本特征项，用于表示文本语义。建立文本语义的向量空间模型表示形式，用语片的绝对词频作特征项权值，采用向量夹角余弦法计算文本间的语义相似度。 (2)基于《操作系统》领域文本语料库，通过计算两个词之间的互信息量，筛选出符合阈值条件的词语，借助于二元语法规则，建立受限语境下两个词之间的相关度数据库，用于确定附属词。 (3)建立了包含40个

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

受限语境下文本语义相似度计算的研究及应用.pdfVIP