大语言模型通识 第13章 大模型的评估.pptVIP

  • 32
  • 0
  • 约1.5万字
  • 约 89页
  • 2024-08-22 发布于江苏
  • 举报

大语言模型通识 第13章 大模型的评估.ppt

**使用大模型进行评估的过程比较简单,例如针对文本质量判断问题,要构造任务说明、待评估样本及对大模型的指令,将上述内容输入大模型,对给定的待评估样本质量进行评估。给定这些输入,大模型将通过生成一些输出句子来回答问题。通过解析输出句子以获取评分。不同的任务使用不同的任务说明集合,并且每个任务使用不同的问题来评估样本的质量。针对故事生成任务的文本质量又细分为4个属性。13.3.2评估方法(1)语法正确性:故事片段文本的语法正确程度。(2)连贯性:故事片段中句子之间的衔接连贯程度。(3)喜好度:故事片段令人愉悦的程度。(4)相关性;故事片段是否符合给定的要求。13.3.2评估方法为了与人工评估进行对比,研究人员将输入大模型的文本内容同样给到一些评估者进行人工评估。在开放式故事生成和对抗性攻击两个任务上的实验结果表明,大模型评估的结果与人工评估所得到的结果一致性较高。同时也发现,在使用不同的任务说明格式和生成答案采样算法的情况下,大模型的评估结果也是稳定的。13.3.2评估方法PART04大模型评估实践大模型的评估伴随着大模型研究同步飞速发展,大量针对不同任务、采用不同指标和方法的大模型评估不断涌现。13.4大模型评估实践大模型构建过程中产生的基础模型就是语言模型,其目标就是建模自然语言的概率分布。语言模型构建了长文本的建模能力,使得模型可

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档