- 32
- 0
- 约1.5万字
- 约 89页
- 2024-08-22 发布于江苏
- 举报
**使用大模型进行评估的过程比较简单,例如针对文本质量判断问题,要构造任务说明、待评估样本及对大模型的指令,将上述内容输入大模型,对给定的待评估样本质量进行评估。给定这些输入,大模型将通过生成一些输出句子来回答问题。通过解析输出句子以获取评分。不同的任务使用不同的任务说明集合,并且每个任务使用不同的问题来评估样本的质量。针对故事生成任务的文本质量又细分为4个属性。13.3.2评估方法(1)语法正确性:故事片段文本的语法正确程度。(2)连贯性:故事片段中句子之间的衔接连贯程度。(3)喜好度:故事片段令人愉悦的程度。(4)相关性;故事片段是否符合给定的要求。13.3.2评估方法为了与人工评估进行对比,研究人员将输入大模型的文本内容同样给到一些评估者进行人工评估。在开放式故事生成和对抗性攻击两个任务上的实验结果表明,大模型评估的结果与人工评估所得到的结果一致性较高。同时也发现,在使用不同的任务说明格式和生成答案采样算法的情况下,大模型的评估结果也是稳定的。13.3.2评估方法PART04大模型评估实践大模型的评估伴随着大模型研究同步飞速发展,大量针对不同任务、采用不同指标和方法的大模型评估不断涌现。13.4大模型评估实践大模型构建过程中产生的基础模型就是语言模型,其目标就是建模自然语言的概率分布。语言模型构建了长文本的建模能力,使得模型可
您可能关注的文档
- 大语言模型通识 第10章 基于大模型的智能体.ppt
- 大语言模型通识 第11章 大模型应用框架.ppt
- 大语言模型通识 第12章 技术伦理与限制.ppt
- 大语言模型通识 第14章 大模型的健康未来.ppt
- 人教版七年级上册语文精品教学课件 1春第一课时 .ppt
- 部编版一年级下册语文第五单元培优卷A卷(含答案).pdf
- 人教版九年级上册语文精品教学课件 综合性学习 乘着音乐的翅膀 .ppt
- 贵州省贵阳市第一名校2023-2024学年高二下学期物理6月月考试题(含答案).docx
- 部编版一年级下册语文第五单元培优卷B卷(含答案).docx
- 部编版一年级下册语文第五单元培优卷B卷(含答案).pdf
- 广西南宁市第二中学2025-2026学年八年级下学期开学收心自测英语试卷(含解析).docx
- 广西南宁市武鸣区武鸣高级中学等校2026年高考模拟信息卷数学试题(含解析).docx
- 广西壮族自治区崇左市江州区2025-2026学年八年级上学期期末语文试题(含解析).docx
- 广西壮族自治区防城港市防城区2025—2026学年八年级上学期期末地理试题(含解析).docx
- 部编版一年级下册语文第五单元培优卷A卷(含答案).docx
- 福建省厦门海沧实验中学2025-2026学年高二上学期期末地理试题(含解析).docx
- 甘肃省天水市甘谷县模范初级中学2025-2026学年九年级数学下学期第一次检测考试试题(含解析).docx
- 甘肃省武威市凉州区爱华育新学校2025-2026学年九年级上学期12月月考英语试题(解析版).docx
- 甘肃张掖市2025--2026学年下学期九年级数学阶段反馈试卷(含解析).docx
- 广东惠州博罗县2025-2026学年九年级上学期阶段诊断历史试卷(含解析).docx
原创力文档

文档评论(0)