2023年大语言模型评测报告.pptx

  1. 1、本文档共69页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

;;;;基础语言模型不具备指令理解能力

SFT模型和RL模型可以完成多种任务、要能够服从人类指令;;;HELM:HolisticEvaluationofLanguageModels(斯坦福,2022)提出了语言模型的整体评估,以提高语言模型的透明度“场景、任务、指标”;应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。

评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性

(Calibrationanduncertainty)、稳健性(Robustness)、公

平性(Fairness)、偏见和刻板印象(Biasandstereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。;应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。

评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibrationanduncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Biasandstereotypes)、有毒性

(Toxicity)以及效率(Efficiency)。这些指标用

于评估语言模型在不同应用场景下的性能。;HELM得到了25个结论

Instruction-tuning:优势在于模型参数量小的情况下取得突出结果。

模型准确性与获取方式的关系:开源模型相对较差,随着时间推移差距可能变大或变小。

校准对模型准确性的影响:取决于场景和迁移方式,可能成正比或反比。

鲁棒性和公平性对准确性的影响:在一些扰动下的最坏情况准确度,可能需要权衡。

性能差距与人口统计层面的关系:不同人群可能存在性能差距。

生成性损伤的固定偏差和毒性:在核心场景中平均很低,但仍对社会有危害。

准确性与效率的关系:模型大小和准确度成正比,但训练和推理开销增大。

问题回答中的生成结果差异:在不同问题回答场景中观察到明显差异。

信息检索任务的???型表现:比较好但未达到SOTA水平。

摘要任务中模型生成超越官方参考摘要:需改进摘要基准和评估指标。

情感分析任务的模型表现:准确性和校准性表现好,但鲁棒性和公平性下降。

毒性检测中模型准确性和鲁棒性差异大:大多数模型不够准确。

杂项文本分类中模型表现差异:在不同子集/任务上存在显著差距。

语义理解中模型准确性和语言建模的差异:最优模型在某些任务上可能表现最差。

模型大小与获取世界知识能力的关系:模型大小对知识获取能力提升重要。

推理能力的提高对代码模型效果的影响:代码模型比文本模型表现好。

长序列的版权/证件材料记忆能力:逐字记忆和准确性成正比。

大模型在生成支持给定论点的逼真标题方面有效:但生成鼓励特定行动的文本效果有高有低。

准确性与偏见之间的关系:最准确模型存在与社会一致的偏见/歧视。

毒性生成与核心场景的关系:核心场景中毒性生成概率很低。

大模型的全面性表现:超过某些专业化模型。

提示对模型表现的影响:对提示格式和上下文示例敏感。

多选择迁移方法对模型表现的影响:迁移方式影响模型表现。

上游复杂度与下游准确度的关系:上游复杂度不能可靠预测下游准确度。

模型规模的趋势与准确性的关系:模型规模可预测准确性,但效率可能不够高效。;AGI-EVAL:AHuman-CentricBenchmarkforEvaluatingFoundationModels(微软2023.4)

专门用于评估基础模型在「以人为本」(human-centric)在标准化考试,如高考、公务员考试、法学院入学考试、数学竞赛和律师资格等考试中的表现;AGIEval数据集遵循两个设计原则

强调人脑级别的认知任务:

与现实世界场景的相关性:

AGIEVAL选择了多种标准化的高质量考试,强调人类水平的推理和现实世界的相关性

具体包括:

普通高校入学考试

法学院入学考试

律师资格考试

研究生管理入学考试(GMAT)

高中数学竞赛

国内公务员考试;评估了三个模型:GPT-4,ChatGPT和Text-Davinci-003

采用Zero-shot和Few-shot设置进行评估。在Zero-shot设置下,模型直接对问题进行评估;而在Few-shot设置下

文档评论(0)

535600147 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档