- 1、本文档共69页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
;;;;基础语言模型不具备指令理解能力
SFT模型和RL模型可以完成多种任务、要能够服从人类指令;;;HELM:HolisticEvaluationofLanguageModels(斯坦福,2022)提出了语言模型的整体评估,以提高语言模型的透明度“场景、任务、指标”;应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。
评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性
(Calibrationanduncertainty)、稳健性(Robustness)、公
平性(Fairness)、偏见和刻板印象(Biasandstereotypes)、有毒性(Toxicity)以及效率(Efficiency)。这些指标用于评估语言模型在不同应用场景下的性能。;应用场景分类:将潜在的语言模型应用场景进行分类,包括任务和领域方面。任务可以涵盖问答、信息检索、摘要、情感分析、毒性检测、杂项文本分类等核心场景。领域则包括来源、用户和时间等因素。
评估指标分类:采用多指标方法对语言模型进行评估。评估指标包括精度(Accuracy)、校准和不确定性(Calibrationanduncertainty)、稳健性(Robustness)、公平性(Fairness)、偏见和刻板印象(Biasandstereotypes)、有毒性
(Toxicity)以及效率(Efficiency)。这些指标用
于评估语言模型在不同应用场景下的性能。;HELM得到了25个结论
Instruction-tuning:优势在于模型参数量小的情况下取得突出结果。
模型准确性与获取方式的关系:开源模型相对较差,随着时间推移差距可能变大或变小。
校准对模型准确性的影响:取决于场景和迁移方式,可能成正比或反比。
鲁棒性和公平性对准确性的影响:在一些扰动下的最坏情况准确度,可能需要权衡。
性能差距与人口统计层面的关系:不同人群可能存在性能差距。
生成性损伤的固定偏差和毒性:在核心场景中平均很低,但仍对社会有危害。
准确性与效率的关系:模型大小和准确度成正比,但训练和推理开销增大。
问题回答中的生成结果差异:在不同问题回答场景中观察到明显差异。
信息检索任务的???型表现:比较好但未达到SOTA水平。
摘要任务中模型生成超越官方参考摘要:需改进摘要基准和评估指标。
情感分析任务的模型表现:准确性和校准性表现好,但鲁棒性和公平性下降。
毒性检测中模型准确性和鲁棒性差异大:大多数模型不够准确。
杂项文本分类中模型表现差异:在不同子集/任务上存在显著差距。
语义理解中模型准确性和语言建模的差异:最优模型在某些任务上可能表现最差。
模型大小与获取世界知识能力的关系:模型大小对知识获取能力提升重要。
推理能力的提高对代码模型效果的影响:代码模型比文本模型表现好。
长序列的版权/证件材料记忆能力:逐字记忆和准确性成正比。
大模型在生成支持给定论点的逼真标题方面有效:但生成鼓励特定行动的文本效果有高有低。
准确性与偏见之间的关系:最准确模型存在与社会一致的偏见/歧视。
毒性生成与核心场景的关系:核心场景中毒性生成概率很低。
大模型的全面性表现:超过某些专业化模型。
提示对模型表现的影响:对提示格式和上下文示例敏感。
多选择迁移方法对模型表现的影响:迁移方式影响模型表现。
上游复杂度与下游准确度的关系:上游复杂度不能可靠预测下游准确度。
模型规模的趋势与准确性的关系:模型规模可预测准确性,但效率可能不够高效。;AGI-EVAL:AHuman-CentricBenchmarkforEvaluatingFoundationModels(微软2023.4)
专门用于评估基础模型在「以人为本」(human-centric)在标准化考试,如高考、公务员考试、法学院入学考试、数学竞赛和律师资格等考试中的表现;AGIEval数据集遵循两个设计原则
强调人脑级别的认知任务:
与现实世界场景的相关性:
AGIEVAL选择了多种标准化的高质量考试,强调人类水平的推理和现实世界的相关性
具体包括:
普通高校入学考试
法学院入学考试
律师资格考试
研究生管理入学考试(GMAT)
高中数学竞赛
国内公务员考试;评估了三个模型:GPT-4,ChatGPT和Text-Davinci-003
采用Zero-shot和Few-shot设置进行评估。在Zero-shot设置下,模型直接对问题进行评估;而在Few-shot设置下
文档评论(0)