- 1、本文档共23页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
提示:当前对比已涵盖GPT3.5/4,百度文心一言,复旦Moss大模型,商汤Se
nseChat,讯飞星火大模型。以下对比方法论及问题均为申万宏源TMT团队整
理总结,展示成果均为同样问题各模型第一次输出结果,后续更多模型持续更
新。
综合当前各类大模型能力测评,首先归纳总结十大类问题作为大模型测试方法
论,依据此对各个模型统一测评
测评方法论
1:语法和拼写能力:测试模型在语法和拼写上的准确性
2:文本生成能力:检验模型生成有意义、连的文本的能力。
3:推理和数学逻辑能力
4:科学计算能力
5:代码能力
6:常识知识:检验模型的基本常识知识
7:多语言能力
8:对话能力及情感认知能力:评估模型与用户进行自然、流畅的对话交流和认
知用户情感能力。
9:适应用户需求:测试模型针对不同用户需求和场景的应对能力。
10:伦理及安全性测试
总结
综上,本次评测一方面吸取采纳经典问题,另一方面通过方法论研究及创新,
通过新颖独特的问题设置,更好展现各个模型能力及不足。
通过测评,我们综合看出GPT4在各项能力方面均十分优秀,仅有瑕疵暴露在没
有较好完成字数限制上。综合考虑认为讯飞,商汤训练大模型已经达到gpt3.5
同等水平,金山(仅minimax)部分项目表现突出,整体有待提高;moss通过
测评推测拥有出色架构,但模型训练量较小,回答过于简单问题;百度文心一
言仍有较大提升空间。
百度文心一言由于历史ai论文和积累深厚还没有decoder架构。后续若切换为d
ecoder,弹性很大。
语法和拼写能力:在第一项,chatgpt4和讯飞表现最优,MOSS,gpt3.5,sen
sechat可以部分理解并改正病句,文心一言与金山仍需努力
文本生成能力:gpt4已经涌现较强的文学能力,但在q2中没有符合字数要求。
此外各模型均根据关键词产生较为正确的关联想象以及立意升华,文字幽默性
方面讯飞较强
推理和数学逻辑能力:推理部分面对父母结婚的经典问题,gpt4考虑最充分,
其余模型除moss外水平大致相当,而面对经典的牛吃草问题(小学奥数),各
大模型全军覆没,没有正确解答,但错误中也可以体现出gpt4、moss和金山
较强的逻辑思维能力(详见下文)
考虑到传统鸡兔同笼问题经过很多演示,各个大模型可能均具备能力无法体现
差异化,因此通过一个无解设置考验能力。可见商汤,百度,moss、金山均为
解题思路正确但无法更进一步考虑实际情况。
科学计算能力:百度、商汤及金山计算错误,该问题其他模型均较好解答,其
中gpt4及讯飞给出详细思路,表现优异
代码能力:该环境下gpt4表现优异,除正确编写代码外可以更多考虑测试用例
和程序边界情况,金山也较为优秀,其他模型可以编写正确代码,但考虑环境
等问题,程序员尚不能直接应用。
常识知识能力:各大模型均较好完成测试且面对质疑可以坚定给出正确答案,
金山出现经典错误。
多语言能力:均支持世界主要语言及方言
对话能力:此环节暴露出moss作为训练量较小模型的不足,gpt4表现最为优
异。
适应用户需求:gpt4给出方案已经足够成熟,暴露moss作为训练量较小模型
不足,其他模型书评大致相当
伦理及安全测试:均符合标准。
具体测试如下
一:语法和拼写能力
q1:下列句子没有语病的是
A、在建设三峡大坝的过程中,无论工人们遇到什么样的困难,他们却能披荆
斩棘,一往无前。
B、在列车长粗暴的干涉下,使爱迪生在火车上边卖报边做实验的愿望破灭了
。
C、中国残疾人艺术团在香港演出大型音乐舞蹈《我的梦》,受到观众的热烈
欢迎。
D、为了防止非典疫情不再反弹,市领导要求各单位进一一步加强管理,制定
严密的防范措施。
正确答案为C项,我们来看各个模型的回答
GPT3.5:给出了正确的答案,但进一步追问错误原因的过程中可以发现3.5对
错误原因理解不够正确,如A项错误应为无论和却搭配不当
GPT4:相比3.5,GPT4在找到正确答案同时可以更好的理解错误
复旦MOSS:错误的选择了A项,但可以明确判断出C项使动用法的错误
答案选择了A项目
继续追问
百度文心一言:结果并不理想
商汤SenseChat:认为全部有问题后选择了A项,其中本应该正确答案C,改正
错误
讯飞:答案正确,改正较合理
金山minimax:答案和修改均不正确,效果不太理想
没有语病的句子是:D、为了防止病情不再反弹,市领导要求各单位进一步加
强管理,制定严密的防范措施。
我们来分析一下其他三项的语病:
A、在建设三峡大坝的过程中,无论工人们遇到什么样的困难,他们却能披荆
斩棘,一往无前。
这个句子有两
您可能关注的文档
- BloombergGPT:一个用于金融的大型语言模型.pdf
- ChatGPT 和语言模型 : 保卫业简介 ( 德文 )】.pdf
- 晨会聚焦:PanGu-∑:华为万亿参数语言大模型.pdf
- 大模型时代的可信自然语言处理(演讲PPT).pdf
- 大型语言模型综述(英).pdf
- 大语言模型提示注入攻击安全风险分析报告(2023.7).pdf
- 大语言模型应用程序十大风险V1.0.pdf
- 基于大型语言模型的智能体的兴起与发展.pdf
- 您需要了解的有关多语言 LLM 的一切 : 为世界语言建立公平 , 高效和可靠的模型.pdf
- 人工智能周报(24年第3周):微软推出独立AI工具“阅读教练”,商汤“书生・浦语”2.0大语言模型开源.pdf
文档评论(0)