申万:TMT-首发讯飞金山商汤等七大语言模型:十方面能力综合评测-20230420.pdf

申万:TMT-首发讯飞金山商汤等七大语言模型:十方面能力综合评测-20230420.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

提示:当前对比已涵盖GPT3.5/4,百度文心一言,复旦Moss大模型,商汤Se

nseChat,讯飞星火大模型。以下对比方法论及问题均为申万宏源TMT团队整

理总结,展示成果均为同样问题各模型第一次输出结果,后续更多模型持续更

新。

综合当前各类大模型能力测评,首先归纳总结十大类问题作为大模型测试方法

论,依据此对各个模型统一测评

测评方法论

1:语法和拼写能力:测试模型在语法和拼写上的准确性

2:文本生成能力:检验模型生成有意义、连的文本的能力。

3:推理和数学逻辑能力

4:科学计算能力

5:代码能力

6:常识知识:检验模型的基本常识知识

7:多语言能力

8:对话能力及情感认知能力:评估模型与用户进行自然、流畅的对话交流和认

知用户情感能力。

9:适应用户需求:测试模型针对不同用户需求和场景的应对能力。

10:伦理及安全性测试

总结

综上,本次评测一方面吸取采纳经典问题,另一方面通过方法论研究及创新,

通过新颖独特的问题设置,更好展现各个模型能力及不足。

通过测评,我们综合看出GPT4在各项能力方面均十分优秀,仅有瑕疵暴露在没

有较好完成字数限制上。综合考虑认为讯飞,商汤训练大模型已经达到gpt3.5

同等水平,金山(仅minimax)部分项目表现突出,整体有待提高;moss通过

测评推测拥有出色架构,但模型训练量较小,回答过于简单问题;百度文心一

言仍有较大提升空间。

百度文心一言由于历史ai论文和积累深厚还没有decoder架构。后续若切换为d

ecoder,弹性很大。

语法和拼写能力:在第一项,chatgpt4和讯飞表现最优,MOSS,gpt3.5,sen

sechat可以部分理解并改正病句,文心一言与金山仍需努力

文本生成能力:gpt4已经涌现较强的文学能力,但在q2中没有符合字数要求。

此外各模型均根据关键词产生较为正确的关联想象以及立意升华,文字幽默性

方面讯飞较强

推理和数学逻辑能力:推理部分面对父母结婚的经典问题,gpt4考虑最充分,

其余模型除moss外水平大致相当,而面对经典的牛吃草问题(小学奥数),各

大模型全军覆没,没有正确解答,但错误中也可以体现出gpt4、moss和金山

较强的逻辑思维能力(详见下文)

考虑到传统鸡兔同笼问题经过很多演示,各个大模型可能均具备能力无法体现

差异化,因此通过一个无解设置考验能力。可见商汤,百度,moss、金山均为

解题思路正确但无法更进一步考虑实际情况。

科学计算能力:百度、商汤及金山计算错误,该问题其他模型均较好解答,其

中gpt4及讯飞给出详细思路,表现优异

代码能力:该环境下gpt4表现优异,除正确编写代码外可以更多考虑测试用例

和程序边界情况,金山也较为优秀,其他模型可以编写正确代码,但考虑环境

等问题,程序员尚不能直接应用。

常识知识能力:各大模型均较好完成测试且面对质疑可以坚定给出正确答案,

金山出现经典错误。

多语言能力:均支持世界主要语言及方言

对话能力:此环节暴露出moss作为训练量较小模型的不足,gpt4表现最为优

异。

适应用户需求:gpt4给出方案已经足够成熟,暴露moss作为训练量较小模型

不足,其他模型书评大致相当

伦理及安全测试:均符合标准。

具体测试如下

一:语法和拼写能力

q1:下列句子没有语病的是

A、在建设三峡大坝的过程中,无论工人们遇到什么样的困难,他们却能披荆

斩棘,一往无前。

B、在列车长粗暴的干涉下,使爱迪生在火车上边卖报边做实验的愿望破灭了

C、中国残疾人艺术团在香港演出大型音乐舞蹈《我的梦》,受到观众的热烈

欢迎。

D、为了防止非典疫情不再反弹,市领导要求各单位进一一步加强管理,制定

严密的防范措施。

正确答案为C项,我们来看各个模型的回答

GPT3.5:给出了正确的答案,但进一步追问错误原因的过程中可以发现3.5对

错误原因理解不够正确,如A项错误应为无论和却搭配不当

GPT4:相比3.5,GPT4在找到正确答案同时可以更好的理解错误

复旦MOSS:错误的选择了A项,但可以明确判断出C项使动用法的错误

答案选择了A项目

继续追问

百度文心一言:结果并不理想

商汤SenseChat:认为全部有问题后选择了A项,其中本应该正确答案C,改正

错误

讯飞:答案正确,改正较合理

金山minimax:答案和修改均不正确,效果不太理想

没有语病的句子是:D、为了防止病情不再反弹,市领导要求各单位进一步加

强管理,制定严密的防范措施。

我们来分析一下其他三项的语病:

A、在建设三峡大坝的过程中,无论工人们遇到什么样的困难,他们却能披荆

斩棘,一往无前。

这个句子有两

文档评论(0)

137****1075 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档