申万：TMT-首发讯飞金山商汤等七大语言模型：十方面能力综合评测-20230420.pdf

下载文档

0
0
约1.95万字
约 23页
2024-03-30 发布于广东
举报
版权申诉
保障服务

申万：TMT-首发讯飞金山商汤等七大语言模型：十方面能力综合评测-20230420.pdf

1、本文档共23页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

提示：当前对比已涵盖GPT3.5/4，百度文心一言，复旦Moss大模型，商汤Se

nseChat，讯飞星火大模型。以下对比方法论及问题均为申万宏源TMT团队整

理总结，展示成果均为同样问题各模型第一次输出结果，后续更多模型持续更

新。

综合当前各类大模型能力测评，首先归纳总结十大类问题作为大模型测试方法

论，依据此对各个模型统一测评

测评方法论

1：语法和拼写能力:测试模型在语法和拼写上的准确性

2：文本生成能力:检验模型生成有意义、连的文本的能力。

3：推理和数学逻辑能力

4：科学计算能力

5：代码能力

6：常识知识:检验模型的基本常识知识

7：多语言能力

8：对话能力及情感认知能力:评估模型与用户进行自然、流畅的对话交流和认

知用户情感能力。

9：适应用户需求:测试模型针对不同用户需求和场景的应对能力。

10：伦理及安全性测试

总结

综上，本次评测一方面吸取采纳经典问题，另一方面通过方法论研究及创新，

通过新颖独特的问题设置，更好展现各个模型能力及不足。

通过测评，我们综合看出GPT4在各项能力方面均十分优秀，仅有瑕疵暴露在没

有较好完成字数限制上。综合考虑认为讯飞，商汤训练大模型已经达到gpt3.5

同等水平，金山（仅minimax）部分项目表现突出，整体有待提高；moss通过

测评推测拥有出色架构，但模型训练量较小，回答过于简单问题；百度文心一

言仍有较大提升空间。

百度文心一言由于历史ai论文和积累深厚还没有decoder架构。后续若切换为d

ecoder，弹性很大。

语法和拼写能力:在第一项，chatgpt4和讯飞表现最优，MOSS，gpt3.5，sen

sechat可以部分理解并改正病句，文心一言与金山仍需努力

文本生成能力：gpt4已经涌现较强的文学能力，但在q2中没有符合字数要求。

此外各模型均根据关键词产生较为正确的关联想象以及立意升华，文字幽默性

方面讯飞较强

推理和数学逻辑能力：推理部分面对父母结婚的经典问题，gpt4考虑最充分，

其余模型除moss外水平大致相当，而面对经典的牛吃草问题（小学奥数），各

大模型全军覆没，没有正确解答，但错误中也可以体现出gpt4、moss和金山

较强的逻辑思维能力（详见下文）

考虑到传统鸡兔同笼问题经过很多演示，各个大模型可能均具备能力无法体现

差异化，因此通过一个无解设置考验能力。可见商汤，百度，moss、金山均为

解题思路正确但无法更进一步考虑实际情况。

科学计算能力：百度、商汤及金山计算错误，该问题其他模型均较好解答，其

中gpt4及讯飞给出详细思路，表现优异

代码能力：该环境下gpt4表现优异，除正确编写代码外可以更多考虑测试用例

和程序边界情况，金山也较为优秀，其他模型可以编写正确代码，但考虑环境

等问题，程序员尚不能直接应用。

常识知识能力：各大模型均较好完成测试且面对质疑可以坚定给出正确答案，

金山出现经典错误。

多语言能力：均支持世界主要语言及方言

对话能力：此环节暴露出moss作为训练量较小模型的不足，gpt4表现最为优

异。

适应用户需求：gpt4给出方案已经足够成熟，暴露moss作为训练量较小模型

不足，其他模型书评大致相当

伦理及安全测试：均符合标准。

具体测试如下

一：语法和拼写能力

q1：下列句子没有语病的是

A、在建设三峡大坝的过程中，无论工人们遇到什么样的困难，他们却能披荆

斩棘，一往无前。

B、在列车长粗暴的干涉下，使爱迪生在火车上边卖报边做实验的愿望破灭了

。

C、中国残疾人艺术团在香港演出大型音乐舞蹈《我的梦》，受到观众的热烈

欢迎。

D、为了防止非典疫情不再反弹，市领导要求各单位进一一步加强管理，制定

严密的防范措施。

正确答案为C项，我们来看各个模型的回答

GPT3.5：给出了正确的答案，但进一步追问错误原因的过程中可以发现3.5对

错误原因理解不够正确，如A项错误应为无论和却搭配不当

GPT4:相比3.5，GPT4在找到正确答案同时可以更好的理解错误

复旦MOSS：错误的选择了A项，但可以明确判断出C项使动用法的错误

答案选择了A项目

继续追问

百度文心一言：结果并不理想

商汤SenseChat：认为全部有问题后选择了A项，其中本应该正确答案C，改正

错误

讯飞：答案正确，改正较合理

金山minimax：答案和修改均不正确，效果不太理想

没有语病的句子是：D、为了防止病情不再反弹，市领导要求各单位进一步加

强管理，制定严密的防范措施。

我们来分析一下其他三项的语病：

A、在建设三峡大坝的过程中，无论工人们遇到什么样的困难，他们却能披荆

斩棘，一往无前。

这个句子有两

您可能关注的文档

文档评论（0）

137****1075 + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

申万：TMT-首发讯飞金山商汤等七大语言模型：十方面能力综合评测-20230420.pdf