AI动态汇总：AI模型通过标准图灵测试，智谱发布AIAgentAutoGLM沉思.docxVIP

下载本文档

10
0
约9.54千字
约 18页
2025-04-18 发布于北京
举报
版权申诉

AI动态汇总：AI模型通过标准图灵测试，智谱发布AIAgentAutoGLM沉思.docx

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

请务必阅读正文之后的免责条款部分目录

请务必阅读正文之后的免责条款部分

AI重点要闻 4

AI模型通过标准图灵测试 4

智谱发布AIAgent：AutoGLM沉思 7

DeepSeek发布百宝箱项目AwesomeDeepSeekIntegrations 8

亚马逊推出AI智能体NovaAct 10

企业动态 11

百度端到端语音语言大模型发布 11

OpenAIo3模型运行成本估算大幅上调 11

飞桨新一代框架3.0正式发布 12

Runway发布AI视频生成模型Gen-4 13

AI行业洞察 14

OpenAI宣布完成400亿美元超大规模融资，估值达3000亿美元 14

国家天文台基于通义千问打造国际首个太阳大模型“金乌” 15

技术前沿 15

美国奥赛题挑战AI数学能力，顶级模型得分不足5 15

UQABench：用于评估embedding提示LLM进行个性化问答的基准 17

风险提示 19

请务必阅读正文之后的免责条款部分

图表目录

图表1：LLMs图灵实验结果 4

图表2：图灵测试 5

图表3：实验结果 6

图表4：AutoGLM沉思 7

图表5：AwesomeDeepSeekIntegrations应用程序 9

图表6：AIAgent框架 9

图表7：NovaAct模型对比 10

图表8：百度端到端语音语言大模型 11

图表9：ARC-AGI测评 12

图表10：飞桨3.0架构 13

图表11：金乌模型 15

图表12：LLMs美国奥赛题论文 16

图表13：MathArena测评 16

图表14：UQABench论文 17

图表15：SRsVS.GRs 18

请务必阅读正文之后的免责条款部分资料来源：

请务必阅读正文之后的免责条款部分

资料来源：

AI重点要闻

AI模型通过标准图灵测试

3月31日，加州大学圣地亚哥分校的研究团队发布论文声称首次提供了“人工智能系统能够通过标准三方图灵测试的实证证据”。图灵测试由英国数学家和

计算机科学家阿兰?图灵于1950年提出，他称之为“模仿游戏”。图灵设想，如果一名提问者在通过文本交流时无法区分对方是机器还是人类，那么这个机器可

能具备类似人类的智能。在三方图灵测试中，提问者需与一名人类和一台机器进行对话，并准确辨识出人类身份。

在实验中，GPT-4.5以73的比率被认作人类，显著超越真实人类参与者；LLaMa-3.1-405B获得56的识别率，与人类无显著差异。基线模型（ELIZA和GPT-4o）成功率显著低于随机概率（分别为23和21）。

图表1：LLMs图灵实验结果

LargeLanguageModelsPasstheTuringTest，

请务必阅读正文之后的免责条款部分

以下为图灵测试的界面，绿色对话框为裁判，灰色对话框为被测试者，顶部计时器为所剩时间的倒计时。AI和人类都试图向裁判证明自己才是人类，如果测试员没法准确认出谁是真人，那就说明机器通过测试了，这也意味着AI能模仿人类的思维和表达方式。

资料来源：图表2：图灵测试

资料来源：

LargeLanguageModelsPasstheTuringTest，

在整个实验中，分别测试了GPT-4.5、LLaMa-3.1-405B，均测试两种提示策略。同时，基线策略选择了ELIZA（规则聊天机器人）与GPT-4o（无提示）。两种提示策略为NO-PERSONA和PERSONA，NO-PERSONA是仅告知模型“目标是说服对方自己是

人类”，而PERSONA引导模型模仿特定人格（如年轻、内向、熟悉网络文化的用户）。

请务必阅读正文之后的免责条款部分实验的参与者为126名本科生和158名Prolific平台用户，每人完成8轮对话

请务必阅读正文之后的免责条款部分

（4次为提问者，4次为人类证人）。具体流程为提问者与两个“证人”（1人类+1AI）进行5分钟同步对话，随后判断谁是AI。

最后的模型表现方面，GPT-4.5（PERSONA）表现最好，被误判为人类的概率达73（本科生69，Prolific76），显著高于随机水平（50）；LLaMa-3.1（PERSONA）整体胜率56%，在Prolific群体中显著高于随机（65%），本科生中不显著（45%）。相比较而言基线模型表现较差，ELIZA和GPT-4o（无提示）的胜率显著低于