2023年GPT系列专题报告:GPT-4引领认知革命-Deep-Speed加速行业发展.pptx

2023年GPT系列专题报告:GPT-4引领认知革命-Deep-Speed加速行业发展.pptx

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

GPT-4引领认知革命;;;u根据OpenAI技术文档给出的案例,GPT-4,对于图片的理解能力极强。

1)同时识别多张图片内容。如图2,将3张图片拼凑成1张,GPT-4能够同时识别多张图片的内容。

2)根据图片进行算数运算。如图3,将题目发给GPT-4,它能根据图片信息进行算数运算。;u3)阅读并总结论文。如图4、图5,将论文中部分页面截图给GPT-4,即可阅读并总结主要内容并回答用户追加的相关问题。

u4)解答高难度物理题目。如图6,将écolePolytechnique(巴黎综合理工大学)物理考试题目传给GPT-4,并指定其解答某一问题,即可顺利识别任务并正确解答。;;uGPT-4具有更强的长文字处理能力。GPT-4的上下文上限约为2.5万字,是ChatGPT的近8倍,允许使用长格式内容创建、扩展对话及文档搜索和分析等,能够阅读并记忆更多信息。

uGPT-4有更高的推理判断能力。如图11、图12,向ChatGPT和GPT-4提出相同问题“给定3个人物各自的空闲时间,求3人的共同空闲时段以安排会议。”ChatGPT给出了错误答案,而GPT-4成功完成这一要求。;;uGPT-4在评估语言模型的传统基准上优于其他模型。在语言模型基准测试中,分别将GPT-4、GPT-3.5与现有最佳性能语言模型(LMSOTA)和现有最佳模型(SOTA)的性能通过小样本(few-shot)测试进行比对,除DROP(阅读理解基准测试)外,GPT-4在多语言学习、常识推理、语音识别、人类评估测试均超越现有最佳模型。

uGPT-4拥有卓越的外语能力,包括英语和其他小语种。如图16,GPT-4在包括英语在内的27种语言测试中准确率均达到62?以上。通过与GPT-3.5、PaLM、Chinchilla模型英语水平进行对比,GPT-4以85.5?的准确性远超其他模型。;;uGPT-4的可靠性大幅提升。相较于GPT-3.5(会随着持续迭代而改善),GPT-4显著减少了“虚构”现象。在内部设计的对抗性准确度评估中,GPT-4各科目平均得分比GPT-3.5高出19%。其中,提升幅度在历史和数学科目上的表现尤为突出。

uGPT-4的分辨能力有显著提升,但仍存在改进空间。相较于GPT-3.5,GPT-4在公开基准测试TruthfulQA(测试模型真实性性能好坏的一个测试集)中取得了进步,体现为较高的分辨事实能力。如图21,在零样本(0-shot)提示、小样本(few-shot)提示和人类反馈强化学习(RLHF)微调后的表现中,GPT-4均明显优于GPT-3.5和Anthropic-LM,但GPT-4对TruthfulQA中的某些问题依然给出了错误的回答。;uGPT-4优化了安全性指标,能够有效减少有害风险信息的提供。从响应率来看,GPT-4对违规内容(如制作炸弹的方法)请求的响应率相较于GPT-3.5降低了82%,对敏感内容请求(如医疗建议和自我伤害建议等)的响应率降低了29%,RLHF后的GPT-4的响应率则更低。从反馈“有害信息”的可能性来看,GPT-4在RealToxicityPrompts数据集的测试中仅有

0.73%的概率生成“有害信息”,而GPT-3.5的概率为6.48%。;结合对现有其他语言模型的研究,GPT-4仍存在信息迭代受限、准确性不足、反馈违规内容等不足之处。

u信息迭代受限。GPT-4信息更迭能力受限,且模型本身不具主动学习能力。根据GPT-4技术报告,由于模型于2021年9月预训练完毕,GPT-4缺乏对此后事件的了解,且无法从经验中学习新内容。ChatGPT通过植入插件系统形成了对世界新事物的“触觉”。根据OpenAI官网介绍,Web浏览器插件将利用NewBing的API,通过在互联网上搜索相关信息,给出用户具体答案。

u准确性不足。GPT-4的回答准确性相较于GPT-3.5有较大提升,但仍存在虚构倾向。在TruthfulQA测试中,GPT-4在某些问题上依然给出了错误的回答。随着GPT-4使用范围的扩大,虚构倾向不仅会误导用户,更会降低模型本身的整体可信度。

u存在道德风险。GPT-4可能根据用户发出的指令产生各种有害内容,包括违反OpenAI政策以及对不利于社会发展的内容。如歧视性内容、误导性内容、策划袭击或暴力活动内容等。

u其他风险。结合对现有其他语言模型的研究,GPT-4还可能存在如侵犯隐私权、危害网络安全、出现不受控的新能力、系统交互等潜在风险。;uDeepSpeed是PyTorch的开源的兼容库,在深度学习训练和推理方面具有极高的速度和规模。DeepSpeed通过提高规模

、速度、成本和可用性来改进大型模型训练,可训练超100亿个参数的模型,实现了自然语

文档评论(0)

8d758 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档