AI行业系列点评:AI大模型竞争加剧,国内海外多点开花.docxVIP

AI行业系列点评:AI大模型竞争加剧,国内海外多点开花.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

资料总结方面kimi在会议纪要总结能力上具有优势,选取一场会议的录音转录文本(分成两份pdf)给到模型进行文本纠错和全文总结,kimi的纠错能力和总结能力强于GPT4,例如kimi能根据上下文将“贝尔BT这个T23,T五”这个乱码纠正为“BERT”,并告知可能指BERT模型,其全文总结结果也比GPT4结果更具可用性。

图3kimi对会议纪要的纠错及总结 图4GPT4对会议纪要的纠错及总结

资料来源:kimichat,研究 资料来源:chatgpt,研究

能够针对提问自动联网搜索总结回答,答案提供信息来源,更具可靠性。例如下图问kimi关于谷歌2024的最新新闻,基本涵盖了所有要点新闻,总结也到位。

图5kimi联网搜索新闻信息并总结要点

资料来源:kimichat,研究

总体来说,我们认为kimi的优势在语言理解、长文本处理、逻辑推理能力上,数学解题和多模态能力暂缺或稍弱。其长文本处理能力让论文总结、会议纪要变得更具可用性,加上联网搜索功能,对于需要查阅大量信息和处理会议纪要的办公人群有极大助力,未来办公类AI应用或将受益。

Kimi成功启示:我们认为团队成员能力、资金储备、时间可能是Kimi目前较为成功的原因。

月之暗面(Moonshot)由清华大学交叉信息学院杨植麟教授领衔,团队成员包括来自Google、Meta、Amazon等国际科技巨头的人才,在Gemini、盘古NLP、悟道等多个大模型研发中有参与;

公司成立后获红杉中国、真格基金等机构投资,最新一轮融资超10亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达25亿美金;

月之暗面成立于2023年3月,此时chatgpt的全面成功,使得业界大模型已基本确认Decoder-only+VQA的技术路线,有效避免了此前由于技术路线分歧造成的开发资源浪费。

相关标的:文字类、对PDF等长文本能力提出要求的应用,福昕软件、金山办公;提升查找能力、对回答精确度贡献的向量数据库,星环科技。

截至目前,国内大模型的文字生成能力已经整体接近GPT-4Turbo。1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0)1,结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0等。

图6:上海人工智能实验室司南OpenCompass2.0年度榜单(客观评测-百分制)

1/home

资料来源:上海人工智能实验室、研究

但同时根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距。评测显示,推理、数学、代码、智能体是国内大模型的短板。GPT-4Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

国产大模型在“文生图”能力上迭代,但“图生文”能力展示仍然较少,目前主流模型中阿里Qwen-VL暂时能力位居前列。阿里更新多模态大模型Qwen-VL,展示了部分“图生文”能力。2024年1月,阿里升级了通义千问视觉语言模型Qwen-VL2,继Plus版本之后,又推出Max版本。截至目前,Qwen-VL-MAX在OpenCompass2.0多模态大模型榜单中暂列第一。

图7OpenCompass2.0多模态大模型榜单(截至2024.2)

资料来源:上海人工智能实验室、研究

2https://huggingface.co/collections/Qwen/qwen-cafbecbd

图8阿里Qwen-VL识别照片地点 图9阿里Qwen-VL识别食物

资料来源:阿里通义千问modelscope社区、研究

资料来源:阿里通义千问modelscope社区、研究

例如上图,Qwen-VL可以做到识别标志性地点,理解简单图片,视觉定位、目标检测等,同时也初步具备了基于视觉完成复杂推理的能力。但在一些复杂的计算机视觉问题上仍有提升空间,如下图分辨吉娃娃和蓝莓松饼,回答结果并不准确,与GPT-4V能力仍有差距。

图10阿里Qwen-VL分辨松饼和吉娃娃

资料来源:阿里通义千问modelscope社区、研究

Claude3:超越Gimini,与GPT-4能力达到同一水平

3月4日,OpenAI竞争对手之一Anthropic推出最新Clau

文档评论(0)

535600147 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6010104234000003

1亿VIP精品文档

相关文档