AI行业系列点评：AI大模型竞争加剧，国内海外多点开花.docxVIP

下载本文档

4
0
约3.79千字
约 6页
2024-03-20 发布于北京
举报
版权申诉

AI行业系列点评：AI大模型竞争加剧，国内海外多点开花.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

资料总结方面kimi在会议纪要总结能力上具有优势，选取一场会议的录音转录文本（分成两份pdf）给到模型进行文本纠错和全文总结，kimi的纠错能力和总结能力强于GPT4，例如kimi能根据上下文将“贝尔BT这个T23，T五”这个乱码纠正为“BERT”,并告知可能指BERT模型，其全文总结结果也比GPT4结果更具可用性。

图3kimi对会议纪要的纠错及总结图4GPT4对会议纪要的纠错及总结

资料来源：kimichat，研究资料来源：chatgpt，研究

能够针对提问自动联网搜索总结回答，答案提供信息来源，更具可靠性。例如下图问kimi关于谷歌2024的最新新闻，基本涵盖了所有要点新闻，总结也到位。

图5kimi联网搜索新闻信息并总结要点

资料来源：kimichat，研究

总体来说，我们认为kimi的优势在语言理解、长文本处理、逻辑推理能力上，数学解题和多模态能力暂缺或稍弱。其长文本处理能力让论文总结、会议纪要变得更具可用性，加上联网搜索功能，对于需要查阅大量信息和处理会议纪要的办公人群有极大助力，未来办公类AI应用或将受益。

Kimi成功启示：我们认为团队成员能力、资金储备、时间可能是Kimi目前较为成功的原因。

月之暗面（Moonshot）由清华大学交叉信息学院杨植麟教授领衔，团队成员包括来自Google、Meta、Amazon等国际科技巨头的人才，在Gemini、盘古NLP、悟道等多个大模型研发中有参与；

公司成立后获红杉中国、真格基金等机构投资，最新一轮融资超10亿美元，投资方包括阿里、红杉中国、小红书、美团等，估值达25亿美金；

月之暗面成立于2023年3月，此时chatgpt的全面成功，使得业界大模型已基本确认Decoder-only+VQA的技术路线，有效避免了此前由于技术路线分歧造成的开发资源浪费。

相关标的：文字类、对PDF等长文本能力提出要求的应用，福昕软件、金山办公；提升查找能力、对回答精确度贡献的向量数据库，星环科技。

截至目前，国内大模型的文字生成能力已经整体接近GPT-4Turbo。1月30日，上海人工智能实验室发布了大模型开源开放评测体系司南（OpenCompass2.0）1，结果显示，不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4Turbo的差距，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0等。

图6：上海人工智能实验室司南OpenCompass2.0年度榜单（客观评测-百分制）

1/home

资料来源：上海人工智能实验室、研究

但同时根据评测，复杂推理相关能力是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距。评测显示，推理、数学、代码、智能体是国内大模型的短板。GPT-4Turbo在涉及复杂推理的场景虽然亦有提升空间，但已明显领先于国内的商业模型和开源模型。这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。

国产大模型在“文生图”能力上迭代，但“图生文”能力展示仍然较少，目前主流模型中阿里Qwen-VL暂时能力位居前列。阿里更新多模态大模型Qwen-VL，展示了部分“图生文”能力。2024年1月，阿里升级了通义千问视觉语言模型Qwen-VL2，继Plus版本之后，又推出Max版本。截至目前，Qwen-VL-MAX在OpenCompass2.0多模态大模型榜单中暂列第一。

图7OpenCompass2.0多模态大模型榜单（截至2024.2）

资料来源：上海人工智能实验室、研究

2https://huggingface.co/collections/Qwen/qwen-cafbecbd

图8阿里Qwen-VL识别照片地点图9阿里Qwen-VL识别食物

资料来源：阿里通义千问modelscope社区、研究

例如上图，Qwen-VL可以做到识别标志性地点，理解简单图片，视觉定位、目标检测等，同时也初步具备了基于视觉完成复杂推理的能力。但在一些复杂的计算机视觉问题上仍有提升空间，如下图分辨吉娃娃和蓝莓松饼，回答结果并不准确，与GPT-4V能力仍有差距。

图10阿里Qwen-VL分辨松饼和吉娃娃

资料来源：阿里通义千问modelscope社区、研究

Claude3：超越Gimini，与GPT-4能力达到同一水平

3月4日，OpenAI竞争对手之一Anthropic推出最新Clau

您可能关注的文档

文档评论（0）

535600147 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：6010104234000003

1亿VIP精品文档

更多 >

AI行业系列点评：AI大模型竞争加剧，国内海外多点开花.docxVIP