- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
资料总结方面kimi在会议纪要总结能力上具有优势,选取一场会议的录音转录文本(分成两份pdf)给到模型进行文本纠错和全文总结,kimi的纠错能力和总结能力强于GPT4,例如kimi能根据上下文将“贝尔BT这个T23,T五”这个乱码纠正为“BERT”,并告知可能指BERT模型,其全文总结结果也比GPT4结果更具可用性。
图3kimi对会议纪要的纠错及总结 图4GPT4对会议纪要的纠错及总结
资料来源:kimichat,研究 资料来源:chatgpt,研究
能够针对提问自动联网搜索总结回答,答案提供信息来源,更具可靠性。例如下图问kimi关于谷歌2024的最新新闻,基本涵盖了所有要点新闻,总结也到位。
图5kimi联网搜索新闻信息并总结要点
资料来源:kimichat,研究
总体来说,我们认为kimi的优势在语言理解、长文本处理、逻辑推理能力上,数学解题和多模态能力暂缺或稍弱。其长文本处理能力让论文总结、会议纪要变得更具可用性,加上联网搜索功能,对于需要查阅大量信息和处理会议纪要的办公人群有极大助力,未来办公类AI应用或将受益。
Kimi成功启示:我们认为团队成员能力、资金储备、时间可能是Kimi目前较为成功的原因。
月之暗面(Moonshot)由清华大学交叉信息学院杨植麟教授领衔,团队成员包括来自Google、Meta、Amazon等国际科技巨头的人才,在Gemini、盘古NLP、悟道等多个大模型研发中有参与;
公司成立后获红杉中国、真格基金等机构投资,最新一轮融资超10亿美元,投资方包括阿里、红杉中国、小红书、美团等,估值达25亿美金;
月之暗面成立于2023年3月,此时chatgpt的全面成功,使得业界大模型已基本确认Decoder-only+VQA的技术路线,有效避免了此前由于技术路线分歧造成的开发资源浪费。
相关标的:文字类、对PDF等长文本能力提出要求的应用,福昕软件、金山办公;提升查找能力、对回答精确度贡献的向量数据库,星环科技。
截至目前,国内大模型的文字生成能力已经整体接近GPT-4Turbo。1月30日,上海人工智能实验室发布了大模型开源开放评测体系司南(OpenCompass2.0)1,结果显示,不少国内厂商近期新发布的模型在多个能力维度上正在快速缩小与GPT-4Turbo的差距,包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0等。
图6:上海人工智能实验室司南OpenCompass2.0年度榜单(客观评测-百分制)
1/home
资料来源:上海人工智能实验室、研究
但同时根据评测,复杂推理相关能力是大模型普遍面临的难题,国内大模型相比于GPT-4还存在差距。评测显示,推理、数学、代码、智能体是国内大模型的短板。GPT-4Turbo在涉及复杂推理的场景虽然亦有提升空间,但已明显领先于国内的商业模型和开源模型。这是大模型在金融、工业等要求可靠的场景落地需要的关键能力。
国产大模型在“文生图”能力上迭代,但“图生文”能力展示仍然较少,目前主流模型中阿里Qwen-VL暂时能力位居前列。阿里更新多模态大模型Qwen-VL,展示了部分“图生文”能力。2024年1月,阿里升级了通义千问视觉语言模型Qwen-VL2,继Plus版本之后,又推出Max版本。截至目前,Qwen-VL-MAX在OpenCompass2.0多模态大模型榜单中暂列第一。
图7OpenCompass2.0多模态大模型榜单(截至2024.2)
资料来源:上海人工智能实验室、研究
2https://huggingface.co/collections/Qwen/qwen-cafbecbd
图8阿里Qwen-VL识别照片地点 图9阿里Qwen-VL识别食物
资料来源:阿里通义千问modelscope社区、研究
资料来源:阿里通义千问modelscope社区、研究
例如上图,Qwen-VL可以做到识别标志性地点,理解简单图片,视觉定位、目标检测等,同时也初步具备了基于视觉完成复杂推理的能力。但在一些复杂的计算机视觉问题上仍有提升空间,如下图分辨吉娃娃和蓝莓松饼,回答结果并不准确,与GPT-4V能力仍有差距。
图10阿里Qwen-VL分辨松饼和吉娃娃
资料来源:阿里通义千问modelscope社区、研究
Claude3:超越Gimini,与GPT-4能力达到同一水平
3月4日,OpenAI竞争对手之一Anthropic推出最新Clau
您可能关注的文档
- “更新”系列一:详拆“五万亿”设备购置市场.docx
- 1-2月家电出口延续快速增长.docx
- 1-2月进出口数据解读:低基数效应显现,进出口数据迎来“开门红”.docx
- 1-2月进出口数据解读:低基数效应显现,进出口数据迎来“开门红”.pdf
- 2月PMI数据点评:经济动能回正.docx
- 2月PMI数据点评:经济动能回正.pdf
- 2月美国非农数据点评:令人惊艳的“再平衡”.docx
- 2月通胀数据点评:如何评估物价回升的持续性?.docx
- 2月通胀数据解读:剔除春节错位,CPI表现如何?.docx
- 2月物价解读:核心CPI延续改善.docx
- Anthropic发布Claude3模型,文本窗口扩展对RAG影响有限.docx
- A股TTM%26全动态估值全景扫描:本周A股估值总体继续回升.docx
- A股策略展望:关于红利资产行情持续性的思考.docx
- Claude3、Inflection-2.5等大模型推出,多项性能超GPT4.docx
- Claude3再度提升语言模型能力,关注一季报绩优公司.docx
- HBM3E量产在即,关注国产HBM突破和产业链受益.docx
- OLED显示行业报告:全面渗透与国产化,中大尺寸布局加速.docx
- Sabic(2010.TD)首次覆盖报告:背靠沙特阿美的全球综合化工领先企业.docx
- W市场观察:反弹持续,成长、高股息表现皆优.docx
- 安踏体育(2020.HK)三条成长曲线协同发展,共筑企业深厚“护城河”.docx
文档评论(0)