- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
医疗大模型尽职调查报告
医疗问答准确率与知识覆盖
•GPT-5:官方资料指出GPT-5在医疗问答方面显著优于之前版本,它提供“迄今最佳的健康相关回
答”1。第三方分析显示,GPT-5在常规医疗对话中的正确率达67.8%,明显高于GPT-4o的32%
2。面对“健康难题”案例,GPT-5平均正确率为46.2%,而GPT-4o几乎为02。此外,GPT-5的
错误输出(幻觉)率仅为1.6%,远低于GPT-4o的15.8%3。这些数据表明,GPT-5在多轮医疗对话
和复杂问答中更为严谨准确。OpenAI还强调GPT-5在专业写作、研究和分析等方面表现更像“领域专
家”45,暗示其医学知识覆盖非常广泛。
•Grok-4(xAI):xAI宣称Grok-4将具备深度推理和多模态能力,能够将医学影像(如MRI)与文本数
据结合分析6。虽然暂无公开量化医学问答准确率的数据,但在学术类多学科考试(HLE)中,
Grok-4Heavy版以44.4%的成绩远超其他模型7。这一成绩涵盖了数学、物理、化学等多领域,间
接表明Grok-4对综合知识(包括医学相关知识)的掌握非常强劲。xAI的目标是让Grok-4在临床场景
中执行任务(如解读影像、生成病历)时做到HIPAA合规89,指向它对医学多轮推理和决策支持
的定位。
•DeepSeek-R1-0528:DeepSeek最新版R1-0528大幅提升了复杂推理能力。其在数学竞赛(AIME)
题目上的正确率从70%提升至87.5%10,综合推理(GPQA-Diamond)得分升至81.0%,HLE考试
得分翻倍至17.7%11。这些提升伴随着幻觉率的显著降低,使模型在需要高精度的任务中更可靠
12。虽然DeepSeek主要面向通用推理,但其背后的中文医学知识库规模也很大,说明其医疗问答能
力在国内模型中处于领先地位13。团队还将R1-0528用于蒸馏,推出小型但性能出色的衍生模型,可
用于集成医疗对话系统。
•GLM-4.6(智谱):智谱GLM-4.6在多项推理基准上取得突破性进展,其在国内代码和数学测试中与
ClaudeSonnet4持平甚至超越14。GLM-4.6的上下文窗口扩展至200K字符15,支持更长的对话和
详细病例描述,对多轮医疗问答和跨学科诊疗思考非常有利。虽然目前尚无公开医疗领域专测报告,但
其在通用知识和工具调用上的进步暗示着优秀的医学知识覆盖和稳定性15。
•Qwen3Max(阿里通义):通义Qwen3-Max(参数量超1万亿)在各类基准中表现极其强悍:文本理
解排名全球前三,尤其在编程和智能体任务上领先1617。其“思考”版本在高难度数学基准
(AIME、HMMT)中取得了满分18,表明推理能力达到顶级水平。虽然尚无公开医疗专测结果,但
Qwen系列在中文语料(包括医学文本)上的优势明显,根据后述研究,Qwen模型在中医诊疗任务中
表现出色19。因此可以推断Qwen3-Max对于医疗问答(特别是中文内容)的覆盖深度和准确度非常
高。
•Gemini2.5Pro(谷歌):谷歌报告称Gemini2.5Pro在困难代码和推理基准(如GPQA、HLE)上表
现“顶级”20。虽然官方没有给出具体分数,但有迹象表明它在理工科类问题上极具竞争力。然而,
根据科学美国人报道,Grok-4Heavy在HLE中取得44.4%,而Gemini2.5Pro(工具版)仅26.9%
7。此外,对于中文版或中医场景,已有研究表明Gemini(1.5)在中医诊疗任务上落后于专门训练
过中文语料的模型21。综合看法:Gemini2.5Pro在国际化的大规模医学数据集上可能很强,但其多
轮对话中医知识覆盖尚需验证。
 原创力文档
原创力文档 
                        

文档评论(0)