网站大量收购独家精品文档,联系QQ:2885784924

2025医疗健康领域⼤模型RAG优化实践.docx

2025医疗健康领域⼤模型RAG优化实践.docx

此“医疗卫生”领域文档为创作者个人分享资料,不作为权威性指导和指引,仅供参考
  1. 1、本文档共46页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

医疗健康领域大模型RAG优化实践

2025

01CONT目E录NTS

01

医疗健康领域RAG现状与挑战02

医疗健康领域RAG现状与挑战

02

RAG医疗领域技术优化

03

RAG医疗落地实践和应用

RAG现状和挑战

引言

RAG技术是否已经“烂大街”?

RAG技术实际应用的难点和挑战?

医疗领域RAG技术有什么不一样?

NaiveRAG技术框架

Query理解 检索召回排序 Prompt构建

Query理解

检索召回排序

Prompt构建

问题

答案生成ES库/向量库

答案生成

文档解析索引构建

文档解析

索引构建

文档

大模型

NaiveRAG面临的问题

证据相关性弱召回噪声信息关键信息未召回

关键信息截断

Query理解 检索召回排序 Prompt构建

Query理解

检索召回排序

Prompt构建

问题

文档

意图理解错误多意图问题

上下文指代不明

文档解析

文档解析

chunk切分不完整文档格式解析错误图像文档解析

索引构建层次结构扁平

索引构建

ES库/向量库

答案生成

答案生成

大模型生成“幻觉”大模型回答片面模型回答安全性

大模型

如何解决NaiveRAG的技术问题

内容理解(离线) 需求理解 检索召回 排序相关性

内容理解(离线)

需求理解

检索召回

排序相关性

LLM答案生成

文档解析文档切片文档挖掘向量索引文本索引

意图识别多轮改写

复杂query拆分证据源预判

实体识别和扩展

多队列召回向量召回文本召回

知识图谱召回

Q-TP相关性权威性多样性

证据筛选提取信息归纳答案

chunk切分不完整文档格式解析错误图像文档解析

层次结构扁平

意图理解错误多意图问题

上下文指代不明

召回噪声信息关键信息未召回关键信息截断

证据相关性弱证据权威性

大模型生成“幻觉”大模型回答片面模型回答安全性

难点和挑战

挑战一:如何针对医疗专业领域进行内容理解和建设?

挑战二:如何提升在医疗药企领域大模型的专业性?

挑战三:如何解决实际企业应用中复杂RAG问题?

RAG医疗领域技术优化

推理RAG大模型理解和推理应用自我推理自我反思证据聚合文档抽取上下文理解关键词抽取

推理

RAG大模型理解和推理应用

自我推理

自我反思

证据聚合

文档抽取

上下文理解

关键词抽取

意图识别

Query理解

检索

RAG混合多级循证检索

深度语义排序

稠密向量检索

ES检索

索引自动构建

相关性排序

路径检索

证据溯源

多源文档召回

内容

医疗RAG内容理解

百度灵医大模型底座(LLM)

文字解析

数据库解析

机器翻译

段落识别

字段识别

文档结构化

表格识别

版面分析

病案首页出院小结医疗大数据治理...

病案首页

出院小结

医疗大数据治理

...

手术麻醉记录

病理报告单

病程记录

医学文献

病理报告单药品说明书

病理报告单

药品说明书

入院记录医学行业标准

入院记录

医学行业标准

检验报告单医学书籍医疗知识中

检验报告单

医学书籍

医疗知识中台

...

医学临床指南

医学报告

患者的病历包含不同的单据,如病案首页、检验报告单、病理报告单、住院诊断书等

各种类型的医疗文档和单据,纯文本、表单、图谱、扫描件、复印件等

读懂书本,掌握知识

医学知识的不同的数据来源,如医学书籍、医学文献、临床指南等

各类医学知识文档有不同的排版样式、文档布局信息,不同的篇章信息、段落信息

医疗领域富文本信息理解

医疗大数据治理医疗

医疗大数据治理

医疗知识中台

医疗文档的知识抽取与图谱构建

医学知识循证与融合

……

医疗领域富文本信息理解

半/无结构化数据

(病历单据/医学书籍)

OCR文字识别 Layout版面分析 SPO抽取/schema抽取/etc.

检验报告单病程记录/现病史书籍/指南(电子版/图片版)医疗领域的文档多样性

检验报告单

病程记录/现病史

书籍/指南(电子版/图片版)

医疗领域的文档多样性 手术记录

不同的排版样式不同的文档布局

不同的篇章信息不同的段落信息

诊断证明

诊断证明

多实体类型

不同布局

长段落识别

长段落识别

文字密集,无法切分出单一实体用于实体类型预测

结构布局不同,存在上下、左右等关系

存在长、短文本预测

文字不连续

完整实体被切分到多行

医疗RAG内容理解技术应用表单识别单据解读Span抽取

医疗RAG内容理解技术应用

表单识别

单据解读

Span抽取

CRF组装

SPO关系抽取

知识循证

目录生成

层次结构化

文档视图树生成

标题识别

表格识别

图像识别

正文识别

多模态文档语义理解

多模语义实体识别

空间感知编码器

自注意力机制计算

空间结构化映射

NLP

OCR

文档评论(0)

数字能源 + 关注
实名认证
服务提供商

企业信息管理师持证人

新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化

版权声明书
用户编号:6011145050000024
领域认证该用户于2023年02月15日上传了企业信息管理师

1亿VIP精品文档

相关文档