- 1、本文档共46页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
医疗健康领域大模型RAG优化实践
2025
01CONT目E录NTS
01
医疗健康领域RAG现状与挑战02
医疗健康领域RAG现状与挑战
02
RAG医疗领域技术优化
03
RAG医疗落地实践和应用
RAG现状和挑战
引言
RAG技术是否已经“烂大街”?
RAG技术实际应用的难点和挑战?
医疗领域RAG技术有什么不一样?
NaiveRAG技术框架
Query理解 检索召回排序 Prompt构建
Query理解
检索召回排序
Prompt构建
问题
答案生成ES库/向量库
答案生成
文档解析索引构建
文档解析
索引构建
文档
大模型
NaiveRAG面临的问题
证据相关性弱召回噪声信息关键信息未召回
关键信息截断
Query理解 检索召回排序 Prompt构建
Query理解
检索召回排序
Prompt构建
问题
文档
意图理解错误多意图问题
上下文指代不明
文档解析
文档解析
chunk切分不完整文档格式解析错误图像文档解析
索引构建层次结构扁平
索引构建
ES库/向量库
答案生成
答案生成
大模型生成“幻觉”大模型回答片面模型回答安全性
大模型
如何解决NaiveRAG的技术问题
内容理解(离线) 需求理解 检索召回 排序相关性
内容理解(离线)
需求理解
检索召回
排序相关性
LLM答案生成
文档解析文档切片文档挖掘向量索引文本索引
意图识别多轮改写
复杂query拆分证据源预判
实体识别和扩展
多队列召回向量召回文本召回
知识图谱召回
Q-TP相关性权威性多样性
证据筛选提取信息归纳答案
chunk切分不完整文档格式解析错误图像文档解析
层次结构扁平
意图理解错误多意图问题
上下文指代不明
召回噪声信息关键信息未召回关键信息截断
证据相关性弱证据权威性
大模型生成“幻觉”大模型回答片面模型回答安全性
难点和挑战
挑战一:如何针对医疗专业领域进行内容理解和建设?
挑战二:如何提升在医疗药企领域大模型的专业性?
挑战三:如何解决实际企业应用中复杂RAG问题?
RAG医疗领域技术优化
推理RAG大模型理解和推理应用自我推理自我反思证据聚合文档抽取上下文理解关键词抽取
推理
RAG大模型理解和推理应用
自我推理
自我反思
证据聚合
文档抽取
上下文理解
关键词抽取
意图识别
Query理解
检索
RAG混合多级循证检索
深度语义排序
稠密向量检索
ES检索
索引自动构建
相关性排序
路径检索
证据溯源
多源文档召回
内容
医疗RAG内容理解
百度灵医大模型底座(LLM)
文字解析
数据库解析
机器翻译
段落识别
字段识别
文档结构化
表格识别
版面分析
病案首页出院小结医疗大数据治理...
病案首页
出院小结
医疗大数据治理
...
手术麻醉记录
病理报告单
病程记录
医学文献
病理报告单药品说明书
病理报告单
药品说明书
入院记录医学行业标准
入院记录
医学行业标准
检验报告单医学书籍医疗知识中
检验报告单
医学书籍
医疗知识中台
...
医学临床指南
医学报告
患者的病历包含不同的单据,如病案首页、检验报告单、病理报告单、住院诊断书等
各种类型的医疗文档和单据,纯文本、表单、图谱、扫描件、复印件等
读懂书本,掌握知识
医学知识的不同的数据来源,如医学书籍、医学文献、临床指南等
各类医学知识文档有不同的排版样式、文档布局信息,不同的篇章信息、段落信息
医疗领域富文本信息理解
医疗大数据治理医疗
医疗大数据治理
医疗知识中台
医疗文档的知识抽取与图谱构建
医学知识循证与融合
……
医疗领域富文本信息理解
半/无结构化数据
(病历单据/医学书籍)
OCR文字识别 Layout版面分析 SPO抽取/schema抽取/etc.
检验报告单病程记录/现病史书籍/指南(电子版/图片版)医疗领域的文档多样性
检验报告单
病程记录/现病史
书籍/指南(电子版/图片版)
医疗领域的文档多样性 手术记录
不同的排版样式不同的文档布局
不同的篇章信息不同的段落信息
诊断证明
诊断证明
多实体类型
不同布局
长段落识别
长段落识别
文字密集,无法切分出单一实体用于实体类型预测
结构布局不同,存在上下、左右等关系
存在长、短文本预测
文字不连续
完整实体被切分到多行
医疗RAG内容理解技术应用表单识别单据解读Span抽取
医疗RAG内容理解技术应用
表单识别
单据解读
Span抽取
CRF组装
SPO关系抽取
知识循证
目录生成
层次结构化
文档视图树生成
标题识别
表格识别
图像识别
正文识别
多模态文档语义理解
多模语义实体识别
空间感知编码器
自注意力机制计算
空间结构化映射
NLP
OCR
您可能关注的文档
企业信息管理师持证人
新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化
文档评论(0)