网站大量收购闲置独家精品文档,联系QQ:2885784924

在医疗健康领域,企业大模型RAG优化实践-百度灵医+夏源.docx

在医疗健康领域,企业大模型RAG优化实践-百度灵医+夏源.docx

  1. 1、本文档共92页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

医疗健康领域大模型RAG优化实践

演讲人:夏源

百度灵医大模型底座技术负责人

目录

01医疗健康领域RAG现状与挑战

02RAG医疗领域技术优化

03RAG医疗落地实践和应用

RAG现状和挑战

引言

RAG技术是否已经“烂大街”?

RAG技术实际应用的难点和挑战?医疗领域RAG技术有什么不一样?

NaiveRAG技术框架

问题

检索召回排序Prompt构建

检索召回排序

Prompt构建

Query理解

大模型ES库/向量库

大模型

文档解析索引构建答案生成

文档解析

索引构建

答案生成

文档

NaiveRAG面临的问题

证据相关性弱召回噪声信息

关键信息未召回

Query理解

Query理解

问题

文档

意图理解错误

多意图问题

上下文指代不明

文档解析

文档解析

chunk切分不完整

文档格式解析错误

图像文档解析

ES库/向量库

索引构建

索引构建

层次结构扁平

关键信息截断

Prompt构建

Prompt构建

大模型

答案生成

答案生成

大模型生成“幻觉”大模型回答片面 模型回答安全性

检索召回排序

检索召回排序

如何解决NaiveRAG的技术问题

内容理解(离线)

内容理解(离线)

文档解析文档切片文档挖掘向量索引文本索引

chunk切分不完整

文档格式解析错误

图像文档解析

层次结构扁平

需求理解

需求理解

意图识别

多轮改写

复杂query拆分

证据源预判实体识别和扩展

意图理解错误多意图问题

上下文指代不明

检索召回

检索召回

多队列召回向量召回文本召回

知识图谱召回

召回噪声信息关键信息未召回关键信息截断

排序

排序相关性

Q-TP相关性权威性

多样性

证据相关性弱证据权威性

LLM

LLM答案生成

证据筛选提取信息归纳答案

大模型生成“幻觉”大模型回答片面 模型回答安全性

难点和挑战

挑战一:如何针对医疗专业领域进行内容理解和建设?

挑战二:如何提升在医疗药企领域大模型的专业性?

挑战三:如何解决实际企业应用中复杂RAG问题?

RAG医疗领域技术优化

RAG大模型理解和推理应用Query理解文档抽取上下文理解

RAG大模型理解和推理应用

Query理解

文档抽取

上下文理解

关键词抽取

意图识别

证据聚合

自我反思

自我推理

推理

推理

RAG混合多级循证检索

RAG混合多级循证检索

多源文档召回

稠密向量检索

索引自动构建

深度语义排序

相关性排序

路径检索

证据溯源

ES检索

检索

检索

医疗RAG内容理解

数据库解析版面分析表格识别文档结构化文字解析字段识别机器翻译段落识别内容

数据库解析

版面分析

表格识别

文档结构化

文字解析

字段识别

机器翻译

段落识别

内容

百度灵医大模型底座(LLM)

医疗RAG内容理解和建设

病理报告单

病理报告单

病案首页出院小结

病案首页

出院小结

医疗大数据治理

医疗

大数据

治理

检验报告单

...

手术麻醉记录

手术麻醉记录

病程记录病理报告单

病程记录

病理报告单

入院记录

入院记录

读懂病历,理解患者

患者的病历包含不同的单据,如病案首页、检验报告单、病理报告单、住院诊断书等

各种类型的医疗文档和单据,纯文本、表单、图谱、扫描件、复印件等

药品说明书

药品说明书

医学书籍

医学书籍

医疗知识中

医疗

知识中

医学文献

...

...

医学报告

医学报告

医学临床指南

医学临床指南

医学行业标准

医学行业标准

读懂书本,掌握知识

医学知识的不同的数据来源,如医学书籍、医学文献、临床指南等

各类医学知识文档有不同的排版样式、文档布局信息,不同的篇章信息、段落信息

医疗领域富文本信息理解

病历多单据识别/病案质控

病历多单据识别/病案质控医疗文档智能分析

医疗文档的知识抽取与图谱构建医学知识循证与融合

医疗

医疗

知识中

医疗

医疗

大数据

治理

……

医疗领域富文本信息理解

OCR文字识别

SPO抽取/schema抽取/etc.

半/无结构化数据

(病历单据/医学书籍)

Layout版面分析

医疗领域的文档多样性

病程记录/现病史

检验报告单

书籍/指南(电子版/图片版)

书籍/指南(电子版/图片版)

手术记录医疗领域的文档多样性

手术记录

不同的排版样式不同的文档布局文字密集,无法切分出单一实体用于实体类型预测多实体类型

不同的排版样式不同的文档布局

文字密集,无法切

分出单一实体用于

实体类型预测

多实体类型

不同布局长段落识别文字不连续

不同布局

长段落识别

文字不连续

诊断证明结构布局不同

文档评论(0)

4A方案 + 关注
实名认证
服务提供商

擅长策划,|商业地产|住房地产|暖场活动|美陈|圈层活动|嘉年华|市集|生活节|文化节|团建拓展|客户答谢会

1亿VIP精品文档

相关文档