- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
医疗健康领域大模型RAG优化实践演讲人:夏源百度灵医大模型底座技术负责人
CONTENTS目录0203RAG医疗领域技术优化RAG医疗落地实践和应用
RAG现状和挑战
引言RAG技术是否已经“烂大街”?RAG技术实际应用的难点和挑战?医疗领域RAG技术有什么不一样?
NaiveRAG技术框架Query理解检索召回排序Prompt构建问题ES库/向量库大模型文档解析索引构建答案生成文档
NaiveRAG面临的问题证据相关性弱召回噪声信息关键信息截断Prompt构建关键信息未召回Query理解检索召回排序问题意图理解错误多意图问题ES库/向量库大模型上下文指代不明文档解析索引构建答案生成chunk切分不完整文档格式解析错误层次结构扁平大模型生成“幻觉”大模型回答片面模型回答安全性文档图像文档解析
如何解决NaiveRAG的技术问题内容理解(离线)需求理解检索召回排序相关性LLM答案生成文档解析文档切片文档挖掘向量索引文本索引意图识别多轮改写多队列召回向量召回Q-TP相关性权威性证据筛选提取信息归纳答案复杂query拆分证据源预判文本召回多样性知识图谱召回实体识别和扩展chunk切分不完整文档格式解析错误召回噪声信息证据相关性弱证据权威性大模型生成“幻觉”意图理解错误多意图问题大模型回答片面模型回答安全性关键信息未召回图像文档解析层次结构扁平上下文指代不明关键信息截断
难点和挑战挑战一:如何针对医疗专业领域进行内容理解和建设?挑战二:如何提升在医疗药企领域大模型的专业性?挑战三:如何解决实际企业应用中复杂RAG问题?
RAG医疗领域技术优化
医疗检索增强RAG技术架构RAG大模型理解和推理应用Query理解文档抽取意图识别证据聚合关键词抽取自我反思上下文理解自我推理推理RAG混合多级循证检索多源文档召回索引自动构建证据溯源ES检索路径检索相关性排序检索稠密向量检索深度语义排序医疗RAG内容理解数据库解析文字解析版面分析表格识别文档结构化机器翻译内容字段识别段落识别百度灵医大模型底座(LLM)
医疗RAG内容理解和建设病理报告单出院小结药品说明书病案首页医学书籍...医学文献医学报告医疗大数据治理医疗知识中台检验报告单...手术麻醉记录病程记录病理报告单医学临床指南入院记录医学行业标准读懂病历,理解患者读懂书本,掌握知识患者的病历包含不同的单据,如病案首页、检验报告单、病理报告单、住院诊断书等医学知识的不同的数据来源,如医学书籍、医学文献、临床指南等各种类型的医疗文档和单据,纯文本、表单、图谱、扫描件、复印件等各类医学知识文档有不同的排版样式、文档布局信息,不同的篇章信息、段落信息
医疗领域富文本信息理解病历多单据识别/病案质控医疗文档智能分析医疗知识中台医疗大数据治理医疗文档的知识抽取与图谱构建医学知识循证与融合……医疗领域富文本信息理解(病历单据/医学书籍)
医疗领域的文档多样性病程记录/现病史检验报告单书籍/指南(电子版/图片版)
医疗领域的文档多样性手术记录不同的排版样式不同的文档布局不同的篇章信息不同的段落信息文字密集,无法切分出单一实体用于实体类型预测多实体类型不同布局诊断证明结构布局不同,存在上下、左右等关系存在长、短文本预测长段落识别文字不连续完整实体被切分到多行
医疗RAG内容理解架构医疗RAG内容理解技术应用医疗单据识别表单识别单据解读专病结构化Span抽取CRF组装医疗知识图谱构建SPO关系抽取知识循证书籍层次化解析目录生成层次结构化应用层文档解析引擎版面分析引擎文档智能结构化引擎文档视图树生成多模态文档语义理解文档分析底座算法标题识别表格识别正文识别多模语义实体识别自注意力机制计算空间感知编码器空间结构化映射图像识别文字识别文本纠错传统小模型算法大模型(语言/多模态)NLPOCRDetection......DewarpMLLMLLM
医疗RAG内容理解:医疗报告单解析医疗单据图像预处理(图像分割/主体检测/图像矫正/图像增强/etc.)原始图像图像分割算法图像矫正算子图像增强算子训练基于OCRNet进行医疗文档增强训练(+△15.6%)主体识别准确率(95%+)医疗领域文档
医疗RAG内容理解:医疗报告单解析病理报告单结构化表单事件抽取结果……OCR+版面分析表单抽取(K,V抽取)专病结构化抽取目标:不同医院不同报告单进行解析构建医疗RAG结构化索引库
医疗RAG内容理解:智能文档结构化引擎多模态文档语义理解技术语义实体识别实体链接多模态空间感知编码器SemanticEntityRecognitionRelationEntityLinking1D位置向量2D空间位置向量图像文本向量:病理诊断右肺炎淋巴结(FeatureMapTextVisual
文档评论(0)