- 1、本文档共35页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
RAG架构的意义及痛点
DeepSeek-R1模型以开源方式问世带来广泛影响,LLM大模型发展由基础设置转向模型应用,但同时大模型仍面临模
型“幻觉”、过时信息以及专业知识匮乏三个困境。RAG架构可以通过搭建存储知识信息的数据库,并从中检索具有及
时性、专业性的信息补充大语言模型的文本生成与逻辑思考过程。
但在RAG的工作流程中,存在多个痛点问题影响其使用效果:在文档解析入库的流程中存在如何高质量完成文本识别
与分块、如何对分块信息进一步处理、如何选择合适的Embedding模型等痛点问题;在信息检索输出的流程中存在如
何高质量进行内容检索、如何选择合适的重排序模型以及如何进行合适的Prompt处理衔接RAG与大模型等痛点问题。
追求高质量的RAGFlow开源解决方案
由于大模型的快速发展,市面上已经存在FastGPT、Dify、RAGFlow等多种开源RAG架构解决方案。其中,由于RAGFlow
追求“Qualityin,Qualityout”的高质量要求,故将RAGFlow作为我们的最终选择。
针对RAG架构中可能存在的痛点问题,RAGFlow努力给出自己的解决方案。在文本解析入库的流程中,RAGFlow使用
自己开发的DeepDoc组件实现复杂文档的解析与分块,并针对分块后的文本信息引入Raptor召回增强策略和知识图
谱策略进行进一步处理,同时提供了丰富的Embedding模型方便用户选型;在信息检索输出流程中,RAGFlow采用关
键词搜索+向量搜索的双路召回策略,并针对检索到的文本块,使用关键词相似度+Rerank模型相似度两种方法计算加
权平均相似度进行文本块的重排序,从而保证信息检索质量,并使用合适的Prompt将知识信息传递给大模型。
值得注意的是,RAGFlow同样支持结构化解析与检索,传入xlsx或csv/txt格式的文件后,选择“Table”模式进行
解析,RAGFlow会将数据的每行解析为一个文本块,以列名对应单元格值的方式组织,并高质量得保留了重要信息。
RAGFlow效果评估与检验
在厘清RAGFlow整体实施方案的基础上,进行其效果的评估检验,整个评估流程基于RAGAs评估框架进行,并选定15
篇金融领域不同方向的研究报告作为评估样本,同时针对样本进行问题与答案的设计;后续评估基于此进行。
具体而言,首先针对不同的文档解析入库、不同的信息检索输出配置方案进行评估对比,并最终得到较优的配置方案
搭配;其次评估不同Embedding与Reranker模型搭配的具体表现,并选择较优的模型搭配方案;最终,针对General
文档解析、Raptor召回增强以及信息检索配置这三个过程中涉及到的具体参数进行寻优。
最终,通过对RAGFlow效果的评估与检验,可以认为RAGFlow优于Dify(默认配置)的检索输出效果,并汇总整体的
评估流程,可得较优的RAGFlow全流程配置方案:Embedding模型选择SFR-Embedding-Mistral、Reranker模型选择
bce-reranker-base_v1;在解析入库时使用General方法、设置最大token数为512或1024进行文档解析,同时选
择开启社区摘要的知识图谱功能;在检索输出时,开启多轮优化、不开启知识推理功能。若想要减少文档解析时间,
可以选择关闭知识图谱,开启Raptor召回增强策略,同样可以获得较有的解析与检索质量。
风险提示
对于RAGFlow的分析基于v0.17.2版本进行,未来更新可能导致项目细节发生变换;本文所进行的评估基于小样本
集、并使用DeepSeekchat模型作为LLM模型进行,更换测试样本、更换大语言模型可能导出RAGFlow的具体表现与
本文结果存在出入;RAG架构不能完全消除大模型“幻觉”等弊端,使用RAGFlow得到的输出结果存在随机性和准确
性风险,使用时应加以辨别。
1
金融工程专题报告
内容目录
一、RAG:大模型应用中的重要架构6
1.1R
您可能关注的文档
- Snowflake-SNOW.US-市场前景及投资研究报告:产品迭代增强,渠道调整完毕,预算波动环境.pdf
- Workday-WDAY.US-市场前景及投资研究报告:一体化架构驱动工具,平台转型,强化渠道合作,研发销售效率.pdf
- 保健品行业市场前景及投资研究报告:新消费驱动保健品成长.pdf
- 地平线机器人-市场前景及投资研究报告-汽车智能计算平权,智联汽车,AI硬件.pdf
- 电力设备新能源行业市场前景及投资研究报告:全球大储高增长,工商储户储需求回暖.pdf
- 光储充行业ESG市场前景及投资研究报告-光伏,储能,充电.pdf
- 禾赛科技-市场前景及投资研究报告-智驾平权,出货量高增,机器人感知需求,第二增长曲线.pdf
- 机器人行业市场前景及投资研究报告:机器人应用场景,物管企业降本增效.pdf
- 计算机行业市场前景及投资研究报告:大模型研究框架.pdf
- 健康元-市场前景及投资研究报告-吸入制剂龙头,开启创新驱动周期.pdf
- 福莱特玻璃集团股份有限公司海外监管公告 - 福莱特玻璃集团股份有限公司2024年度环境、社会及管治报告.pdf
- 广哈通信:2024年度环境、社会及治理(ESG)报告.pdf
- 招商证券股份有限公司招商证券2024年度环境、社会及管治报告.pdf
- 宏信建设发展有限公司2024 可持续发展暨环境、社会及管治(ESG)报告.pdf
- 品创控股有限公司环境、社会及管治报告 2024.pdf
- 中信建投证券股份有限公司2024可持续发展暨环境、社会及管治报告.pdf
- 洛阳栾川钼业集团股份有限公司环境、社会及管治报告.pdf
- 361度国际有限公司二零二四年环境、社会及管治报告.pdf
- 中国神华能源股份有限公司2024年度环境、社会及管治报告.pdf
- 广西能源:2024年环境、社会及治理(ESG)报告.pdf
最近下载
- 学生工作单位实习证明word模板.docx
- 横河CS3000中文培训从讲解到组态最全资料.ppt VIP
- 内容讲义文本kyn28型开关柜及五防系统.ppt
- 四年级上册美术试卷国家义务教育质量监测答案.pdf VIP
- 2024年四川省广安市《保安员证》考试题库含答案 .pdf VIP
- 毕业设计(论文)-基于PLC的电梯控制系统设计.doc
- 糖尿病护理业务学习护理课件.pptx VIP
- 三菱电梯MAXIEZ-CZ调试大纲.pdf
- 东芝2307维修手册 东芝200623062506维修手册.doc
- 中考英语阅读训练Gulliver's Travels (selection)《格列佛游记》(选段).pdf VIP
文档评论(0)