大模型赋能投研分析报告:RAGFlow应用,结合结构化数据搭建本地智能投研系统.pdf

大模型赋能投研分析报告:RAGFlow应用,结合结构化数据搭建本地智能投研系统.pdf

金融机构需求与RAG

金融市场变化莫测,金融机构需要实时关注金融市场动向,在此过程中,金融机构面临大量文本类信息以及结构化的

数据类型信息。对于多种类的大量信息,亟需大模型的参与进行辅助处理。在众多RAG开源架构中,我们选择了具有

高质量解析检索特点的RAGFlow解决方案,针对其构建策略已经在《大模型赋能投研之七:如何结合结构化数据搭建

本地智能投研系统?-RAGFlow原理篇》中进行了详细分析,核心优势体现在四个方面:(1)解析方面:通过开发者自

主实现的DeepDoc实现高质量知识解析;(2)检索方面:使用“关键词+向量”的双路搜索方式,并以如Raptor以及

知识图谱等策略提高检索质量;(3)兼容方面:RAGFlow支持结构化数据信息解析,可使用Table模型进行解析,实

现多模态知识兼容;(4)使用方面:RAGFlow提供Agent搭建框架,基于高质量知识库实现质量增强的自定义工作流。

RAGFlow的部署与使用

RAGFlow的部署基于于Linux环境上的Docker容器,对于windows用户需要首先配置Linux环境作为准备。更进一

步,RAGFlow对于软件环境和硬件配置均有较高的要求:基础要求CPU=4核、内存=16GB、磁盘=50GB,且要

求Docker版本=24.0.0、DockerCompose版本=v2.26.1。在实际部署中,推荐使用内存=32GB的机器进行

部署,同时开启虚拟内存也是解决硬件配置不足的一个可行方案。

部署完成后,在具体使用中,用户需依照“系统设置”、“文档入库”、“检索配置”以及“检索回答”的流程进行参数

与模型配置,首先配置AI大模型、向量化模型以及重排序模型为应用做准备;其次完成文档解析入库相关参数与策

略的配置,并可以选择未文档配置元数据提高检索质量,进一步将传入的文档开始解析;解析完成后,可以开始检索

相关配置,具体需要完成聊天助理设置、提示引擎设置以及创建助手设置,参数较多详见正文列示,这一步的参数配

置关系到信息检索质量,本文仅基于《大模型赋能投研之七:如何结合结构化数据搭建本地智能投研系统?-RAGFlow

原理篇》中的评估检测给出推荐配置,用户可根据实际情况进行调节;最终,选择聊天助手,创建对话,即可问答。

除此之外,RAGFlow提供了PythonAPI进行批量操作,可以完成文档传入、文档解析、设置元数据、创建聊天助手、

开始聊天、获取回答、回去召回的文本块等基础操作,若有批量使用的需求,可以通过PythonAPI调用RAGFlow的

基础功能。但同时,当前版本下(v0.17.2版本),RAGFlow的API仍存在无法开启DeepResearch检索等缺陷。

RAGFlow项目运用实战

在应用篇中,我们进一步基于RAGFlow框架,同时凭借其对结构化数据的高质量支持,搭建了有获取结构化数据能力

的智能投研系统,已形成闭环数据链路。其中包括四个组件:1)三大财务报表通过Table解析入库构建企业基本面

本地知识库,在工作流中通过知识库检索获取;2)通过Text2SQL组件实现实时调取所需的日行情以及相关研究报告;

3)通过RAGFlow内嵌的问财Agent实现简易的逻辑选股功能;4)通过RAGFlow内嵌AKshare组件取实时新闻资讯。

最终,我们基于TexttoSQL简单工作流实现、以及结构化数据信息提取工作流实现的基础上,融合以三大报表、股

票日行情为代表的结构化数据,以及研报信息和实时新闻行情信息,最终构建了多维度金融信息获取Agent,在实际

测试中政策的执行的设定的检索与处理流程,效果较好。

风险提示

本次研究基于v0.17.2版本的Ragflow进行,未来版本更新可能带来功能变化;知识库的具体表现结果受到模型选择

影响,不同模型配置下知识库效果可能存在差异;大语言模型使用可能会受到限制,模型输出结果具有一定波动性;

本次研究中的推荐参数与模型选择、任务需求等具体情形有关,在具体使用中应根据情况及时调整。

1

金融工程专题报告

文档评论(0)

1亿VIP精品文档

相关文档