DeepSeek模型+RAG技术构建本地知识库.pdf

下载文档

6
0
约9.37千字
约 13页
2025-03-07 发布于广西
举报
版权申诉
保障服务

DeepSeek模型+RAG技术构建本地知识库.pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

DeepSeek模型+RAG技术构建本地知识库

摘要

本文将介绍DeepSeek大模型+RAG技术构建本地知识库的方法，将DeepSeek本地大模型与丰富的本

地知识库相结合，并使用CST/ABAQUS官方支持文档创建了一个“虚拟CST/ABAQUS技术支持工程师”

AI智能体，验证了AI模型+行业本地知识库在业务中的实际运用效果。这些数据和经验不仅为“虚

拟工程师”demo今后的升级迭代提供了充足的训练素材，也使得AI技术支持的个性化定制成为可

能，以更好地满足特定业务需求。

关键词：DeepSeek；RAG（Retrieval-AugmentedGeneration）；Embedding；RAGFlow；本地知识库；

AI；

一、前言

在当今这个信息爆炸的时代，人工智能技术正以前所未有的速度发展。其中，DeepSeek作为新一代的

AI选手，迅速成为行业内的焦点。DeepSeek在多项性能测试中已经达到了OpenAI的最新大模型o1

水平，部分项目还实现了超越，在多项评测中表现优异，甚至直逼世界顶尖的闭源模型GPT-4o和

Claude-3.5-Sonnet。

目前，我们已经在公司的高性能服务器上完成了本地AI智能助手部署的demo，通过大参数量的

DeepSeek本地大模型（70b及以上）与丰富的本地知识库相结合，成功创建了“虚拟CST/ABAQUS技

术支持工程师”这一AI智能体，验证了AI模型+行业本地知识库在业务中的实际运用效果。

考虑到现有网络平台已涵盖大量详尽的部署指南，本文将聚焦技术框架的核心流程梳理与关键参

数解析，以系统化方式呈现本地知识库构建方法论，具体实施细节将不会过多展开说明。

二、技术方案概述

2.1整体架构：DeepSeek-R1模型与RAG技术相结合

在选择AI模型时，我们考虑引入DeepSeek本地大模型，并结合RAG（Retrieval-Augmented

Generation）技术构建整体架构。

RAG技术工作思路：先解析本地数据库，将文本、图像或其他类型数据转换成高维向量，而后将原始问题和引用的

知识内容以向量形式整合到生成模型的输入中，增强生成的文本质量

DeepSeek是一款专注于推理的模型，特别适用于利用已有的知识库高效回答客户问题。其高效的推理能

力和多模态融合特性，使得DeepSeek在处理复杂逻辑任务和长文本时表现出色。DeepSeek-R1不仅在

数学、代码和自然语言推理等任务上表现卓越，性能直接对标OpenAI的o1正式版，同时使用MIT协

议以开源形式向全球开发者开放。

DeepSeek

而RAG技术则通过检索增强生成，进一步提升模型的检索和生成能力。通过从外部知识库中检索相关信

息，并将这些信息整合到生成模型的输入中，以增强生成的文本质量、准确性和相关性。

在知识库中导入文档后，系统会通过分块处理将文档切割为语义连贯的片段（Chunk）。这些文本块会经

过嵌入模型（EmbeddingModel）转化为高维向量，存储至向量数据库（VectorDB）。当用户发起问答

请求时，系统通过向量相似度检索匹配的文本片段，并将问题与相关上下文共同输入大语言模型

（LLM），完成检索增强生成（Retrieval-AugmentedGeneration，RAG）的智能问答流程。

RAG技术对本地知识库处理的流程图，图源CherryStudio官方文档

这种方法能有效解决大型语言模型在处理训练数据外信息时的“幻觉”问题。文献表明，RAG技术通

过动态检索外部知识库实现行业适配（Lewisetal.,2020），这种架构既保留了通用模型的对话能

力，又能通过知识库更新扩展专业认知边界。现有研究表明其综合成本显著低于全参数微调方案

（Izacardetal.,2022）。相较于微调模型需要重新训练参数的方式，RAG技术通过动态检索外部知

识库实现行业适配，无需承担高昂的模型重训练成本。

2.2部署方式：完全本地部署

通过全链路本地化部署架构，实现数据从存储到处理的端到端闭环，在消除外部攻击面的同时确保毫秒级

响应速度。技术验证采用Ollama容器化框架集成CherryStudio平台及RAGFlow智能检索系统，基

于离线环

您可能关注的文档

文档评论（0）

优选文档 + 关注: 实名认证

内容提供者

专注于发布优质文档，喜欢的可以关注一下哦~

咨询Ta 进入空间

1亿VIP精品文档

更多 >

DeepSeek模型+RAG技术构建本地知识库.pdf