基于大语言模型的企业知识库私有化部署落地.pptxVIP

下载本文档

20
0
约2.69千字
约 23页
2025-04-23 发布于广东
举报
版权申诉

基于大语言模型的企业知识库私有化部署落地.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

大语言模型结合企业知识库的私有化部署ProprietaryConfidential

目录为什么要用私有化大模型部署企业知识库的构建思路企业私有化大模型部署方案

为什么要用私有化大模型部署公有化大模型

为什么要用私有化大模型部署结合企业知识库的私有化大模型

为什么要用私有化大模型部署《行政法》目录

为什么要用私有化大模型部署公有化大模型

为什么要用私有化大模型部署结合企业知识库的私有化大模型

公有化模型和私有化模型的区别数据的安全性私有化知识私有化部署的大语言模型可以在用户自己的服务器或者私有云上运行，这意味着数据的安全性更高，因为数据不需要离开用户的控制范围。这一点对于那些管理着敏感信息的企业或组织来说无疑是极其重要的。公有化部署的大语言模型通常运行在开发商提供的云服务上，用户的数据会在使用过程中传输到这些服务器上进行处理。同时，用户在使用公有化部署的大语言模型时，提供的数据可能被用于改进模型训练和优化，虽然这些数据在大多数情况下都会被匿名化处理，但无法确保绝对不会出现数据泄露的情况。私有化部署的大语言模型可以更好地针对特定场景进行优化和定制化，可以针对企业或组织的特定需求进行定制和优化。例如，可以针对特定的行业术语进行训练，以提高模型的有效性和准确性。公有云部署的大语言模型通常是通用型的，模型预训练的数据覆盖广泛，适应各种常见场景，但对于特定行业或特定任务的精确性可能欠缺。因为这种模型的训练数据和参数通常并没有针对特殊需求进行优化调整，它可能无法理解特定领域的复杂术语或符合特定业务需求的工作逻辑。数据的合规性通过私有化部署的方式更好地管理和控制数据获取和使用，以确保符合各类数据隐私和合规性要求。公有化部署的大语言模型在数据合规性方面可能面临挑战，因为模型运营商通常无法确保其数据处理和存储符合所有地区和行业的特定数据合规要求。在不同国家和地区，对于数据存储、处理和传输的法规要求可能存在显著差异。

企业知识库的构建思路技术架构数据源接入：支持多种数据源如MySQL、HDFS、ES等，方便用户灵活对接自己的数据。预处理：对原始数据进行清洗、转换，以适应搜索引擎的需求。索引构建：利用Elasticsearch进行高效索引，支持文本、结构化数据等多种类型的信息。查询解析：实现了自然语言理解，能够将用户的输入转化为有效的查询语句。评分与排序：自定义的评分函数保证了搜索结果的相关性和质量。结果展示：提供友好的API接口，可以轻松集成到各种前端应用中。

企业知识库的构建思路特点与优势数据安全，支持在整个过程中断网线安装和使用。跨语言问答支持，可以在中英文问答之间自由切换，不受文档语言的限制。支持大规模数据问答，两阶段检索排名，解决大规模数据检索的退化问题；数据越多，性能越好。高性能生产级系统，可直接部署于企业应用。支持多知识库问答，可选择多个知识库进行问答。

企业知识库的构建思路关键技术——大模型和传统模型的结合1、通过对大模型的微调和改造，将大语言模型与OCR模型相结合，使得改造后的方案能够对图像进行识别。2、通过将大语言模型和检索模型、排序模型相结合，使得改造后的输出结果准确度更高。3、通过将大语言模型和文本分类模型相结合，输出可以从大规模的未标记文档集合中检索出相关信息，使得该吼吼输出的相关性更强。

大语言模型企业落地目前存在的问题1、只支持纯文本的输出2、输出的内容有“幻觉”3、对于特定领域的知识无法很好的回答

大语言模型微调和改造方案——只支持纯文本输出工作流管道链接和参照文本多模态模型我们设置了一个工作流管道，在模型生成文本描述图像的时候，令一个不同的服务根据描述来索引、搜索和返回适合的图片。同时，模型可以产生对于数据库中图像的详细描述。这个描述可以被用来查找并返回相应的图片。如果图片存储在网页或在线数据库中，模型可以生成包含图片链接的文本。用户可以通过链接来查看图片。采用这种方式，我们可以将图片存储在oss上，然后再在对模型的输出结构进行修改，使其输出相应的链接，然后再让前端渲染。训练一个多模态模型（处理和产生不同类型数据的模型，例如文本和图片），然后使用多模态模型直接进行图像的输出。

大语言模型微调和改造方案——输出的内容有“幻觉”大语言模型的“幻觉”通常指这些模型可能会产生一些不存在的、不准确的或虚假的信息。生成之前生成过程中生成之后LLM-Augmenter：当接收到用户查询，该框架首先从外部知识中检索证据并构建证据链。然后，使用整合证据的提示向GLM4提问，生成基于外部知识的候选响应。LLM-Augmenter验证候选响应的真实性，若产生虚假证据，则生成反馈信息用于修订提示并重新提问。此过程持续迭代，直至候选响应通过验证并发送给用户。FreshPrompt：该方法使用搜索引擎将相关的和最新信息整合到提示中，增强了动