LangChain中转换与分割组件应用与优化.pdfVIP

  • 0
  • 0
  • 约1.12万字
  • 约 8页
  • 2026-05-08 发布于北京
  • 举报

LangChain中转换与分割组件应用与优化.pdf

01.DocumentTransformer组件

在LangChain中,使用文档加载器加载得到的文档一般来说存在着几个问题:原始文档

太大、原始文档的数据格式不符合需求(需要英文但是只有中文)、原始文档的信息没有

经过提炼等问题。

如果将这类数据直接转换成向量并到数据库中,会导致在执行相似性搜索和RAG的过

程中,错误率大大提升。所以在LLM应用开发中,在加载完数据后,一般会执行多一步转换的

过程,即将加载得到的文档列表进行转换,得到符合需求的文档列表。

转换涵盖的操作就非常多,例如:文档切割、文档属性提取、文档翻译、HTML转文本、

重组、元数据标记等都属于转换。

面的机器人架构中添加转换步骤,更新后的机器人架构/运行流程如下所示

在LangChain中针对文档的转换也统一封装了一个基类BaseDocumentTransformer,所

有涉及文档转换的类均是该类的子类,将大块文档切割成chunk分块的文档分割器也是

BaseDocumentTransformer的子类实现。

BaseDocumentTransformer基类封装了两个方法:

_

1.transformdocuments():抽象方法,传递文档列表,返回转换后的文档列表。

文档评论(0)

1亿VIP精品文档

相关文档