- 0
- 0
- 约1.12万字
- 约 8页
- 2026-05-08 发布于北京
- 举报
01.DocumentTransformer组件
在LangChain中,使用文档加载器加载得到的文档一般来说存在着几个问题:原始文档
太大、原始文档的数据格式不符合需求(需要英文但是只有中文)、原始文档的信息没有
经过提炼等问题。
如果将这类数据直接转换成向量并到数据库中,会导致在执行相似性搜索和RAG的过
程中,错误率大大提升。所以在LLM应用开发中,在加载完数据后,一般会执行多一步转换的
过程,即将加载得到的文档列表进行转换,得到符合需求的文档列表。
转换涵盖的操作就非常多,例如:文档切割、文档属性提取、文档翻译、HTML转文本、
重组、元数据标记等都属于转换。
面的机器人架构中添加转换步骤,更新后的机器人架构/运行流程如下所示
在LangChain中针对文档的转换也统一封装了一个基类BaseDocumentTransformer,所
有涉及文档转换的类均是该类的子类,将大块文档切割成chunk分块的文档分割器也是
BaseDocumentTransformer的子类实现。
BaseDocumentTransformer基类封装了两个方法:
_
1.transformdocuments():抽象方法,传递文档列表,返回转换后的文档列表。
原创力文档

文档评论(0)