- 1、本文档共53页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
京东
基于大模型的生成式检索
槿松/京东算法工程师
寒退之/京东算法工程师
DataFunSummit#2024
京东
D背景/现状介绍
DLexicalbased
DSemanticlDbasedD未来展望
京东
背景/现状介绍
01背景介绍
京东
搜索链路
QP
QP召回粗排精排重排
召回:在一定时间和计算复杂度的约束下,从全量商品库中,快速找出与当前搜索请求潜在相关的数千商品,要求在有限资源下进行性能和效率(召回率和准确率)之间的平衡。
现状
现状
模型侧:匹配精准度低,尤其是中长尾query/sku
用户表述与商品描述间差异较大,缺失常识等信息;给定信息下,模型交互不充分,匹配不准确。
索引侧:部署成本高、推理精度损失大
两段式的训练模式,索引损失大;
商品索引库需要天例行更新,部署、存储成本高。
两段式:
双塔+量化、联合索引优化(poeem)、图索引;
一段式:
TDM,deepRetrieval等
01背景介绍
生成式检索定义
query123
query123
Whoistheauthoroftippingthevelvet?
doc456
Aspartofherresearch...SarahWaterscameacrossthetitleofherfirstbook,TippingtheVelvet.…
doc137
…KeeleyHawesisknownforherroleasKittyButlerinTippingtheVelvet,….
RankList
1.doc456
2.doc283
toencode
V123
BeamSearch
andretrieve
头Encoder
Learning
Decoder
doc137
doc456
doc456
V456
V137
·索引侧:
·(1)稠密检索两阶段,量化损失--生成式检索一阶段,不会有链路上的损
失
·(2)例行大索引--hash索引或者轻量级索引·模型侧:
·(3)稠密检索中,查询与文档向量的交互不够充分,仅发生在相似度计算--
生成式检索模型能实现隐式的查询和文档的深度交互,性能上界更高
·(4)充分利用大语言模型的scalinglaw特性,提升模型表达能力和泛化能
力,显著缓解中长尾问题
京东
Lexicalbased
02Lexicalbased
GenerativeRetrievalwithPreferenceOptimizationforE-commerceSearch
MingmingLil,+andHuimuWang1,+andZuxuChen2andGuotaoNie1andYimingQiu1
BinbinWang1andGuoyuTang1andLinLiu1andJingweiZhuo1,*
1JD.com,Beijing,China
2ShenzhenInternationalGraduateSchool,TsinghuaUniversity,Beijing,China
{limingming65,wanghuimu1,nieguangtao1,qiuyiming}@chen-zx22@
{wangbinbin77,liulin1,zhuojingweil}@
https://arxiv.org/abs/2407.19829
02Lexicalbased京东
任务定义
QUERY
QUERYLLMTITLE
问题与挑战
领域特性
位置全局无关、局部敏感信息冗余
挑战:训练任务较难、搜索空间大、生成非商品率高等
query太短,title较长;传统问答相反,输入信息多,答案少一对多/超多,多样性要求高
生成空间大,准确率低,且生成的非商品率过高(不在商品库中)
02Lexical
您可能关注的文档
- 豆包MarsCode落地编程助手场景的探索与实战.docx
- 2024全球人才趋势报告-领英.docx
- 2025年全球电商消费趋势及选品洞察报告-亚马逊全球开店.docx
- 2024年汽车产业链协同减碳评价报告-公众环境研究中心.docx
- 全球人工智能简史.docx
- 2024微博用户消费趋势报告.docx
- 2024腾讯云大数据年度干货合集-腾讯云.docx
- 2024年中国母婴亲子人群营销趋势洞察报告.docx
- 2025年中考英语二轮复习讲练测(全国)专题25 读写综合(讲练)(原卷版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题13 任务型阅读(讲练)(原卷版).docx
- 2025年中考英语二轮复习讲练测(全国)专题19 完成句子,句型转换,连词成句(讲练)(解析版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题21 应用文(讲练)(解析版).docx
- 2025年中考英语二轮复习讲练测(全国)专题25 读写综合(讲练)(解析版).docx
- 2025年中考英语二轮复习讲练测(全国)专题22 提纲作文(讲练)(解析版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题16 短文填空(首字母,自由填空,选词,杂糅)(讲练)(原卷版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题25 读写综合(讲练)(原卷版).docx
- 2025年中考英语二轮复习讲练测(全国)专题25 读写综合(讲练)(解析版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题21 应用文(讲练)(解析版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题20 翻译(讲练)(解析版).pdf
- 2025年中考英语二轮复习讲练测(全国)专题21 应用文(讲练)(原卷版).docx
文档评论(0)