- 1、本文档共57页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
豆包MarsCode落地编
程助手场景的探索实践
李文超/开发工具技术专家
DataFunSummit#2024
豆包MarsCode编程助手起源
豆包MarsCode的现状与发展
未来展望
01豆包MarsCode编程助手起源
?IDE智能化探索
?开发者对AICoding的诉求
?豆包MarsCode的历程
IDE智能化探索
开发者对AICoding的诉求
豆包MarsCode的历
程
?2022年初代码智能团队开始探索LLM驱动的代码补全产品
?自研代码LLM评测集和自动评测系统
?构建数据链路和线上A/B测试体系
?引入基于对话的编程助手
?更高自动化编程能力
?引入代码补全Pro编辑推荐功能
?更多....
豆包MarsCode编程助手起源
豆包MarsCode的现状与发展
未来展望
02豆包MarsCode的现状与发展
?代码补全
?Prompt工程
?科学的测评体系
?代码补全Pro
?概述
?数据构造
?产品交互
代码补全-Prompt工
程
代码补全-科学的测评体系
?代码补全的采纳率不是好指标
?只关注采纳率进行优化,容易被误导
?不容易拆解分析,归纳可指标链路优化路径
?更适合作为体验指标
?采纳率=采纳次数/推荐次数
代码补全-科学的测评体系
?CPO-更科学的指标(Codeium)
?尝试率:每当用户在编辑器中进行操作,比如输入新字符或删除一些代码时,都是AI给出补全建议的机会。「尝试率」指标反映了AI实际为用户提供建议的频率。AI不进行
尝试可能是由于延迟(如Debounce)或需要根据上下文情况来决定是否给出补全建议
?CPO(CharacterperOpportunity)
=
(尝试率)*(反馈率)*(采纳率)*
(每次采纳平均token数)*(token平均字符长度)
例子:用户敲击了10次按键,只有其中6次触发了请求,那么尝试率是6/10
代码补全-科学的测评体系
?CPO-更科学的指标(Codeium)
?反馈率:AI在给出补全建议时是存在延迟的,包括上下文检索到网络开销再到实际模型推理都会引入延迟。如果延迟太高,开发人员将继续在编辑器中执行新的操作,触发新的推荐机会并使现有推荐机会变得无意义。此外,在推荐完成后,工具可能因各种原因决定不向开发人员显示建议:比如置信度不够高、触发了过滤器等。反馈率代表了有多少比例的建议最终被传递给开发人员以获得人类「反馈」。
?CPO(Characterper
Opportunity)=(尝试率)*
(反馈率)*(采纳率)*
(每次采纳平均token数)*(token平均字符长度)
?例子:插件发起了6次请求,最后只有3次被展示,那么反馈率是3/6
代码补全-科学的测评体系
?CPO-更科学的指标(Codeium)
?采纳率:即使补全建议已经给到开发者,他们也可能觉得建议并不完美而拒绝。接受率反映了展示出的建议中有多少被开发者采纳。
?CPO(Characterper
Opportunity)=(尝试率)*
(反馈率)*(采纳率)*
(每次采纳平均token数)*
?如果展示的3次推荐,最后只有1次被采纳,那么采纳率是1/3
(token平均字符长度)
代码补全-科学的测评体系
?CPO-更科学的指标(Codeium)
?每次采纳平均token数:在其它条件相同的情况下,较长和较短的代码推荐所带来的价值有很大差异。大型语言模型以tokens的形式处理输入并生成输出,这些tokens
通常是一小段字符,因此每个被采纳建议中平均token数反映了每条被采纳建议所传递出的实际价值
?CPO(Characterper
Opportunity)=(尝试率)*(反馈率)*(采纳率)*
(每次采纳平均token数)*(token平均字符长度)
代码补全-科学的测评体系
?CPO-更科学的指标(Codeium)
?token的平均字符数:开发人员看到的是字符而不是token,不同的大语言模型可以有不同的「分词器」,因此,如果一个大语言模型的每个tok
文档评论(0)