豆包MarsCode落地编程助手场景的探索与实战.docx

豆包MarsCode落地编程助手场景的探索与实战.docx

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

豆包MarsCode落地编

程助手场景的探索实践

李文超/开发工具技术专家

DataFunSummit#2024

豆包MarsCode编程助手起源

豆包MarsCode的现状与发展

未来展望

01豆包MarsCode编程助手起源

?IDE智能化探索

?开发者对AICoding的诉求

?豆包MarsCode的历程

IDE智能化探索

开发者对AICoding的诉求

豆包MarsCode的历

?2022年初代码智能团队开始探索LLM驱动的代码补全产品

?自研代码LLM评测集和自动评测系统

?构建数据链路和线上A/B测试体系

?引入基于对话的编程助手

?更高自动化编程能力

?引入代码补全Pro编辑推荐功能

?更多....

豆包MarsCode编程助手起源

豆包MarsCode的现状与发展

未来展望

02豆包MarsCode的现状与发展

?代码补全

?Prompt工程

?科学的测评体系

?代码补全Pro

?概述

?数据构造

?产品交互

代码补全-Prompt工

代码补全-科学的测评体系

?代码补全的采纳率不是好指标

?只关注采纳率进行优化,容易被误导

?不容易拆解分析,归纳可指标链路优化路径

?更适合作为体验指标

?采纳率=采纳次数/推荐次数

代码补全-科学的测评体系

?CPO-更科学的指标(Codeium)

?尝试率:每当用户在编辑器中进行操作,比如输入新字符或删除一些代码时,都是AI给出补全建议的机会。「尝试率」指标反映了AI实际为用户提供建议的频率。AI不进行

尝试可能是由于延迟(如Debounce)或需要根据上下文情况来决定是否给出补全建议

?CPO(CharacterperOpportunity)

=

(尝试率)*(反馈率)*(采纳率)*

(每次采纳平均token数)*(token平均字符长度)

例子:用户敲击了10次按键,只有其中6次触发了请求,那么尝试率是6/10

代码补全-科学的测评体系

?CPO-更科学的指标(Codeium)

?反馈率:AI在给出补全建议时是存在延迟的,包括上下文检索到网络开销再到实际模型推理都会引入延迟。如果延迟太高,开发人员将继续在编辑器中执行新的操作,触发新的推荐机会并使现有推荐机会变得无意义。此外,在推荐完成后,工具可能因各种原因决定不向开发人员显示建议:比如置信度不够高、触发了过滤器等。反馈率代表了有多少比例的建议最终被传递给开发人员以获得人类「反馈」。

?CPO(Characterper

Opportunity)=(尝试率)*

(反馈率)*(采纳率)*

(每次采纳平均token数)*(token平均字符长度)

?例子:插件发起了6次请求,最后只有3次被展示,那么反馈率是3/6

代码补全-科学的测评体系

?CPO-更科学的指标(Codeium)

?采纳率:即使补全建议已经给到开发者,他们也可能觉得建议并不完美而拒绝。接受率反映了展示出的建议中有多少被开发者采纳。

?CPO(Characterper

Opportunity)=(尝试率)*

(反馈率)*(采纳率)*

(每次采纳平均token数)*

?如果展示的3次推荐,最后只有1次被采纳,那么采纳率是1/3

(token平均字符长度)

代码补全-科学的测评体系

?CPO-更科学的指标(Codeium)

?每次采纳平均token数:在其它条件相同的情况下,较长和较短的代码推荐所带来的价值有很大差异。大型语言模型以tokens的形式处理输入并生成输出,这些tokens

通常是一小段字符,因此每个被采纳建议中平均token数反映了每条被采纳建议所传递出的实际价值

?CPO(Characterper

Opportunity)=(尝试率)*(反馈率)*(采纳率)*

(每次采纳平均token数)*(token平均字符长度)

代码补全-科学的测评体系

?CPO-更科学的指标(Codeium)

?token的平均字符数:开发人员看到的是字符而不是token,不同的大语言模型可以有不同的「分词器」,因此,如果一个大语言模型的每个tok

文档评论(0)

哈哈 + 关注
实名认证
内容提供者

嗨,朋友,我都会用最可爱的语言和最实用的内容,帮助你更好地理解和应对职场中的各种挑战!

1亿VIP精品文档

相关文档