产品经理如何快速测评新算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
产品经理如何快速测评新算法 / 一、前言 在人工智能已经成熟商业化的今天,我们的生活被各种算法层层渗透,越来越多的产品无论是出于降本增效的目的,还是出于PR宣传的目的,都开始应用算法。 面对算法的应用,产品经理要应对的一个重要难题,就是对算法效果进行测评,尤其是面对一个新算法能力,测评会更加棘手。 为什么产品经理需要对算法做测评呢? 对于自研算法,仅有算法研究员自测的实验室指标是不够的,业务产品需要通过自己的测评来判断算法是否达到商用标准,同时也能与实验室指标形成对比,可以给算法研究员作为重要参考;对于外采算法,仅有供应商提供的算法精度报告也是不够的,我们更需要对多家供应商的算法做测评,再结合价格、售后服务等因素综合决定采购合作的供应商。 按照本文提供的框架,你可以“快速”完成对一个“新”算法的测评。 二、算法测评的基本原则 在进入测评框架的讲述前,要先明确算法测评的四个基本原则,非常重要! 原则1:算法能力一致 面对横向比较多个算法优劣的测评,必须保证待测评算法是解决同种问题或提供同种功能的。 原则2:样本用例一致 同一个算法,在不同样本测试集上的指标表现是存在差异的,所以无论我们的测评是横向比较多家算法,还是纵向比较一家算法的多个迭代版本,都必须保证采用的样本测试集和测试用例保持完全一致,这样得出的指标数值才有可比较的意义。 如果A算法用a测试集,B算法用b测试集,这样得出的指标数值是没有可比较性的,因为测试集不同。 原则3:执行方式一致 测评算法的所有操作方式和环境必须保证完全一致。 原则4:评价指标一致 针对同种算法的测评,必须采用计算公式或统计口径完全一致的指标体系。 三、算法测评,拢共分几步 1. 第1步:明确算法的能力范围 面对一个新算法能力,首先要准确划定这个算法的能力范围和边界。 所谓能力范围和边界,就是这个算法能做什么不能做什么,这一点和业务需求是强相关的;所以明确算法能力范围,其实就是梳理业务对算法的需求,需求梳理完毕,算法能力范围也就清晰明了了。 业务对算法的需求通常可来自于三个方面,一是政策法规、二是客户需要、三是竞品分析;这里需要提示一点,如果想做到“快速”,就必须在满足业务需求的前提下,将能力范围最小化。 例如在笔者负责的业务中,需要对用户上传的身份证照片中的文字信息进行提取,同时还需要判断该身份证是原件/复印件/翻拍件。 通过对业务需求的梳理,我们已经得出了最小化的算法能力范围——身份证光学字符识别、身份证原件类型识别。 在市场上成熟的OCR算法厂商中,提供的能力不仅仅是上述两种,还包括证件反光提示、证件真伪判断等等,但基于最小化原则,我们不需要追求全面测评,只需要关注业务需要的能力。 2. 第2步:明确测评目的 测评的目的无非就是得出一个好坏的结论,也就是相互比较。从比较类型的维度划分,一般会分为横向比较和纵向比较,横向是针对多个厂商的算法,纵向是针对同个算法的多个版本。 这里有个小提示,所有的测评,都必须要有基线作为参考,否则测评是没有意义的。简单来说,就是每次测评都必须是有两个或以上的结果且结果可比较。 算法能力的体现,也就是算法的能力类型,通常包括算法精度、算法性能、操作体验。 算法精度,是指在既定的测试集上,算法对样本判断、分析、预测的准确程度。 算法性能,是指在既定品牌型号的服务器上,算法对样本的处理速度。 操作体验,是指C端用户在设备上操作算法应用的难易程度。 综上,测评目的可通过对“比较类型”和“能力类型”的排列组合得出。 3. 第3步:明确测评的执行方式 测评的执行方式分为批量跑测和端到端测试。 批量跑测,是指通过调用算法模型的相关接口,将准备好的测试样本批量送入模型,并批量得到模型返回结果的测试方式。 端到端测试,是指模拟用户真实使用场景,从用户设备端(手机、PC等)传入测试样本,直到算法服务端返回结果到用户设备端的测试方式。 针对精度和性能的测评,我们建议采用批量跑测的执行方式,数据准、效率高;针对操作体验的测评,一般只能通过端到端的执行方式,才能准确还原真实操作场景。 4. 第4步:明确样本类型和用例 样本选取和用例设计是整个测评的核心,会直接影响测评结果是否能真实、客观、全面的反映算法能力。 不同算法在样本选取和用例设计上千差万别,但有几个小方法可以提供给大家参考: 1)全面覆盖 根据业务需求,样本和用例的设计要完整覆盖需要测评和需要被客观体现的算法能力。如何做到完整全面的覆盖?可以采用最小颗粒拆解方法。 2)最小颗粒 根据业务需求,将算法能力拆解到最小的颗粒度,逐一测评最小颗粒的原子能力。如何拆解原子能力呢?这里有个小技巧,就是多问几个“为什么”,其实就是拆解算法训练原理,再根据业务场景中实际会出现的情况,得出样本和用例。 以笔者上面提到的“证件是否为原件的检测算法”

文档评论(0)

150****6040 + 关注
实名认证
文档贡献者

互联网产品运营推广以及k12教育内容。

1亿VIP精品文档

相关文档