AI产品经理的7堂必修课:必备的AI基础知识.docVIP

AI产品经理的7堂必修课:必备的AI基础知识.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
AI产品经理的7堂必修课:必备的AI基础知识 / 一、三驾马车 这些年大家都常常听到人工智能有三大马车,即:数据、算法和算力,其实这个是拆解任何一个人工智能项目或者是问题非常有效的方法,大家务必记住这三个要素,缺一不可,我们后面的实战章节会拿来反复进行验证使用。我们接下来就从基础理论看看这三大要素的组成。 1. 数据的构成 数据:任何AI模型训练都需要数据,AI深度学习模型不可能无中生有。包括我们人类的高等智能学习也需要有输入,才能进行输出,因此数据就是AI模型的重中之重。 数据按照用途可分为:训练集(train set)、验证集(validation set)和测试集(test set)。 其中训练集占全部数据集的绝大部分,数量从万级到千万级甚至更多,且对于算法模型来说,一定是数据越多算法模型越好,即可以理解为算法跟人一样“见多识广”,见的数据多了自然模型更加鲁棒和强大。 验证集主要用来调整模型参数从而选择最优模型,验证集可以理解成我们学习时候的教参书,用来验证我们是否对于所学习知识已经掌握;但是最终用来评价模型的好坏是测试集,这部分数据对于模型一定之前是”保密的”,可以理解对于模型要进行一次“考试”。 考试范围包含之前训练集的“知识点“,看看那其中训练集:验证集:测试集=6:2:2;验证集并不是必须的,因此训练集与测试集的比例一般为8:2。 数据按照来源可分为:公开数据集、自建数据集; 人工智能的快速发展与其开源的氛围密不可分,很多大型的组织和机构都愿意把其最新的研究结果的数据开源,供其他人共同研究、推进学术进步。 比如海外的google dataset search、kaggle、data.gov(美国政府)、各种国内外的比赛赛事主办方会开源数据集、包括有一些专业的公司做公开数据集的聚合业务。 对于自建数据集,分为两部分:一是可以通过互联网进行爬取,另一方面可以进行自行采集,除了组织周围同事进行小规模数据采集、通过已有产品埋点回流数据,也可以通过找专业公司组织大规模的采集。 构建自建数据集,需要产品经理与算法同学一同构建数据集的规格specification,即通过分析拆解目标任务,对数据集的构成进行MECE(互相独立、完全穷尽)的拆解,为了更好的拆解,建议大家可以通过构建思维导图的方式来创建。如图1: 人脸关键点数据集构建要求 构建完成数据集要求后,可以进行数据集的试采,通过试采一个完整的被试者,来预估采集项目的完整周期,如果时间远远超于预期时间,是否可以考虑简化数据集的标准、多采集设备并行又或是减少采集人数规模、将数据采集项目分成两期。 由于对于深度学习需要结构化的数据进行训练,因此我们采集完的数据还要同步进行标注。数据标签种类众多,比如分类、拉框、注释、标记(画点)等等。标注之后的结构化数据输入深度学习模型之中才可以进行训练。 很多同学可能觉得这样的操作前期成本太高了,是否可以不标注就进行训练呢?比如最近大火的自监督学习,自监督学习的核心,在于如何自动为数据产生标签。例如输入一张图片,把图片随机旋转一个角度,然后把旋转后的图片作为输入,随机旋转的角度作为标签。 再例如,把输入的图片均匀分割成3*3的格子,每个格子里面的内容作为一个patch,随机打乱patch的排列顺序,然后用打乱顺序的patch作为输入,正确的排列顺序作为label。类似这种自动产生的标注,完全无需人工参与。 但是目前大部分任务,还是需要人类标注(label)大量数据之后再送给机器进行学习。所以之前很多人提到人工智能中都是“人工”这种说法还是十分正确的。 但其实现在很多互联网数据产生的过程中就自带了标签,比如说近些年很火的图片社交网站Instagram,用户上传图片、视频的同时会增加很多#,#美食 #聚餐 #海滩等等,这些其实就是用户自己手动为图片或者视频打标签的过程,省去了统一再打一次标签的过程,Instagram的后台模型就可以利用每天用户上传分享的海量数据对图片、场景进行分类、检测、识别,甚至模型可以理解这张图片代表了什么,看图说话。 反之亦然,可以根据用户的一句话组织相应的素材,一句话成片,图文成片等。这里便是利用了众包的思想,其实除了社交媒体之外,平常大家登陆网站输入验证码的时候会让大家选择下面哪张图片包含“自行车”?其实也是一个人工标签不断帮助模型训练的过程。类似的思路大家可以借鉴并融入到自己产品的设计中。 2. 算法 首先定义一下人工智能、机器学习和深度学习之间的关系。 机器学习直接来源于早期的人工智能领域,机器学习可以定义为一种实现人工智能的方法,传统的算法包括决策树、聚类、贝叶斯分类、支持向量机、EM、Adaboost等等。从学习方法上来分,机器学习算法可以分为监督学习(如分类问题)、无监督学习(如聚类问题)、半监督学习、集成学

文档评论(0)

150****6040 + 关注
实名认证
文档贡献者

互联网产品运营推广以及k12教育内容。

1亿VIP精品文档

相关文档