[AI工具宝典]AI产品经理必懂的硬知识（一）：应用领域篇.pdfVIP

下载本文档

5
0
约9.66千字
约 13页
2024-07-18 发布于上海
举报
版权申诉

[AI工具宝典]AI产品经理必懂的硬知识（一）：应用领域篇.pdf

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

文章主要针对AI目前在各个比较热门领域的应用现状展开了梳理与分析，包含：计算机

视觉、语音交互、自然语言处理和典型AI场景四个方面，与大家分享。

大家好，我是方舟，接下来我会出一个硬核知识系列，共三篇《AI产品经理必懂的硬知识

》，从应用领域、常见概念与算法、自我进阶三个方面去阐述，这个系列算是榨干了我多

个笔记。第一篇咱们就来谈谈目前各个主流应用领域的现状吧。有读者反应我的文章过于

“干货”，实在太长，要分好几次看完，列个提纲吧。

一、计算机视觉（CV）二、语音交互（1）语音识别（ASR）（2）语音合成（TTS）

三、自然语言处理（NLP）四、典型AI场景（1）智能机器人（2）无人驾驶（3）人

脸识别（非手机端）（4）视觉设计（手机端）（5）自动文字编辑

一、计算机视觉（CV）

计算机视觉是一门研究如何使机器“看”的科学，就是指用摄影机和计算机代替人眼对目

标进行识别、跟踪和测量等机器视觉的应用，是使用计算机及相关设备对生物视觉的一种

模拟，对采集的图片或视频进行处理从而获得相应场景的三维信息，让计算机具有对周围

世界的空间物体进行传感、抽象、判断的能力。

计算机视觉在现实场景中应用价值主要体现在可以利用计算机对图像和视频的识别能力，

替代部分人力工作，节省人力成本并提升工作效率。传统的计算机视觉基本遵循图像预处

理、提取特征、建模、输出的流程，不过利用深度学习，很多问题可以直接采用端到端，

从输入到输出一气呵成。

1.研究内容

实际应用中采集到的图像的质量通常都没有实验室数据那么理想，光照条件不理想，采集

图像模糊等都是实际应用中常见的问题。所以首先需要校正成像过程中，系统引进的光度

学和几何学的畸变，抑制和去除成像过程中引进的噪声，这些统称为图像的恢复。对输

入的原始图像进行预处理，这一过程利用了大量的图像处理技术和算法，如：图像滤波、

图像增强、边缘检测等，以便从图像中抽取诸如角点、边缘、线条、边界以及色彩等关于

场景的基本特征；这一过程还包含了各种图像变换（如：校正）、图像纹理检测、图像运

动检测等。根据抽取的特征信息把反映三维客体的各个图象基元，如：轮廓、线条、纹

理、边缘、边界、物体的各个面等从图象中分离出来，并且建立起各个基元之间的拓朴学

上的和几何学上的关系——称之基元的分割和关系的确定。计算机根据事先存贮在数据

库中的预知识模型，识别出各个基元或某些基元组合所代表的客观世界中的某些实体——

称之为模型匹配，以及根据图象中各基元之间的关系，在预知识的指导下得出图象所代表

的实际景物的含义,得出图象的解释或描述。

2.瓶颈

目前在实际应用中采集到的数据还是不够理想，光照条件、物体表面光泽、摄像机和空间

位置变化都会影响数据质量，虽然可以利用算法弥补，但是很多情况下信息缺失无法利用

算法来解决。在一幅或多幅平面图像中提取深度信息或表面倾斜信息并不是件容易的事

，尤其是在灰度失真、几何失真还有干扰的情况下求取多幅图像之间的对应特征更是一个

难点。除了得到物体的三维信息外，在现实世界里，物体间相互遮挡，自身各部位间的遮

挡使得图像分拆更加复杂。预知识设置的不同也使得同样的图像也会产生不同的识别结

果，预知识在视觉系统中起着相当重要的作用。在预知识库中存放着各种实际可能遇到的

物体的知识模型，和实际景物中各种物体之间的约束关系。计算机的作用是根据被分析的

图象中的各基元及其关系，利用预知识作为指导，通过匹配、搜索和推理等手段，最终得

到对图象的描述。在整个过程中预知识时刻提供处理的样板和证据，每一步的处理结果随

时同预知识进行对比，所以预知识设置会对图像识别结果产生极大影响。

由于笔者本人是专门做AICV这个方向产品的，因此未来的文章中关于CV的知识以及

CV实际项目都会涉及很多。在之后的文章里针对视觉识别，特别是视觉识别里面的明星

应用人脸识别，我会很深入的去探讨。其中人脸识别中所涉及的很多AI产品实现细节的

拆解，从成像、预处理、算力估算到检测、多目标、跟踪、分割、识别、算法精度测试模

块，如果弄懂弄透，再将这一块体系延伸到车辆、动物等其他视觉类项目，基本原理都是

类似的，可谓一通百通。

二、语音交互

语音交互也是非常热门的方向之一，其实语音交互整个流程里包含语音识别、自然语言处

理和语音合成。自然语言处理很多时候是作为单独的一个领域来研究的，所以这里暂且不

展开，本文也将单

您可能关注的文档

文档评论（0）

LOONG + 关注: 实名认证

文档贡献者

三步一卡，卡的潇洒；五步一停，摆个造型。

咨询Ta 进入空间

1亿VIP精品文档

更多 >

[AI工具宝典]AI产品经理必懂的硬知识（一）：应用领域篇.pdfVIP