小数据人工智能的巨大潜力（2022年）.docx

下载文档 降价啦

7
0
约8.4千字
约 24页
2022-06-14 发布于北京
举报
版权申诉
保障服务

小数据人工智能的巨大潜力（2022年）.docx

此“经济”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共24页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

- - PAGE 1 - 2022 年 5 月 5 日第 14 期总第 533 期小数据人工智能的巨大潜力【译者按】2021 年 9 月，美国安全与新兴技术研究中心（CSET）发布《小数据人工智能的巨大潜力》报告。报告认为，人工智能不完全依赖大数据，“小数据”方法可以针对标记数据不足的情况提供替代性解决方案，拥有巨大人工智能潜力。报告介绍了迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习五类小数据方法，分析了各类方法在人工智能应用方面的优势，并通过对论文研究集群的统计分析探究了小数据方法研究进展、领先国家相关领域竞争力分析及研究资金投入情况。赛迪智库信息化与软件产业研究所对报告进行了编译，期望对我国有关部门有所帮助。【关键词】人工智能小数据传统观点认为，尖端人工智能依赖于大量数据，一个国家（或企业）能够获取的数据量是其人工智能进展的关键指标。当前很多人工智能系统确实使用了大量数据，然而，并非所有人工智能系统都需要海量数据作为支撑，小数据也拥有巨大人工智能潜力。为此，本文介绍并概述了“小数据”人工智能方法，该方法有助于解决标记数据不足的问题，进而挖掘数据潜能，并鼓励政府部门、行业企业突破大数据基础设施局限，实现人工智能创新。一、“小数据”方法的分类本研究将“小数据”方法分为了五大类：迁移学习、数据标记、人工数据生成、贝叶斯方法以及强化学习。在没有大型预标记数据集的情况下，可以利用这些方法训练人工智能系统。迁移学习（Transfer learning）是一种机器学习方法，可以在数据丰富的环境中学习执行任务，而后将所学知识“迁移”到可用数据少的任务中。这一方法对于解决关联问题标记数据丰富但所研究问题数据不足的情况有很大价值。例如，某人在开发用于识别稀有鸟类品种的应用程序时，可能只有少量鸟类照片。利用迁移学习，可以首先使用更大、更通用的图像数据库训练基本图像分类器，一旦该分类器能够区分狗与猫、花与水果、麻雀与燕子，研究人员就可以为该分类器提供更小的稀有鸟类数据集。然后，该模型可以“迁移”其已知的图像分类知识，利用这些知识从更少的数据中学习识别稀有鸟类。数据标记（Data labeling）方法，即从有限的标记数据和大量无标记数据开始，使用一系列方法来理解可用的未标记数据。例如自动生成标记（自动标记）或识别标记重要数据点（主动学习）。例如，主动学习可被用于皮肤癌诊断的相关研究。研究人员基于已进行皮肤癌或健康皮肤标记的 100 张照片，进行图像分类模型的最初训练。然后，为模型提供更大的潜在训练图像集，从中选择另外 100 张照片进行标记并添加到训练数据中。同时，为了尽可能多地从可用数据中学习，该模型可以基于照片信息含量进行附加照片选择，自行选择信息更丰富的照片进行标记。人工数据生成（Artificial data generation）方法，旨在通过创建新数据点或其他相关技术，最大限度地从少量数据中提取更多信息。该方法可以通过对现有数据的小幅更改（如图像分类数据集中裁剪或旋转图像）或其他更复杂的方法，推断可用数据的基础结构并从中进行推测。例如，计算机视觉研究人员利用计算机辅助设计（CAD）软件生成常见物体的逼真 3D 图像，并使用这些图像扩充现有的图像数据集。这种方法在处理有关重点数据的单独信息源时，相比其他方法更为切实可行。同时，这种生成更多数据的能力不仅仅可用于处理小数据集。如果单个数据的细节为敏感信息（例如，个人的健康记录），但研究人员对数据的整体分布很感兴趣，则可以使用合成数据对数据进行随机更改，以掩盖私人信息。贝叶斯方法（Bayesian methods）是机器学习和统计学的一种大类方法，有两个共同特点。首先，该方法明确地将问题先验信息纳入其解决问题的方法中，而其他方法则更倾向于对研究问题做出最少的假设。贝叶斯方法会在数据进一步改进之前合并这些“先验”信息，因此更适合某些数据较为缺乏，但可以采取实用数学形式写出问题相关信息的环境。其次，贝叶斯方法侧重于对其预测的不确定性进行良好校准后的估计。该方法可以更容易地识别数据点，从而极大减少不确定性，在可用数据有限的情况下能发挥很大作用。例如，贝叶斯方法已被用于监测全球地震活动，这对于检测地震和验证核条约十分重要。通过开发一个模型，结合有关地震学的先验知识，研究人员可以充分利用可用数据改进模型。此外，贝叶斯方法还包括处理大型数据集的其他方法。强化学习（Reinforcement learning）是一个关于机器学习方法的广义术语，在强化学习中，计算机系统通过反复试验来学习如何与环境进行交互。强化学习通常用于训练游戏系统、机器人和自动驾驶汽车。例如，强化学习已被用于训练学习玩视频游戏的人工智能系统，从简单的街机游戏