- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
认知系统为构建有强大的智能作为支撑的新型应用程序提供了绝佳
认知系统为构建有强大的智能作为支撑的新型应用程序提供了绝佳机会。这些新应用程序需要用一种新方式来思考开发流程。DevOps 概念增强了传统的应用程序开发,它将运营考虑因素融入到了开发时间、执行和流程中。在本教程中,我们将概述一种“认知 DevOps”流程,该流程改进和调整 DevOps 的最佳部分,以获得新的认知应用程序。具体来讲,我们将介绍如何对认知系统的训练流程应用 DevOps,包括训练数据、建模和性能评估。
认知任务类型
从根本上讲,认知或人工智能 (AI) 系统具有从数据中理解、推理和学习的能力。从更深层次讲,该系统建立在各种不同类型认知任务的组合的基础上,这些任务组合在一起后,构成了整个认知应用程序的一部分。这些任务包括:
实体提取
段落检索
文本分类
语调和情绪检测
知识提取
语言翻译
语音转录
计算机视觉
图 1. 认知任务
认知系统所基于的科学包括但不限于机器学习 (ML),机器学习包括深度学习和自然语言处理。这些组件能表现出认知系统的一种或多种能力(比如理解、推理、学习和交互)。这些认知系统利用来自内部、第三方、购买的和开源的结构化和非结构化数据,发掘可操作的洞察和知识。
与容易在数据库中组织和筛选的结构化数据不同,从传统上讲,非结构化数据需要人来理解。非结构化数据的示例包括用自然语言编写的文档、录音、图像,甚至是社交媒体文章等。这些类型的(非结构化)数据是我们在企业中每天处理的数据,包括研究报告、贷款文件、备忘录、呼叫中心录音或产品评论。
图 2. 企业内外的各种类型的非结构化数据
这些认知或 AI 系统的训练采用监督学习技术,其中含有由一位或多位主题专家 (SME) 创建的标签化事实库。事实库代表着各个学习算法要符合或适应的“黄金标准”数据。创建事实库的过程对训练和测试认知系统非常重要。作为事实库创建流程的一部分,特征工程步骤也会并行执行。使用基于深度学习的方法或使用和训练来自 IBM Watson 的平台 API 时,会基于事实库为您自动选择特征。
训练并部署模型和系统后,不一定意味着工作完成了。认知系统必须保持最新,不断从新的数据观察结果和交互中学习。除了添加更多训练数据之外,您可能还要修改 AI 系统所使用的代码和模型。您将以假设的形式创建新的机器学习特征。一些假设将会实现,另一些则不会实现。这是一个需要试错的迭代式流程。
机器学习
传统上,计算机是通过显式编码一组计算机需要执行的步骤来控制的:例如,“如果 A 0,则执行 X”。我们将执行某个特定任务的一组逻辑步骤称为一个算法。大部分软件都是以这种方式创建的。
对这组步骤进行编码类似于教人完成执行某个任务要遵循的过程。例如,可以教一个人发牌,告诉他从一副牌顶部一次发一张牌,从左侧开始沿顺时针方向摆放,直到发完所有牌。尽管可以通过口头命令教会人类这些步骤,但计算机需要使用某种编程语言来编码它们的步骤。尽管随着时间的推移,编程语言变得越来越高级且更容易使用,但它们仍然需要熟悉软件开发的人来实现。
另一种教计算机执行任务的方法是使用机器学习 (ML)。ML 解决问题的方式是使用一组示例(事实库)来训练计算机执行某项任务,而不是使用一组步骤。这类似于人学习认识动物的方式。我们可以向小孩展示多张狗的照片,他很快就会学会识别一只狗。同样地,我们可以通过一组示例训练计算机来识别狗。
像传统编程一样,机器学习在过去属于计算机和数据科学家的领域。尽管 ML 的某些部分最好仍然留给计算机科学家解决,但某些特定机器学习领域在用户界面上的最新改进,使得主题专家也能训练系统。这样的用户界面的一个示例是 Watson Knowledge Studio,它是专为供(熟悉语言结构的)主题专家和肿瘤医师使用而设计的。通过使用 ML,这些人能与软件工程师协作构建认知系统。
开发认知应用程序的最重要方面是训练数据的可用性。训练一个认知系统所需的训练数据量取决于多种因素。其中最重要的两种因素是数据可变性和想要的准确率水平。主题专家是创建训练数据的最适合人选,因为他们最熟悉该主题。
训练生命周期
为了理解训练 AI 系统的生命周期,我们将考虑 Cross-Industry Standard Process for Data Mining (CRISP-DM)。CRISP-DM 提供了一种标准化的方法,我们可以采用该方法来创建支持和构成认知系统的各种类型的模型。生命周期模型(参见下图)包含 6 个阶段,箭头表明了各个阶段之间最重要和最频繁的依赖关系。阶段的顺序不必那么严格。根据 AI 任务或工作负载的类型,训练细节和步骤可能会有所不同,但基本原理和整体阶段保持不变。
图 3. CRISP-DM 生命周期模型
该流程的另一个大体视图类似于下图。在此流程中,我们提供了监控和采集周期中的反馈的
文档评论(0)