自然语言处理工程化全景图解析.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

自然语言处理工程化全景图解析

背景

随着科技快速进入AI时代,机器学习,自然语言处理(NLP),计算机视觉,推荐系统等主

流的应用方向都已在多个行业陆续落地。现阶段恒生已在研发中心成立AI算法团队,该算

法团队除了具备算法平台搭建,承接各业务部门的算法需求的能力,还具备支持输出模型训

练算力,算法研究与工程化落地等重要职责。

今天,就和大家重点聊一聊自然语言处理工程化中的各流程实现。

一、NLP工程化全景图

图1自然语言处理工程化全景图

图1充分展示了自然语言处理工程化中的各个流程模块,依次包括:1.业务场景分析2.数

据获取3.数据预处理4.特征工程5.建模与训练6.模型评估7.模型部署与管理8.模型

性能与监控等。文章从这几个维度依次展开解析。

1.业务场景分析

AI算法要想实现价值,首先要着眼于场景。任何丢开场景的算法都只能是算法本身。从

场景出发,通过对业务需求的分析,明确其所要解决的问题,作为抽象建模的基础。

对建模的方向确定后,要展开对该模型方案的技术调研,对比各方案并择优选择方案,

当然这其中也需要对选定方案进行可行性分析。

2.数据获取

在AI时代,算法模型的训练需要大量的数据。所以谁能掌握更多的数据,谁则占据先

机。数据的获取主要来之以下几个途径:业务数据,开源数据集,自建数据,爬取数据

等。针对NLP领域中各个特定的算法场景,标注工程师需要对数据进行不同程度,不同

方式的标注,只有被正确标注的数据才是有价值的数据。

3.数据预处理

数据预处理这个环节,在几乎所有的AI算法或者应用场景中,都会有所应用,因为原始

数据并不能直接用于模型训练。常见的文本领域的数据预处理方法包括,文本清洗,文

本消歧,文本纠错与分词,降维等。除此之外,还包括去停用词,词干还原与提取(主

要适用于英文)等。对于预处理好的文本,通常需要对数据切分得到训练集,验证集和

测试集。训练集主要用模型训练,验证集主要用于新训练模型性能的及时验证,测试集

用于最终模型性能的评价。

4.特征工程

图2三维特征图

在算法模型建模的过程中,特征工程是绕不过的一道坎。

文本领域常见的特征有词频,N元信息,TF-IDF值等,这些特征常见于文本分类任务。

除此之外,每个词在不同的语言环境中表现出不同的含义,这种不同含义的表达正是通

过词向量来刻画的。

词向量一般被定义为一个1乘N维的长向量,N表示特征的个数,每个特征上有一个0

到1之间的权重,这个权重表示了该特征在刻画整个词向量过程中所占的努力或所占的

比例。除了上述提到的特征外,人类在说话或者描述问题的过程中所使用的前后词语之

间都具备较高的逻辑性和连续性,这种连续性则表现出较高的时序性。说的简单一点是

词语之间是按照时间的先后顺序产生的。所以,时序特征也是NLP领域非常重要的特

征,这个特征在情感分析理解上下文语义的场景中用处广泛。

5.建模与训练

这个部分可分为建模部分和训练部分。

建模部分则侧重于模型的选择,也就是常说的选型。针对无监督学习任务,常见的有聚

类模型有KNN等;如果是监督学习任务,比如文本分类,会用到机器学习领域的朴树

贝叶斯,支持向量机,随机森林等,还可选择深度学习领域的卷积神经网络,循环神经

网络等。

对于命名实体识别(NER)任务,常用到概率图模型:隐马尔科夫模型(HMM),条件随机

场(CRF),以及深度学习模型配合概率图模型的组合方式,如:BILSTM+CRF,BERT+

BILSTM+CRF等。

这里的预训练模型指的是,利用预训练好的词向量或者预训练好的模型如BERT,配合

其他的模型完成对下游任务的承接。

6.模型评估

这里提到的模型评估,指的是算法工程师离线评价模型。

模型建立后,算法工程师需在测试集上考察并评价模型的泛化能力。

对于分类问题的模型评价指标有准确率,精确率和召回率,F1值等。需要指出的是,当

样本数量存在倾斜时,准确率则不再是可靠的性能指标,常见的案例有癌症预测。

对于回归问题的模

文档评论(0)

135****8957 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档