- 1、本文档共54页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
序列生成模型《神经网络与深度学习》2025
序列数据在深度学习的应用中,有很多数据是以序列的形式存在,比如声音、语言、视频、DNA序列或者其它的时序数据等。
序列数据的潜在规律以自然语言为例,后一个句子在人脑的语义整合时需要更多的处理时间,更不符合自然语言规则。规则是什么?
语言模型自然语言理解→一个句子的可能性/合理性!在报那猫告做只那只猫在作报告!那个人在作报告!一切都是概率!
序列概率模型?
序列概率模型?
序列概率模型?
序列概率模型?
自回归生成模型在这种序列模型方式中,每一步都需要将前面的输出作为当前步的输入,是一种自回归(autoregressive)的方式。自回归生成模型(AutoregressiveGenerativeModel)
序列生成自回归生成模型(AutoregressiveGenerativeModel)非自回归生成模型同时生成所有词
序列生成机习器学eos$自回归的方式可以生成一个无限长度的序列。为了避免这种情况,通常会设置一个特殊的符号“eos”来表示序列的结束。在训练时,每个序列样本的结尾都加上符号“eos”。在测试时,一旦生成了符号“eos”,就中止生成过程。
生成最可能序列当使用自回归模型生成一个最可能的序列时,生成过程是一种从左到右的贪婪式搜索过程。在每一步都生成最可能的词。这种贪婪式的搜索方式是次优的,生成的序列并不保证是全局最优的。
束搜索一种常用的减少搜索错误的启发式方法是束搜索(BeamSearch)。在每一步的生成中,生成K个最可能的前缀序列,其中K为束的大小(BeamSize),是一个超参数。
N元统计模型
平滑技术N元模型的一个主要问题是数据稀疏问题。数据稀疏问题的一种解决方法是平滑技术(Smoothing),即给一些没有出现的词组合赋予一定先验概率。平滑技术是N元模型中的一项必不可少的技术,比如加法平滑的计算公式为:δ=1时,称为加1平滑。
深度序列模型深度序列模型一般可以分为三个部分:嵌入层、特征层、输出层。
嵌入层
词嵌入(WordEmbeddings)https://indico.io/blog/visualizing-with-t-sne/上海北京高兴难过
特征层特征层可以通过不同类型的神经网络来实现,比如前馈神经网络和循环神经网络。常见的网络类型有以下三种:简单平均前馈神经网络循环神经网络
特征层:简单平均历史信息的平均
特征层:前馈神经网络
特征层:循环网络前馈网络模型和循环网络模型的不同之处在于循环神经网络利用隐藏状态来记录以前所有时刻的信息,而前馈神经网络只能接受前n?1个时刻的信息。
输出层输出层为一般使用softmax分类器,接受历史信息的向量表示,输出为词表中每个词的后验概率。
评价方法
困惑度困惑度(Perplexity)是信息论的一个概念,可以用来衡量一个分布的不确定性。给定一个测试文本集合,一个好的序列生成模型应该使得测试集合中的句子的联合概率尽可能高。困惑度可以衡量模型分布与样本经验分布之间的契合程度。困惑度越低则两个分布越接近。
困惑度
BLEUBLEU(BilingualEvaluationUnderstudy)是衡量模型生成序列和参考序列之间的N元词组(N-Gram)的重合度,最早用来评价机器翻译模型的质量,目前也广泛应用在各种序列生成任务中。
BLEU
ROUGEROUGE(Recall-OrientedUnderstudyforGistingEvaluation)最早应用于文本摘要领域。和BLEU类似,但ROUGE计算的是召回率(Recall)。
序列到序列模型
序列到序列模型
序列到序列模型
基于循环神经网络的序列到序列模型
基于前馈神经网络的序列到序列模型
基于注意力的序列到序列模型
基于卷积神经网络的序列到序列模型
基于自注意力的序列到序列模型
回顾:注意力模型??
回顾:自注意力基于自注意力的全连接神经网络?也可以看作是一种全连接的图神经网络
回顾:自注意力示例图片来源:http://fuyw.top/NLP_02_QANet/
QKV模式(Query-Key-Value)图片来源:http://jalammar.github.io/illustrated-transformer/ThinksMachinesThinksMachinesThinksMachines
多头(multi-head)自注意力模型图片来源:http://jalammar.github.io/illustrated-transformer/
Transformer
Transformer
基于Transformer的序列到序列模型
其它应用
文本摘要/2017/04/16/taming-rnns-for-
企业信息管理师持证人
新能源集控中心项目 智慧电厂建设项目 智慧光伏 智慧水电 智慧燃机 智慧工地 智慧城市 数据中心 电力行业信息化
文档评论(0)