- 3
- 0
- 约1.69千字
- 约 42页
- 2024-06-14 发布于江苏
- 举报
LSTM神经网络在自然语言处理中的应用;;机器学习背景概述;年,GeoffreyHinton在科学杂志《Science》上刊登了一篇文章,论证了两个观点:
1.多隐层的神经网络具有优秀的特性学习能力,学习得到的特性对数据有更本质的刻画,从而有助于可视化或分类。
2.深度神经网络在训练上的难度,可以通过“逐层初始化”来有效克服。
启动了深度学习在学术界和工业界的浪潮,受到从学术界到工业界的广泛重视。
导致了“大数据+深度模型”时代的来临;AndrewNg。中文名吴恩达,斯坦福大学副专家,如今也是“百度大脑”的负责人与百度首席科学家。;人工智能是机器学习的父类。
深度学习则是机器学习的子类。;语音识别=语音处理+机器学习。;;情绪分析(SentimentAnalysis);权重和偏置项b对输入信号进行线性变换。而激活函数对该信号进行非线性变换,
这使得我们可以任意学习输入与输出之间的复杂变换;神经网络一般有输入层-隐藏层-输出层,一般来说隐藏层不小于2的神经网络就叫做深度神经网络,深度学习就是采用像深度神经网络这种深层架构的一种机器学习措施;监督学习,通过已经有的训练样本(即已知数据以及其对应的输出)去训练得到一种最优模型。
再运用这个模型将所有的输入映射为对应的输出,对输出进行简朴的判断从而实现分类的目的,也就具有了对未知数据进行分类的能力。;
;LSTM神经网络在自然语言中的应用;;将每一种词转换成向量,用词向量作为输入数据。;词向量不仅表达目前单词,并且可以表达上下文意义。;;这个模型的作用就是从一大堆句子中为每个独一无二的单词进行建模,
并且输出一种唯一的向量。Word2Vec模型的输出被称为一种词向量矩阵。;输出数据是一种10*50的词矩阵,其中包括10个词,每个词的向量维度是50;;;;;这些权重矩阵的大小不仅受目前向量的影响,还受前面隐藏层的影响。
举个例子,观测上面的式子,h(t)?的大小将会伴随?W(x)?和?W(H)?的大小而变化。
让我们来看一种迅速例子。当?W(H)?非常大,W(X)?非常小的时候,
我们懂得?h(t)?受?h(t-1)?的影响比?x(t)?的影响大。换句话说,
目前的隐藏状态向量更关怀前面??子的一种总和,而不是目前的一种句子。;;;;;?LSTM?单元,该单元根据输入数据?x(t)?,隐藏层输出?h(t)?。;;模型优化;欠拟合:偏差大,偏离事实;.模型具有低灵活性?和低复杂度;欠拟合(underfiting/highbias)
训练误差和验证误差都很大,这种状况称为欠拟合。
出现欠拟合的原因是模型尚未学习到数据的真实构造。
处理措施
1、增长模型复杂度。假如模型太简朴,不可以应对复杂的任务。
2、使用更复杂的模型,减小正则化系数。;过拟合(overfiting/highvariance)
假如要问机器学习中最常见的问题,八成的也许是‘过拟合’。模型在训练集上体现很好,
不过在验证集上却不能保持精确,也就是模型泛化能力很差。?
模拟过拟合的原因:
1、训练数据集样本单一,样本局限性。训练样本要尽量的全面,覆盖所有的数据类型。
2、训练数据中噪声干扰过大。噪声指训练数据中的干扰数据。
3、模型过于复杂。泛化能力太差。模型太复杂是过拟合的重要原因。;针对过拟合的上述原因,对应的防止和处理措施如下:
1、增长样本,要覆盖所有的数据类型。
2、清洗数据再进行模型训练,防止噪声数据干扰模型。
2、正则化。在模型算法中添加惩罚函数来防止过拟合。常见的有L1,L2正则化。
3、对于深度学习还可以采用dropout,batchnormalization,earlystop等措施。
4、集成学习措施bagging(如随机森林)能有效防止过拟合?;采用正则化措施。正则化措施包括L0正则、L1正则和L2正则。在机器学习中一般使用L2正则
采用dropout措施:dropout措施在训练的时候让神经元以一定的概率不工作;;道谢|Thank!;
原创力文档

文档评论(0)