人工智能创新实验教程 课件 第16章 循环神经网络.pptx

人工智能创新实验教程 课件 第16章 循环神经网络.pptx

  1. 1、本文档共29页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

宁夏大学循环神经网络第16章

循环神经网络2目录

CONTENT01引言02算法概述03实验数据04算法实战05本章小结

01引言

引言在前面的文章中,我们介绍了感知机算法和卷积神经网络,它们在处理输入数据时都只能处理单个输入,即前一个输入与后一个输入是完全没有关系的。但许多任务需要处理序列信息,即输入前后关联,例如当理解一句话的意思时,孤立的理解这句话中的每个词是不够的,我们需要处理这些词连接起来的整个序列;当我们处理视频时,也不能孤立的去分析视频的每一帧,而要分析这些帧连接起来的整个序列。这时就需要使用深度学习领域另一类非常重要的神经网络:循环神经网络(RecurrentNeuralNetwork,RNN)。循环神经网络是为更好地处理时序信息而设计的,它引入状态变量来存储过去的信息,并用其与当前的输入共同决定当前的输出。因为本章应用是基于语言模型的,因此我们将先介绍语言模型的基本概念,并由此引入循环神经网络的算法原理,之后我们将拓展循环神经网络的架构,最后,我们通过股票价格预测算法来进一步了解循环神经网络的应用。

02算法概述

算法概述6语言模型语言模型是自然语言处理领域的重要技术,而循环神经网络最先应用于该领域,例如其可以为语言模型建模。语言模型可用于提升语音识别和机器翻译的性能。例如,我们可以和电脑玩一个游戏,我们写出一句话的前面一些词,然后让电脑帮我们补全接下来的词。比如下面这句:我们给电脑展示了这句话前面的这些词,然后我们希望电脑写接下来的一个词。在这个例子中,接下来这个词最有可能是“我”,而不太可能是“李华”,甚至是“语文”。语言模型就是这样一种模型,它可以在给定一句话前半部分的情况下预测接下来一个词是什么,它有许多用处。在RNN问世之前,语言模型主要是采用N-Gram。N是一个自然数,比如2或者3。它的含义是,假设一个词出现的概率只与前面N个词相关。我们以2-Gram为例。首先,对前面的一句话进行切词:如果用2-Gram进行建模,那么电脑在预测的时候,只会看到前面的“了”,然后,电脑会在语料库中,搜索“了”后面最可能的一个词。不管最后电脑选的是不是“我”,我们都知道这个模型是不靠谱的,因为“了”前面的内容实际上没有用到。如果使用3-Gram模型,会搜索“批评了”后面最可能的词,但还是远远不够。因为这句话最关键的信息“我”在9个词之前。因为我们要处理任意长度的句子,所以N设为多少都不合适;另外,模型的大小和N的关系是指数级的,4-Gram模型就会占用海量的存储空间。为解决这一问题,提出了循环神经网络,理论上循环神经网络可以考虑前(后)任意多个词。

算法概述7循环神经网络原理将图1展开,循环神经网络如图2所示:图1图2(1)(2)??

算法概述8循环神经网络原理

算法概述9双向循环神经网络对于语言模型来说,很多时候只看前面的词进行预测会遇到困难,例如下面这句话:图3??????

算法概述10循环神经网络的训练算法图4

算法概述11循环神经网络的训练算法

算法概述12循环神经网络的训练算法新增加的状态c成为单元状态(cellstate),将左图按照时间维度展开:

算法概述13循环神经网络的训练算法

算法概述14循环神经网络的训练算法遗忘门计算方法图

算法概述15循环神经网络的训练算法

算法概述16循环神经网络的训练算法

算法概述17循环神经网络的训练算法

03实验数据

实验数据19数据准备本实验选取纽约证券交易所股票数据作为数据集,该数据集可以从如下网址进行下载/raoulma/ny-stock-price-prediction-rnn-lstm-gru/data?select=prices-split-adjusted.csv,该数据集选取了2010-2016六年间部分日期进行数据采集,共采集501种股票总计851265条数据。数据样本如表1所示,每条数据由7项组成,第一项是数据采集日期,第二项是股票的英文名称代码,第三项是开盘价,第四项是收盘价,第五项是最低价,第六项是最高价,第七项是当日交易量。datesymbolopencloselowhighvolume2010/1/4AAPL30.4930.5730.3430.641234324002010/1/4ABC26.2926.6326.1426.6924559002010/1/4ACN41.5242.0741.542.236501002010/1/4ADBE36.6537.0936.65371纽约证券交易所股票数据本实验以tensorflow作为框架,考虑到版本兼容问题,推荐下载2.0以下版本的tensorflow,其它需要用到的库函数如右所示:

实验数据20数据分析完成数据准备工作后进行数据分析,首先导入数据集,

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档