如何让机器学习跳读.docVIP

下载本文档

1
0
约8.22千字
约 13页
2019-02-12 发布于未知
举报
版权申诉

如何让机器学习跳读.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

7A版优质实用文档 PAGE PAGE 13 7A版优质实用文档如何让机器学习跳读自然语言处理是人工智能研究的核心问题之一。近日，已宣布被Salesforce收购的深度学习公司MetaMind在其官方网站上发表了一篇文章，深度剖析了LSTM和词袋模型在自然语言处理上的应用。机器学习、深度学习和更广义上的人工智能的兴起是毫无疑问的，而且其已经对计算机科学领域产生巨大的影响。你可能已经听说过，目前深度学习已经在图像识别和围棋等很多任务上实现了对人类的超越。深度学习社区目前将自然语言处理(NLP)看作是下一个研究和应用的前沿。深度学习的一大优势是其进步往往是非常通用的。比如说，使深度学习在一个领域有效的技术往往不需要太多修改就能迁移到另一个领域。更具体而言，为图像和语音识别所开发的构建大规模、高计算成本的深度学习模型的方法也能被用于自然语言处理。最近的最先进的翻译系统就是其中一例，该系统的表现超越了所有以往的系统，但所需的计算机能力也要多得多。这样的高要求的系统能够在真实世界数据中发现偶然出现的非常复杂的模式，但这也让很多人将这样的大规模模型用在各种各样的任务上。这又带来了一个问题：是否所有的任务都具有需要这种模型才能处理的复杂度? 让我们看看一个用于情感分析的在词袋嵌入(bag-of-wordsembeddings)上训练的一个两层多层感知器(twolayeredMLP)的内部情况：一个被称为词袋(bag-of-words)的简单深度学习系统的内部情况，其可以将句子分类为积极的(positive)或消极的(negative)。这张图是来自在一个词袋上的一个2层MLP最后一个隐藏层的一个T-SNE。其中每个数据点对应于一个句子，不同的颜色分别对应于该深度学习系统的预测和真实目标。实线框表示句子的不同语义内容。后面你可以通过一张交互式图表来了解它们。上图中的实线框提供了一些重要的见解。而真实世界数据的难度远不止此，一些句子可以被轻松分类，但另一些却包含了复杂的语义结构。在可以轻松分类的句子的案例中，高容量的系统可能并不是必需的。也许一个简单得多的模型就能完成同样的工作。这篇博客文章探讨了这种情况是否属实，并将说明我们其实往往使用简单模型就能完成任务。一、对文本的深度学习大多数深度学习方法需要浮点数作为输入，如果你没使用过文本，你可能会疑问：我怎么使用一段文本来进行深度学习? 对于文本，其核心问题是在给定材料的长度的情况下如何表征任意大量的信息。一种流行的方法是将文本切分(tokenize)成词(word)、子词(sub-word)甚至字符(character)。然后每一个词都可以通过word2vec或Glove等经过了充分研究的方法而转换成一个浮点向量。这种方法可以通过不同词之前的隐含关系来提高对词的有意义的表征。取一个词，将其转换成一个高维嵌入(比如300维)，然后使用PCA或T-SNE(流行的降维工具，在这个案例中是降为2维)，你就可以找到词之间的有趣关系。比如，在上图中你可以看到uncle与aunt之间的距离和man与woman之间的距离差不多相等(来自Mikolovetal.,20GG) 通过使用tokenization和word2vec方法，我们可以将一段文本转换为词的浮点表示的一个序列。现在，一个词表征的序列有什么用? 二、词袋(bag-of-words) 现在我们来探讨一下词袋(BoW)，这也许是最简单的机器学习算法了! 取一些词表征(图下部的灰色框)，然后通过加(sum)或平均(average)得到一个共同的表征(蓝色框)，这个共同表征(commonrepresentation)包含了每个词的一些信息。在这篇文章中，该共同表征被用于预测一个句子是积极的还是消极的(红色框)。在每个特征维(featuredimension)上简单地取词的平均(mean)。事实证明简单地对词嵌入(wordembedding)进行平均(尽管这完全忽略了句子的顺序)就足以在许多简单的实际案例中取得良好的效果，而且也能在与深度神经网络结合时提供一个强大的基准(后面会解释)。此外，取平均的计算成本很低，而且可以将句子的降维成固定大小的向量。三、循环神经网络一些句子需要很高的准确度或依赖于句子结构。使用词袋来解决这些问题可能不能满足要求。不过，你可以考虑使用让人惊叹的循环神经网络(RecurrentNeuralNetworks)。在每一个时间步骤(从左到右)，一个输入(比如一个词)被馈送入RNN(灰色框)，并整合之前的内部记忆(蓝色框)。然后该RNN执行一些计算，得到新的内部记忆(蓝色框)，该记忆表示了所有之前见过的单元(如，所有之前的词)。该RNN现在应该已经包含了一个句子层面的信息，让其可以更好地预测一