word2vec词向量模型.pptxVIP

下载本文档

7
0
约2.7千字
约 18页
2018-02-03 发布于河北
举报
版权申诉

word2vec词向量模型.pptx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

word2vec词向量模型

词向量模型—Word2Vec 前言计算机老外来访被请吃饭。落座后，一中国人说：“我先去方便一下。”老外不解，被告知“方便”是“上厕所”之意。席间主宾大悦。道别时，另一中国人对老外发出邀请：“我想在你方便的时候也请你吃饭。”老外愣了，那人接着说： “如果你最近不方便的话，咱找个你我都方便的时候一起吃。人类 VS 1 2 3 基本概念模型与方法实际应用目录词向量自然语言中的词语在机器学习中的表示符号 One-Hot Representation 例如： “话筒”表示为：[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, …] “麦克”表示为：[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, …] 实现时可以用0,1,2,3等对词语进行计算，这样的“话筒”可以用4表示，麦克可以用10表示问题：维度很大，当词汇较多时，可能会达到百万维，造成维度灾难词汇鸿沟：任意两个词之间都是孤立的，不能体现词与词之间的关系。词向量 Distributional Representation 将词表示为 [0.793, -0.177, -0.107, 0.109, 0.542, …]的矩阵，通常该类矩阵设置为50维或100维通过计算向量之间的距离，来体现词与词之间的相似性，解决词汇鸿沟的问题实现时可以用0,1,2,3等对词语进行计算，这样的“话筒”可以用4表示，麦克可以用10表示如何训练：没有直接的模型可以训练得到可以在训练语言模型的同时，得到词向量。语言模型判断一句话是不是正常人说出来的给定一个字符串”w1, w2, w3, w4, … , wt”,计算它是自然语言的概率、 P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1) P(大家，喜欢，吃，苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃) p(大家)表示“大家”这个词在语料库里面出现的概率； p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率; p(吃|大家，喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率； p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。把这些概率连乘起来，得到的就是这句话平时出现的概率。如果这个概率特别低，说明这句话不常出现，那么就不算是一句自然语言，因为在语料库里面很少出现。如果出现的概率高，就说明是一句自然语言。常用的语言模型都是在近似地求 P(wt|w1,w2,…,wt−1)。比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1) 近似表示前者。 N-pos 先对词进行了词性分类 1 2 3 模型与方法基本概念实际应用目录 Word2Vec Google的Mikolov在2013年推出了一款计算词向量的工具 word2vec作为神经概率语言模型的输入，其本身其实是神经概率模型的副产品，是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说，“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negative Sampling。 CBOW：Continuous Bag-of-Words Skip-Gram：Continuous Skip-Gram Model Hierarchical Softmax Negative Sampling 两个语言模型两种优化方法 CBOW and Skip-Gram 初始化值是零向量，叶节点对应的单词的词向量是随机初始化的。 CBOW 的目标是根据上下文来预测当前词语的概率Skip-Gram恰好相反，它是根据当前词语来预测上下文的概率。这两种方法都利用人工神经网络作为它们的分类算法。起初，每个单词都是一个随机 N 维向量，经过训练之后，利用 CBOW 或者 Skip-Gram方法获得每个单词的最优向量。 CBOW模型结构输入层是上下文的词语的词向量，是CBOW模型的一个参数。训练开始的时候，词向量是个随机值，随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。 O(|V|) 时间复杂度： O(log2(|V|)) CBOW模型结构——霍夫曼树在训练阶段，当给定一个上下文，要预测词(Wn)的时候，实际上知道要的是哪个词(Wn)，而Wn是肯定存在于二叉树的叶子节点的，因此它必然有一个二进制编号，如“010011”，那么接下来我们就从二叉树的根节点一个