word2vec 词向量工具.pdf

  1. 1、本文档共23页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
word2vec 词向量工具

Deep Learning 实战之word2vec 邓澍军、陆光明、夏龙 网易有道 2014.02.27 目录 一、什么是word2vec ?2 二、快速入门3 三、作者八卦4 四、背景知识5 4.1 词向量5 4.2 统计语言模型5 4.3 NNLM 7 4.4 其他NNLM 9 4.5 Log-Linear 模型9 4.6 Log-Bilinear 模型10 4.6 层次化Log-Bilinear 模型10 五、模型11 5.1 CBOW 11 5.2 Skip-Gram 13 5.3 为什么要使用Hierarchical Softmax 或Negative Sampling16 六、Tricks17 6.1 指数运算17 6.2 按word 分布随机抽样18 6.3 哈希编码20 6.4 随机数20 6.5 回车符20 6.6 高频词亚采样21 七、分布式实现21 八、总结22 参考代码22 参考文献23 前言: Deep Learning 已经很火了,本文作者算是后知后觉者,主要原因是作者的目 前工作是广告点击率预测,而之前听说Deep Learning 最大的突破还是在图像语 音领域,而在NLP 和在线广告点击预测方面的突破还不够大。但后来听说Google 开源的word2vec 还挺有意思,能够把词映射到K 维向量空间,甚至词与词之间 的 向量操作还能和语义相对应。如果换个思路,把词当做feature ,那么 word2vec 就可以把feature 映射到K 维向量空间,应该可以为现有模型提供更多的有用信 息,基于这个出发点,作者对word2vec 的相关代码和算法做了相关调研,本文 就是作者关于word2vec 调研的总结,也是作为自己以后备用。存在疏漏之处, 欢迎大家反馈:shujun_deng@163.com 。 本文所有讨论都是基于word2vec 以下版本的代码: 一、什么是word2vec ? word2vec 是Google 在2013 年年中开源的一款将词表征为实数值向量的高效 工具,采用的模型有CBOW (Continuous Bag-Of-Words,即连续的词袋模型)和 Skip-Gram 两种。word2vec 代码链接为:/p/word2vec/ , 遵循Apache License 2.0 开源协议,是一种对商业应用友好的许可,当然需要充 分尊重原作者的著作权。 word2vec 一般被外界认为是一个Deep Learning (深度学习)的模型,究其原 因,可能和word2vec 的作者Tomas Mikolov 的Deep Learning 背景以及word2vec 是一种神经网络模型相关,但我们谨慎认为该模型层次较浅,严格来说还不能算 是深层模型。当然如果word2vec 上层再套一层与具体应用相关的输出层,比如 Softmax ,此时更像是一个深层模型。 word2vec 通过训练,可以把对文本内容的处理简化为K 维向量空间中的向量 运算,而向量空间上的相似度可以用来表示文本语义上的相似度。因此,word2vec 输出的词向量可以被用来做很多NLP 相关的工作,比如聚类、找同义词、词性分 析等等。而 word2vec 被人

文档评论(0)

yan698698 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档