- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
word2vec词向量模型
词向量模型—Word2Vec
前言
计算机
老外来访被请吃饭。落座后,一中国人说:“我先去方便一下。”老外不解,被告知“方便”是“上厕所”之意。席间主宾大悦。道别时,另一中国人对老外发出邀请:“我想在你方便的时候也请你吃饭。”老外愣了,那人接着说: “如果你最近不方便的话,咱找个你我都方便的时候一起吃。
人类
VS
1
2
3
基本概念
模型与方法
实际应用
目录
词向量
自然语言中的词语在机器学习中的表示符号
One-Hot Representation
例如:
“话筒”表示为:[0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, …]
“麦克”表示为:[0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, …]
实现时可以用0,1,2,3等对词语进行计算,这样的“话筒”可以用4表示,麦克可以用10表示
问题:
维度很大,当词汇较多时,可能会达到百万维,造成维度灾难
词汇鸿沟:任意两个词之间都是孤立的,不能体现词与词之间的关系。
词向量
Distributional Representation
将词表示为 [0.793, -0.177, -0.107, 0.109, 0.542, …]的矩阵,通常该类矩阵设置为50维或100维
通过计算向量之间的距离,来体现词与词之间的相似性,解决词汇鸿沟的问题
实现时可以用0,1,2,3等对词语进行计算,这样的“话筒”可以用4表示,麦克可以用10表示
如何训练:
没有直接的模型可以训练得到
可以在训练语言模型的同时,得到词向量。
语言模型
判断一句话是不是正常人说出来的
给定一个字符串”w1, w2, w3, w4, … , wt”,计算它是自然语言的概率、
P(w1,w2,…,wt)=P(w1)×P(w2|w1)×P(w3|w1,w2)×…×P(wt|w1,w2,…,wt−1)
P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)
p(大家)表示“大家”这个词在语料库里面出现的概率;
p(喜欢|大家)表示“喜欢”这个词出现在“大家”后面的概率;
p(吃|大家,喜欢)表示“吃”这个词出现在“大家喜欢”后面的概率;
p(苹果|大家,喜欢,吃)表示“苹果”这个词出现在“大家喜欢吃”后面的概率。
把这些概率连乘起来,得到的就是这句话平时出现的概率。
如果这个概率特别低,说明这句话不常出现,那么就不算是一句自然语言,因为在语料库里面很少出现。如果出现的概率高,就说明是一句自然语言。
常用的语言模型都是在近似地求 P(wt|w1,w2,…,wt−1)。
比如 n-gram 模型就是用 P(wt|wt−n+1,…,wt−1) 近似表示前者。
N-pos 先对词进行了词性分类
1
2
3
模型与方法
基本概念
实际应用
目录
Word2Vec
Google的Mikolov在2013年推出了一款计算词向量的工具
word2vec作为神经概率语言模型的输入,其本身其实是神经概率模型的副产品,是为了通过神经网络学习某个语言模型而产生的中间结果。具体来说,“某个语言模型”指的是“CBOW”和“Skip-Gram”。具体学习过程会用到两个降低复杂度的近似方法——Hierarchical Softmax或Negative Sampling。
CBOW:Continuous Bag-of-Words
Skip-Gram:Continuous Skip-Gram Model
Hierarchical Softmax
Negative Sampling
两个语言模型
两种优化方法
CBOW and Skip-Gram
初始化值是零向量, 叶节点对应的单词的词向量是随机初始化的。 CBOW 的目 标 是 根 据 上 下 文 来 预 测 当 前 词 语 的 概率Skip-Gram恰好相反, 它是根据当前词语来预测上下文的概率。这 两 种 方 法 都 利 用 人 工 神 经 网 络 作 为它们的分类算法。起 初, 每 个 单 词 都 是 一 个 随 机 N 维 向 量,经过训练之后, 利用 CBOW 或者 Skip-Gram方法获得每个单词的最优向量。
CBOW模型结构
输入层是上下文的词语的词向量,是CBOW模型的一个参数。训练开始的时候,词向量是个随机值,随着训练的进行不断被更新。当模型训练完成之后可以获得较为准确的词向量。
O(|V|)
时间复杂度:
O(log2(|V|))
CBOW模型结构——霍夫曼树
在训练阶段,当给定一个上下文,要预测词(Wn)的时候,实际上知道要的是哪个词(Wn),而Wn是肯定存在于二叉树的叶子节点的,因此它必然有一个二进制编号,如“010011”,那么接下来我们就从二叉树的根节点一个
您可能关注的文档
- 2018届北京各区高三期末语文试题分类汇编(非连续性文本阅读)学生版.docx
- 2018届北京各区高三期末语文试题分类汇编(微写作、写作)教师版.docx
- 2018届北京各区高三期末语文试题分类汇编(微写作、写作)学生版.docx
- 2018高考语文(全国通用版)大一轮复习(课件.ppt
- 2018届高考化学第一轮考点专题突破复习课件11.ppt
- 2018届高考化学第一轮考点专题突破复习课件17.ppt
- 2018届高三一轮复习第四课--探究世界的本质.ppt
- 2018届高三一轮复习哲学第二课百舸争流的思想.ppt
- 2018届中考化学(人教版)总复习教材过关课件:第六单元-碳和碳的化合物-(共41张PPT).ppt
- 2018届中考化学(人教版)总复习教材过关课件:第二单元-我们周围的空气-(共44张PPT).ppt
文档评论(0)