- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
神经网络语言模型word2vec课件
神经网络语言模型简介
目录
语言模型
神经网络语言模型
词向量
分布假说
词的语义由其上下文决定( a word is characterized by the company it keeps)
语言模型
判断一句话是不是一个正常人说出来的。
n-gram语言模型
统计语言模型的作用是为一个长度为 m 的字符串确定一个概率 分布 P(w1, w2, ..., wm),表示其存在的可能性,其中 w1 到 wm 依次表示这段文 本中的各个词。一般在实际求解过程中,通常采用下式计算其概率值:
P(w1, w2, ..., wm) = P(w1) P(w2|w1) P(w3|w1, w2). . . P(wi | w1, w2, ..., wi−1) . . . P(wm | w1, w2, ..., wm−1)
例:P(大家,喜欢,吃,苹果)=p(大家)p(喜欢|大家)p(吃|大家,喜欢)p(苹果|大家,喜欢,吃)
简化版本:
n元模型,P(wi | w1, w2, ..., wi−1) ≈ P(wi | wi−(n−1), . . . , wi−1)
当n=1时,退化为一元模型:P(w1, w2, ..., wm) = P(w1)P(w2) . . . P(wm) 常用的为二元模型和三元模型
n元模型传统计算方法是采用频率计数的比例估算n元条件概率:
其中, count(wi−(n−1), . . . , wi−1) 表示文本序列 wi−(n−1). . . , wi−1 在语料中出现的次数。
n-gram语言模型
总结:n-gram模型的主要工作是在语料中统计各种词串出现的次数以及平滑化处理,概率值计算好之后就存储起来,下次需要计算一个句子的概率时,只需要找到相关概率参数,将他们连乘起来就好了。
然而,在机器学习领域有一种通用的招数是这样的:对所考虑的问题建模后为其构造一个目标函数,然后对这个目标函数进行优化,从而求得一组最优的参数,最后利用这组最优参数对应的模型进行预测。
对于统计语言模型,利用最大似然函数,目标函数设为:
概率P(w|Context(w))视为关于w和w的上下文的函数,即:
P(w|Context(w)) = F(w,Context(w),theta),其中theta为待定参数集
神经网络语言模型
注:输入层e向量拼接,为什么不是加和?
为什么y中再次计算了x?
word2vec
两种模型,两种方法
模型
CBOW
Skip-Gram
方法
Hierarchical
Softmax
Negative
Sampling
Hierarchical
Softmax
Negative
Sampling
word2vec
句子:我,喜欢,观看,巴西,足球,世界杯
W=足球
一些标记:
Word2vec源码将1代表负类,0代表正类,即:
正类概率:
负类概率:
word2vec
我们求的P(足球|Context(足球))与这四个概率的关系为:
其中,
或者写成整体表达式:
最后求出极大似然,然后梯度下降求解。
注意:这里的梯度下降不仅迭代参数theta的值,输入x也是未知参数,也需要迭代优化
表达式中的参数只有x和theta,我们要求的是每个词的向量,而x是词向量累加得到的,那么该如何对每个词的向量迭代更新呢?
词向量
自然语言中的词语在机器学习中是如何表示的?
—One-hot Representation
词与词之间是孤立的;维度灾难
例如:
“话筒”表示为[1 0 0 0 0 0 ];“麦克”表示为[0 1 0 0 0 0 ]:两者余弦距离为0
—Distributional Representation
神经网络语言模型的副产品:词向量
欢迎提问~
谢谢大家!
文档评论(0)