- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Word2vec的工作原理及应用探究.pdf
科技情报开发与经济 SCI—TECHINFORMATIONDEVELOPMENT&ECONOMY 2015年 第25卷 第2期
文章编号:1005—6033(2015)02—0145—04 收稿 日期:2014—11-18
Word2vec的工作原理及应用探究
周 练
(西安电子科技大学经济与管理学院,陕西西安,710071)
摘 要:研究了Word2vec的工作原理及应用,明确 了统计语言模型的关键 问题,分析
了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本
原理进行了探讨,对Word2vec词向量训练框架的工作原理进行 了详细分析 ,推导出了
训练模型的 目标函数 ,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec
应用于中文词向量的训练。
关键词 :Word2vec;词向量 ;统计语言模型
中图分类号:TP317 文献标识码:A
有效地将一个词语表达成向量形式,为 自然语言处理领域的应
1 问题的提出
用研究提供了新的工具。
随着计算机应用领域的不断扩大,自然语言处理受到了人
2 相关工作
们的高度重视。机器翻译、语音识别以及信息检索等应用需求对
计算机的自然语言处理能力提出了越来越高的要求。 2.1 统计语言模型
为了使计算机能够处理 自然语言,首先需要对 自然语言进 统计语言模型是用于刻画一个句子出现概率的模型。给定
行建模。自然语言建模方法经历了从基于规则的方法到基于统 一 个由n个词语按顺序组成的句子Js=( W,…,W),则概率P
计方法的转变 【I_。从基于统计的建模方法得到的自然语言模型 (s)UO为统计语言模型。通过贝叶斯公式,可以将概率P(S)进行
称为统计语言模型。有许多统计语言建模技术 ,包括n—gram、神 分解,即p(s)_p(1)p·(w21w1)p·(w31wl2)…p(1wI o所以,要计
经网络以及 log_linear模型等。在对 自然语言进行建模的过程 算一个句子出现的概率,只需要计算出在给定上下文的情况下,
中,会出现维数灾难、词语相似性、模型泛化能力以及模型性能 下一个词为某个词的概率即可,即p(wIcontext(w)o当所有条件
等问题。寻找上述问题的解决方案是推动统计语言模型不断发 概率P(W]context(w))都计算 出来后 ,通过连乘即可计算出P
展的内在动力。 (Js)。所以,统计语言模型的关键问题在于找到计算条件概率P
在对统计语言模型进行研究的背景下 ,Google公司在 2013 (WlIcontext(w))的模型。
年开放 了Word2vec[2]这一款用于训练词向量 [。]的软件工具。 2.2 词向量
Word2vec可以根据给定的语料库 ,通过优化后的训练模型快速 词向量具有 良好的语义特性,是表示词语特征的常用方式。
天津工业大学材料学专业 (硕士),馆员,天津职业大学图书馆,
第一作者简介:贾 茹 ,女,1980年 11月生,2007年毕业于 天津市北辰区洛河道2号,300402.
CleaningofftheEnglishOb
文档评论(0)