Word2vec的工作原理及应用探究.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Word2vec的工作原理及应用探究.pdf

科技情报开发与经济 SCI—TECHINFORMATIONDEVELOPMENT&ECONOMY 2015年 第25卷 第2期 文章编号:1005—6033(2015)02—0145—04 收稿 日期:2014—11-18 Word2vec的工作原理及应用探究 周 练 (西安电子科技大学经济与管理学院,陕西西安,710071) 摘 要:研究了Word2vec的工作原理及应用,明确 了统计语言模型的关键 问题,分析 了词向量的特点,并对神经网络语言模型、Log_Linear模型和Log_Bilinear模型的基本 原理进行了探讨,对Word2vec词向量训练框架的工作原理进行 了详细分析 ,推导出了 训练模型的 目标函数 ,介绍了Word2vec工程的主要文件和训练参数,并将Word2vec 应用于中文词向量的训练。 关键词 :Word2vec;词向量 ;统计语言模型 中图分类号:TP317 文献标识码:A 有效地将一个词语表达成向量形式,为 自然语言处理领域的应 1 问题的提出 用研究提供了新的工具。 随着计算机应用领域的不断扩大,自然语言处理受到了人 2 相关工作 们的高度重视。机器翻译、语音识别以及信息检索等应用需求对 计算机的自然语言处理能力提出了越来越高的要求。 2.1 统计语言模型 为了使计算机能够处理 自然语言,首先需要对 自然语言进 统计语言模型是用于刻画一个句子出现概率的模型。给定 行建模。自然语言建模方法经历了从基于规则的方法到基于统 一 个由n个词语按顺序组成的句子Js=( W,…,W),则概率P 计方法的转变 【I_。从基于统计的建模方法得到的自然语言模型 (s)UO为统计语言模型。通过贝叶斯公式,可以将概率P(S)进行 称为统计语言模型。有许多统计语言建模技术 ,包括n—gram、神 分解,即p(s)_p(1)p·(w21w1)p·(w31wl2)…p(1wI o所以,要计 经网络以及 log_linear模型等。在对 自然语言进行建模的过程 算一个句子出现的概率,只需要计算出在给定上下文的情况下, 中,会出现维数灾难、词语相似性、模型泛化能力以及模型性能 下一个词为某个词的概率即可,即p(wIcontext(w)o当所有条件 等问题。寻找上述问题的解决方案是推动统计语言模型不断发 概率P(W]context(w))都计算 出来后 ,通过连乘即可计算出P 展的内在动力。 (Js)。所以,统计语言模型的关键问题在于找到计算条件概率P 在对统计语言模型进行研究的背景下 ,Google公司在 2013 (WlIcontext(w))的模型。 年开放 了Word2vec[2]这一款用于训练词向量 [。]的软件工具。 2.2 词向量 Word2vec可以根据给定的语料库 ,通过优化后的训练模型快速 词向量具有 良好的语义特性,是表示词语特征的常用方式。 天津工业大学材料学专业 (硕士),馆员,天津职业大学图书馆, 第一作者简介:贾 茹 ,女,1980年 11月生,2007年毕业于 天津市北辰区洛河道2号,300402. CleaningofftheEnglishOb

文档评论(0)

月光般思恋 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档