单词和短语的分布式表示和他们的组合性要点.doc

单词和短语的分布式表示和他们的组合性要点.doc

  1. 1、本文档共8页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
单词和短语的分布式表示和他们的组合性要点

单词和短语的分布式表示和他们的组合性 文摘最近推出的Skip-gram模型一种有效的方法学习高品质的分布式向量表示,捕捉了大量num-ber精确的语法和语义词的关系。在本文中我们提出几个扩展,提高质量的向量和训练速度。通过频繁的二次抽样,我们得到显著加速也学更多的定期字表示。我们还描述了一个简单alterna-tive层次softmax称为负采样。词表示他们无法代表习惯用语。例如“加拿大”和“空气”不能容易地组合以获得“加拿大航空公司通过这个例子中,我们提出了用于查找文本短语的简单方法,学习良好的向量表示为数百万短语1引言 在向量空间分布表示的单词帮助学习算法实现在自然语言处理任务分组相似的单词。最早的一个使用字表示的历史可以追溯到1986年,Rumelhart,Hinton和 Williams [13]。这个想法已经被应用到统计语言相当大的成功。后续工作包括应用自动语音识别机器翻译[14] [7和广泛的自然语言处理的任务[2, 20, 15, 3, 18, 19, 9]最近,Skip-gram模型,一种有效从大量的非结构化的文本数据学习高质量的向量表示单词的方法。不同于大多数以前使用的神经网络结构学习单词载体,在Skip-gram模型(见图1)不涉及稠密矩阵乘法。这使得训练效率极高:实现训练超过1000亿人这个词表示计算使用神经网络非常有趣,有点令人惊讶的是,许多这些模式可以表示成线性的翻译。举例来说,图1:Skip-gram模型架构。培训目标是学习单词向量表示擅长预测附近的单词。受限于词表示他们无法惯用短语。例如,“波士顿环球报”是一个报纸,所以它不是一个自然的组合的含义“波士顿”和“全球”。 因此,使用向量repre-sent整个短语Skip-gram模型表达得多。其他技术,在的句子通过组合这个词向量,如递归[15],也将受益于使用短语向量代替这个词向量2 Skip-gram模型 (1) 其中c是训练上下文(其可以是中心单词重量的函数)的大小。在训练时间为代价的前提下,更多的训练示例并因此较大C结果可导致更高的精度。基本Skip-gram公式定义了p(wt + j | wt)将要使用softmax函数: (2) 其中,vw和vw是“输入”和“输出”向量表示,W是数在词汇。这种提取的方法是不切实际的,因为计算成本和?logP(WO| WI)是成正比的,这往往是(105-107项)。 2.1 Softmax分层 SOFTMAX的计算效率近似于分层SOFTMAX。 神经网络语言模型最早是由莫兰和Bengio[12]提出。该主要优点是代替在神经网络中评估W的输出节点,以获得概率分布,则需要评估仅约LOG2(W)的节点。 分层SOFTMAX使用输出层的二进制树表示用W字作为其叶子和,对于每个节点,明确地表示它的子节点的相对概率。 这些定义分配概率的话便可以随机游走。 更精确地说,每一个字,我们也可以从树的根的适当路径到达。设n(重量,j)的是从根为w的路径上的第j个节点,并设L(w)的是该路径的长度,因此n(重量,1)=根和n(W,L(W))=瓦特此外,对于任何内部节点n,让通道(n)是n的任意的固定子和如果x为真,否则返回-1让[[X]为1。然后分层SOFTMAX限定P(WO| WI)如下: (3) 在σ(x)= 1 /(1 + exp(?x))。它可以证实这意味着成本计算logp(我们| wI)和logp(我们| wI)L成正比(我们),平均不大于W。也不像的标准softmaxSkip-gram分配两个表示每个单词和v′w w,层次softmax配方对每个词都有一个表示和一个表示v′n为每个内部节点n的二叉树。2.2 负抽样指标可以显示softmax的对数概率最大化,Skip-gram模型只关心学习质量的向量表示,所以只要我们定义消极抽样(否定)的目标可以简化指标向量表示保留它们的质量 (4) 利用主成分分析法(PCA)和资本向量投影的国家图2:二维主分析的投影Skip-gram向量的国家及其首都城市。 用于替换每个日志Skip-gram P(我们| wI)项目标。因此,任务是区分目标词我们从噪声分布吸引Pn(w)使用逻辑回归的,哪里有k负样本为每个数据样本。我们的实验表明,k值范围在5 - 20是有用的为小型训练数据集,而对于大型数据集可以小至2 - 5 k。负采样和出版社之间的主要区别是,一旦需要这样的人样本和噪声的数值概率分布,而负采样只使用样品。虽然出版社约日志将softmax概率最大化,这个属性应用程序并不重要2.3频繁的二次抽样,Skip-gram模型观察“法国”、“巴黎”,它从观察频繁的“法国”、“的”,几乎每一个词

文档评论(0)

shuwkb + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档