howtogenerateagoodwordembedding.docVIP

  • 14
  • 0
  • 约 71页
  • 2017-02-05 发布于湖南
  • 举报
howtogenerateagoodwordembedding

How to generate a good word embedding 刘 康 中国科学院?动化研究所 模式识别国家重点实验室 2015年8?25? 词表? ? One-hot Word Representation ? 减肥 [0 0 0 1 0 0 0 0 0 0] ? 瘦? [1 0 0 0 0 0 0 0 0 0] ? Distributed Word Representation ? 减肥 [0.792, ?0.177, ?0.107, 0.109, ?0.542] ? 瘦? [0.856, ?0.523, 0, 0.2, -0.2] 词表? 外资 地方 人民 国家 农业 大型 中央 世界 国际 知识 商业 加工 电子 土地 水 人权 历史 政治 外交 电脑 行政 电影 国内 海外 联合国 全球 欧洲 亚洲 韩国 其他 上海 日本 法国 中华 外 主要 现代 传统 新 词向量表?的核? ? 利?上下?信息进?词表? ? 具有相同(类似)上下?信息的词应该具有相同(类 似)的词表?[Z. Harris, 1954] ? 两种上下?选择 [Sahlgren 2006] ? Syntagmatic Relation ? “词-?档”共现矩阵 ? Paradigmatic Relation ? “词-词”共现矩阵 传统词向量?法 ? “词-?档”共现矩阵 ? LSA、PLSA d1 d2 d3 w1 1 1 3 w2 2 2 1 w3 4 2 1 w4 3 T X ≈UΣV 传统词向量?法 ? “词-?档”矩阵 ? Syntagmatic Relation(组合关系/?阶关系): Two words are similar if they tend to appear in the contexts of each other ? Use co-occurrence events for building the word space as a syntagmatic use of context [Sahlgren 2006] d1 d2 d3 I 1 like 1 1 1 I like nature language processing You like machine learning nature 1 We like deep learning language 1 processing 1 You 1 deep→learning machine 1 machine→learning learning 1 1 We 1 deep 1 传统词向量?法 ? “词-词”共现矩阵 ? HAL [Lund et al. 1996]、GloVe [Pennington et al 2014] 词向量 词向量 词词共现 w1 w2 w3 w4 w1 2 4 1 w2 2 3 w3 4 3 1 w4 1 1 ≈ 传统词向量?法 ? “词-词”共现矩阵 ? Paradigmatic Relation(聚合/替换关系/?阶关系): Two words are similar if they tend to appear in similar contexts ? Use surrounding words for building the word space as a paradigmatic use of context [Sahlgren 2006] w0 w1 w2 w3 w4 w5 w6 w7 w8 w9 (w0) I 1 I like nature language processing You like machine learning We like deep learning (w1) like 1 1 1 1 1 1 (w2) nature 1 1 (w3) language 1 1 (w4) processing 1 (w5) You 1 deep→machine (w6) machine 1 1 (w7) learning 1 1 (w8) We 1 (w9) deep 1 1 Map ! Skip%gram LSA HAL CBOW NNLM PLSA GloVe Skip-gram可 以看做某种词 -词矩阵分解 LBL … … [Pennington et al 2014][Li et al. 2015] CW … This Talk ? 如何训练得到?组词向量? ? 如何训练得到?组好的词向量? This Talk ? 如何训练?个好的词向量模型 ? NNLM、LBL、CW、CBOW、Skip

文档评论(0)

1亿VIP精品文档

相关文档