- 14
- 0
- 约 71页
- 2017-02-05 发布于湖南
- 举报
howtogenerateagoodwordembedding
How to generate a good
word embedding
刘 康
中国科学院?动化研究所
模式识别国家重点实验室
2015年8?25?词表?
? One-hot Word Representation
? 减肥 [0 0 0 1 0 0 0 0 0 0]
? 瘦? [1 0 0 0 0 0 0 0 0 0]
? Distributed Word Representation
? 减肥 [0.792, ?0.177, ?0.107, 0.109, ?0.542]
? 瘦? [0.856, ?0.523, 0, 0.2, -0.2]词表?
外资 地方
人民 国家
农业
大型
中央
世界
国际 知识
商业
加工
电子 土地
水 人权
历史
政治
外交
电脑
行政
电影
国内 海外
联合国
全球
欧洲 亚洲
韩国
其他
上海
日本
法国 中华 外 主要 现代 传统
新 词向量表?的核?
? 利?上下?信息进?词表?
? 具有相同(类似)上下?信息的词应该具有相同(类
似)的词表?[Z. Harris, 1954]
? 两种上下?选择 [Sahlgren 2006]
? Syntagmatic Relation
? “词-?档”共现矩阵
? Paradigmatic Relation
? “词-词”共现矩阵传统词向量?法
? “词-?档”共现矩阵
? LSA、PLSA
d1 d2 d3
w1 1 1 3
w2 2 2 1
w3 4 2 1
w4 3
T
X ≈UΣV传统词向量?法
? “词-?档”矩阵
? Syntagmatic Relation(组合关系/?阶关系): Two words are similar
if they tend to appear in the contexts of each other
? Use co-occurrence events for building the word space as a
syntagmatic use of context [Sahlgren 2006]
d1 d2 d3
I 1
like 1 1 1
I like nature language processing
You like machine learning
nature 1
We like deep learning
language 1
processing 1
You 1
deep→learning
machine 1
machine→learning
learning 1 1
We 1
deep 1传统词向量?法
? “词-词”共现矩阵
? HAL [Lund et al. 1996]、GloVe [Pennington et al
2014]
词向量 词向量 词词共现
w1 w2 w3 w4
w1 2 4 1
w2 2 3
w3 4 3 1
w4 1 1 ≈ 传统词向量?法
? “词-词”共现矩阵
? Paradigmatic Relation(聚合/替换关系/?阶关系): Two words are
similar if they tend to appear in similar contexts
? Use surrounding words for building the word space as a
paradigmatic use of context [Sahlgren 2006]
w0 w1 w2 w3 w4 w5 w6 w7 w8 w9
(w0) I 1
I like nature language processing
You like machine learning
We like deep learning (w1) like 1 1 1 1 1 1
(w2) nature 1 1
(w3) language 1 1
(w4) processing 1 (w5) You 1
deep→machine (w6) machine 1 1
(w7) learning 1 1 (w8) We 1
(w9) deep 1 1Map
!
Skip%gram
LSA HAL
CBOW
NNLM
PLSA GloVe
Skip-gram可
以看做某种词
-词矩阵分解 LBL … … [Pennington
et al 2014][Li
et al. 2015] CW
… This Talk
? 如何训练得到?组词向量?
? 如何训练得到?组好的词向量?This Talk
? 如何训练?个好的词向量模型
? NNLM、LBL、CW、CBOW、Skip
您可能关注的文档
- grand-hyatt-shanghai-2015-wedding-packages.doc
- groupedubuit-teca.doc
- gt20l16j1y简要说明v40.doc
- gt20l16s1y简要说明v4.0ib.doc
- gt20l16p1ywww.rundex.doc
- gt20l24f6y简要说明v4.0iib.doc
- gt20l16s1y用户手册v35.doc
- gt21l16t1w简要说明v40.doc
- gws862h2jf-k光工作站.doc
- gt21l16m2y2-sdatasheetv25.doc
- 2025年全国演出经纪人员资格认定考试试卷带答案(研优卷).docx
- 2025年全国演出经纪人员资格认定考试试卷完整版.docx
- 2025年全国演出经纪人员资格认定考试试题库及完整答案.docx
- 2025年全国演出经纪人员资格认定考试试卷完美版.docx
- 2025年全国演出经纪人员资格认定考试试卷含答案(实用).docx
- 2025年全国演出经纪人员资格认定考试试卷及答案(各地真题).docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
- 2025年全国演出经纪人员资格认定考试试卷及答案1套.docx
- 2025年下半年四川成都市郫都区面向社会引进公共类事业单位人员2人备考题库最新.docx
- 2025年下半年内江市部分事业单位公开考试招聘工作人员(240人)备考题库附答案.docx
最近下载
- 2024-2025学年人教版八年级数学下册期末模拟试卷(含答案).pdf VIP
- 小学三年级语文上册课外阅读叶圣陶地球.docx VIP
- 马工程教学课件《管理学》(第二版)第十六章 组织变革与创新.pptx VIP
- 马工程教学课件《管理学》(第二版)-第一章 管理与管理活动.pptx VIP
- 2025年高考文科综合真题卷(附答案解析).docx VIP
- 马工程教学课件《管理学》(第二版)第九章-领导的一般理论.pptx VIP
- 马工程教学课件《管理学》(第二版)第十章-激励.pptx VIP
- 2022年11月12日事业单位联考A类《职业能力倾向测验》答案+解析.pdf VIP
- 山东省危险化学品企业事故隐患源头治理要素管理指南(试行).pdf VIP
- 医学统计学-参数估计与假设检验 PPT.pptx VIP
原创力文档

文档评论(0)