- 8
- 0
- 约3.97千字
- 约 7页
- 2018-08-12 发布于湖北
- 举报
从深度学习回顾自然语言处理词嵌入方法
摘要:随着深度学习的发展及其在相关领域的应用,机器学习的性能得到了显著的提升。例如在自然语言处理和计算机视觉方面,深度学习就在AlphaGo算法中得到了较好的应用,这也同样改变了词嵌入的处理方法。在本文中,我们简单回顾几种最近在深度学习中运用的词嵌入方法。
关键词:词嵌入;深度学习;词向量转换;状态向量
中图分类号:TP18 文?I标识码:A 文章编号:1009-3044(2016)36-0184-02
最近Alpha Go的火热程度,让人工智能这个词语重新回到了人们的视野里。自从Alan Turing 在1950 年提出了图灵测试以来,就有许多人开始不断地尝试,试图通过这种检测程序来确定机器是否具有智能行为的能力。但是到了后期,人们发现机器具备一定的语言交流能力不再是一件困难的事情,而单纯的图灵测试也不再是检测机器是否具有智能行为的唯一标准。人们对于智能的理解从简单的交流这种单一化的方面,转向了多元化的方向,例如机器视觉、机器人自动化、自然语言处理等都与人工智能息息相关。那么说起Alpha Go,不得不提它背后的技术支持,这段电脑程序是由Google Deep Mind公司所开发研制的。Alpha Go为什么会这么被人关注,并且能够成功击败人类最强的棋手之一呢?关键在于其深度学习的技术得到了很好的应用。
其实对于电脑来说,围棋相比较其他的游戏设计而言,更加具有难度。因为对于传统的人工智能技术来说,围棋具有19*19个落子点,要通过alpha-beta 剪枝法、遍历树和启发式搜索等方法去试图寻找最优得分,并且根据对手的每一步落子都将建立一个巨大的假设空间,所以这种计算量过于庞大,机器无法直接模拟到最后一步,只能考虑到接下来的5步或者6步棋。但是对于Alpha Go来说,它的背后使用了deep convolutional neural networks(CNN, 一种图像处理的深度神经网络)来进行特征点提取以及模式识别,并通过先验知识来训练它的神经网络。与此同时,也利用了一种类似于遗传算法的方式来进行程序的自我下棋训练。
CNN的应用,让Alpha Go的性能得到了很大的提升,同样的事情也发生在自然语言处理领域。对于自然语言来说,我们并不能让神经网络对于词语或者文字直接进行处理,因此我们需要使用相应的方法将我们人类的语言和文字转换为深度神经网络所能理解并且能进行学习的相应数据,这就涉及了我们下面所讲到的词嵌入(word embedding)方法。接下来我们将介绍自然语言处理中词嵌入方法的主要几种模型。
1 词向量表示法one-hot
首先我们需要明确一个问题,对于深度神经网络(例如recurrent neural network――RNN)来说,他们并没有办法很好地理解我们人类的语言。那么对于机器而言,我们该如何将人类的语言,转化为一种机器能够识别的数学语言,从而将机器的计算能力转换为语言能力呢?在《数学之美》一书中,作者吴军介绍了早期的词向量表示法one-hot,这种方法借用二进制代码来为语料库中所出现的词语赋以唯一的编码。例如“今天是个好天气”,进行分词处理后,被划分为“今天/是/个/好天气”。那么在这个句子中总共存在四个词语,因此我们给予“今天”的编码是“0001”,“是”的编码是“0010”,“个”的编码是“0100”以及“好天气”的编码是“1000”。通过这种方法,简单地将词语转换为一张索引表,然后通过对应编码在词典中寻找对应的词语。
但是这种方法存在的问题是由于在语料库中有大量的词语,从而造成索引所组成的矩阵维度过大,因此需要对其进行降维,较为麻烦。因此后续G. Salton等人在1975年提出了向量空间模型(VSMs)。
2 向量空间模型VSMs
向量空间模型把近似语义的词语映射在连续向量空间的点进行聚类处理。这种模型方法在自然语言处理中存在着广泛的应用,也是词嵌入的早期模型,这些模型都基于分布式语义理论。所谓的分布式语义假设理论基于分布式语义的研究,其内容大致可被归结为在同一上下文中可以被相关替换的词语通常存在着相同或者类似的语义。这种理论对数据的稀疏问题产生了巨大的影响,同时这种分布式理论也是概率语义学的基础之一。向量空间模型大致可以分为两类方法:基于统计的方法(计数为主,例如潜在语义分析),和基于预测的方法(例如神经概率模型)。
在Baroni的文章中,对统计方法和预测方法进行了详细的比较。统计方法将语料库中出现相邻词语的频率数据转换为针对于每个词语的一个小的稠密向量(dense vector),而预测模型更加直接地从邻近词语进行推理从而将其映射为一个稠密向量。
例如在神经概率模型中主要使用了
您可能关注的文档
- 从句式上引导学生理解语句的内涵.doc
- 从具体案例看间接正犯着手的认定.doc
- 从科学到学堂.doc
- 从科学角度教科普作品.doc
- 从可持续发展的角度看现代设计中的“慢设计”.doc
- 从克拉申的输入假说看第二语言教学.doc
- 从课堂反思中探索物理有效教学路径.doc
- 从课堂观察的角度研究中小学信息技术学科任务驱动教.doc
- 从课堂提问谈学生的课堂安全感.doc
- 从孔茨的风险决策理论管窥UT的非程序化决策.doc
- 2026年神经节苷脂治疗早产儿脑白质损伤的临床疗效分析.docx
- 2026年铁与维生素C协同吸收机制分析.docx
- 2026年度西安科技大学高新学院单招《数学》综合提升测试卷带答案详解(基础题).docx
- 2026年土地整治与生态补偿机制的实施效果分析.docx
- 2026年神经内窥镜治疗阻塞性脑积水48例报告.docx
- 2026年体检辨色力报告.docx
- 2026年社区治理的社会实践报告.docx
- 2026年深圳国际化城市建设指标体系研究报告doc.docx
- 2026年深圳国有企业改革经验探讨与案例分析 (1).docx
- 2026年神经肌电图在糖尿病周围神经病变患者中的应用价值及机制分析.docx
最近下载
- 5-6年级健康课件《睡眠、运动与健康》.ppt VIP
- 2、武汉市海绵城市建设设计指南x标准规范.doc VIP
- 八年级语文下册期末复习专练 专题12 作文(期末热点预测与范文)(解释版)2024-2025学年(统编版广东专用).docx VIP
- 2025年金融风险管理师信用组合模型的参数估计与校准技术专题试卷及解析.pdf VIP
- 《建筑防水材料介绍》课件.ppt VIP
- 人教版2025-2026学年三年级下册道德与法治教学工作计划(及进度表).docx
- 2025年宁夏葡萄酒与防沙治沙职业技术学院教师招聘考试笔试备考试题.docx VIP
- DG∕TJ 08-87-2016 道路、排水管道成品与半成品施工及验收规程.docx VIP
- 最新人教版初中八年级下册体育教案全套.doc VIP
- 智能一体化污水处理系统.pptx VIP
原创力文档

文档评论(0)