深度学习中汉语字向量和词向量结合方式探究.PDFVIP

下载本文档

283
0
约2.16万字
约 10页
2017-12-11 发布于上海
举报

深度学习中汉语字向量和词向量结合方式探究.PDF

深度学习中汉语字向量和词向量结合方式探究

文章编号：深度学习中汉语字向量和词向量结合方式探究 1 1 1 李伟康，李炜，吴云芳（1.北京大学计算语言学教育部重点实验室，北京市 100871）摘要：本文旨在探究深度学习中汉语字向量和词向量的有效结合方式。我们以词作为基础语义单元和以字作为基础语义单元这两个方向进行探究，实验了字、词信息多种浅层结合方式和深层结合方式。为了验证提出的结合方式的有效性，我们改进了一种 compare-aggregate 模型，并在基于文档的问答系统上进行了实验。实验结果表明，有效的汉语字向量和词向量的结合方式超越了单独的字向量和词向量，提升了基于文档的问答系统的性能，使其结果与目前最好的结果可媲美。关键词：字向量；词向量；深度学习；问答系统中图分类号：TP391 文献标识码：A Combination of Chinese Character and Word Embeddings in Deep Learning 1 1 1 Weikang Li , Wei Li , Yunfang Wu (1. Key Laboratory of Computational Linguistics (Peking University), Ministry of Education, Beijing, 100871, China) Abstract: This paper aims at the combination of Chinese character and word embeddings in deep learning. We propose to do experiments considering shallow and deep combinations based on word and character. In order to demonstrate the effectiveness of combination, we present a compare-aggregate model solving the problem of question answering. Extensive experiments conducted on the open DBQA data demonstrate that the effective combination of characters and words significantly improves our system and helps us get the comparable results with state-art-of systems. Key words: character embedding; word embedding; deep learning; question answering 1 引言近年来，逐渐兴起的深度学习技术越来越多地被用于自然语言处理的各个领域。为了更好地表示自然语言，基于深度学习的多种模型也被提出。这些模型大多将分词工具得到的一个词作为句子的一个语义单元进行分析。对于英语来说，它的最小语义单元是单词，这样的方法比较合适。但对于汉语来说，这样的做法似乎不是很合适。首先，由分词工具得到的中文分词结果并非完全正确，不同的分词工具的效果也不同；其次，直接用一个词作为语义单元进行表示，也忽略了词内字间的信息。另一方面，汉语中单独的一个字歧义性较大，可能是多个词的组成，若用单独的字作为一个语义单元进行表示，不能准确的表示当前语境的信息。基于文档的问答系统（DBQA ）是自然语言处理的一个热门研究领域，表一给出了一个例子，如下：  收稿日期：定稿日期：基金项目：国家863 项目(2015AA015403)，国家自然科学基金项目(

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

深度学习中汉语字向量和词向量结合方式探究.PDFVIP