doi10.6043j.issn.0438-0479.201610023.docVIP

下载本文档

3
0
约1.15万字
约 10页
2017-01-18 发布于天津
举报

doi10.6043j.issn.0438-0479.201610023.doc

doi:10.6043/j.issn.0438-0479. 201610023 基于GRU神经网络的中文分词法李雪莲，段鸿*，许牧（厦门大学软件学院005）摘要：中文分词是中文自然语言处理的基础。目前，学术界主流的中文分词法是基于字符序列标注的传统机器学习方法，该方法存在需要人工定义特征、特征稀疏等问题。随着深度学习的研究和应用的兴起提出了将LSTM(Long Short-Term Memory)网络应用中文分词任务的方法，有效建模长距离依赖信息但是(Gated Recurrent Unit)神经网络的中文分词法，该方法继承了LSTM模型可自动学习特征，有效建模长距离依赖信息与LSTM神经网络中文分词相当的性能，并在速度上有显著提升。语言处理分词循环单元嵌入网络TP391.1 文献标志码： A 在中文中，标点符号只是对句和段进行划分，而对于词语并没有明显的分割符号，这与英文单词以空格划分存在显著差别。因此，中文自然语言处理的第一步就是将一个中文字符序列划分成词语的集合，即中文分词。中文分词是对中文进一步分析处理的基础，如词性标注、机器翻译、中文词搜索等。中文分词的效果，直接影响了进一步的分析结果。因此，中文分词任务具有重要意义。然而，由于中文中存在一字多意、一词多意、不同的语境下同一个句子存在不同分词方式等问题，中文分词一直是中文自然语言处理任务中的难点

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

doi10.6043j.issn.0438-0479.201610023.docVIP