- 3
- 0
- 约1.15万字
- 约 10页
- 2017-01-18 发布于天津
- 举报
doi10.6043j.issn.0438-0479.201610023.doc
doi:10.6043/j.issn.0438-0479. 201610023
基于GRU神经网络的中文分词法
李雪莲,段 鸿*,许 牧
(厦门大学软件学院005)
摘要:中文分词是中文自然语言处理的基础。目前,学术界主流的中文分词法是基于字符序列标注的传统机器学习方法,该方法存在需要人工定义特征、特征稀疏等问题。随着深度学习的研究和应用的兴起提出了将LSTM(Long Short-Term Memory)网络应用中文分词任务的方法,有效建模长距离依赖信息但是(Gated Recurrent Unit)神经网络的中文分词法,该方法继承了LSTM模型可自动学习特征,有效建模长距离依赖信息与LSTM神经网络中文分词相当的性能,并在速度上有显著提升。语言处理分词循环单元嵌入网络TP391.1 文献标志码: A
在中文中,标点符号只是对句和段进行划分,而对于词语并没有明显的分割符号,这与英文单词以空格划分存在显著差别。因此,中文自然语言处理的第一步就是将一个中文字符序列划分成词语的集合,即中文分词。中文分词是对中文进一步分析处理的基础,如词性标注、机器翻译、中文词搜索等。中文分词的效果,直接影响了进一步的分析结果。因此,中文分词任务具有重要意义。然而,由于中文中存在一字多意、一词多意、不同的语境下同一个句子存在不同分词方式等问题,中文分词一直是中文自然语言处理任务中的难点
您可能关注的文档
- 2016-2017学年度第一学期越江小学.doc
- 2016—2017学年第一学期期末教学质量检测.doc
- 2016年11月16日,安阳、鹤壁、周口、信阳四个地区近五十.doc
- 2016年度全区食品药品投诉举报.doc
- 2017-18财政年度.doc
- 2017-18财政年度「薪火相传国民教育活动系列资助计划」.doc
- 2017年台湾奖学金泰国地区简章驻泰国台北经济文化办.doc
- 7下雨啦滴答,滴答,下雨啦,下雨啦!柳树说下吧,.ppt
- CaseNo.D15400.doc
- doi10.6043j.issn.0438-0479.201611045.doc
- 2025年下半年小学教师资格考试简答题汇总.pdf
- 护理教学比赛资源整合.pptx
- 2022泰和安消防 JTGB-HM-TX3H01 JTGB-HM-TX3H02 TGB-HM-TX3H03 系列点型红外火焰探测器.docx
- 2025年驾驶证资格考试最新最全交通标志大全.pdf
- 护理教学理念:更新与发展.pptx
- 2025年新驾考科目一巧记速记口诀(全国通用).pdf
- 2025年一级建造师《项目管理》黄金预测考点【打印版】.pdf
- 证券公司高级管理人员资质测试章节练习-第一部分综合类第六章至七章:证券投资基金法、信托法.pdf
- 护理教学研究:方法与成果.pptx
- 麻纺车间设备更新准则.docx
原创力文档

文档评论(0)