- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于深度学习的中文机构名识别研究
研究论文
基于深度学习的中文机构名识别研究*
——一种汉字级别的循环神经网络方法
朱丹浩 1, 2 杨 蕾 3 王东波 4
1(江苏警官学院图书馆 南京 210031)
2( 南京大学计算机科学与技术系 南京 210093)
3( 南京交通技师学院中(高)职教育处 南京 210049)
4( 南京农业大学信息科学技术学院 南京 210095)
摘要: 【目的】中文机构名结构复杂、罕见词多, 识别难度大, 对其进行正确识别对于信息抽取、信息检索、知
识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural
Network, RNN)方法, 面向中文汉字和词的特点, 重新定义了机构名标注的输入和输出, 提出汉字级别的循环网
络标注模型。【结果】以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文机构名识别的准确率、
召回率和F 值均有明显提高, 其中F 值提高了 1.54%。在包含罕见词时提高更为明显, F 值提高了 11.05%。【局
限】在解码时直接使用了贪心策略, 易于陷入局部最优, 如果使用条件随机场算法进行建模可能获取全局最优结
果。【结论】本文方法构架简单, 能利用到汉字级别的特征来进行建模, 比只使用词特征取得了更好的结果。
关键词: 机构名识别 循环神经网络 深度学习
分类号: G351
的特征, 人工设计了区分性强的特征模板, 然后使用
1 引 言
一个强大的序列化标注模型进行标注, 取得了较好的
机构泛指机关、团体或其他企事业单位, 包括院 识别效果。但是, 此类方法依赖于专家的领域知识, 在
校、公私企业、政府部门、宗教组织、科研部门、国 不同类型的语料上难以移植和泛化。近年来, 通过深
际组织、体育团队、音乐团体、军队等[1] 。机构名的 度学习的策略, 基于循环神经网络的方法在英文的序
识别效果对信息抽取、信息检索、知识挖掘和机构科 列化标注领域取得了较大的成功, 包括词性标注、汉
研评价等后续任务起着重要的影响。然而, 中文机构 语分词、组块分析、命名实体识别和语义角色标注等
名中罕见词多、结构复杂, 不同机构的名称差异性较 任务[5-6] 。循环神经网络不特别需要人工制定规则, 可
大, 这些问题对正确识别机构名带来了很大的挑战。 以自行从分布式词向量中学习出特征以供标注使用,
中文机构名识别可以看做一个序列化标注问题, 逐渐成为研究的热点。
基于人工特征模板的模型是解决这一类问题的主要手 循环神经网络的主要输入是词向量, 词向量的质
段, 使用的算法包括条件随机场[2] [3] 量直接决定了系统的性能。对于罕见词, 模型不能获
、支持向量机 和最
大熵模型[4] 。这一类方法面向中文机构名内部和外部 取足够的上下文信息, 因此学习出的词向量质量很
通讯作者: 朱丹浩, ORCID: 0000-0003-0477-8517, E-mail: jisuanyuyan@163.com 。
*本文系江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”(项目编号: 2014SJB246)、江苏省警官学院
“公安学术语自动抽取技术研究”(项目编号: 2015SJYZQ01)和国家自然科学基金项目“基于 CSSCI 的句法级汉英平行语料库构建及知
识挖掘研究”(项目编号:的研究成果之一。
36 现代图书情报技术
总第277 期 2016 年 第12 期
差。有些研究使用复杂的规则, 从汉字中获取信息以 构名识别中的作用, 采取 Viterbi 算法对切分结果进行
强化词向量中的信息。Chen 等使用词中的每一个字来
文档评论(0)