基于深度学习的中文机构名识别研究.pdfVIP

下载本文档

22
0
约2.79万字
约 8页
2017-09-03 发布于天津
举报
版权申诉

基于深度学习的中文机构名识别研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度学习的中文机构名识别研究

研究论文基于深度学习的中文机构名识别研究* ——一种汉字级别的循环神经网络方法朱丹浩 1, 2 杨蕾 3 王东波 4 1(江苏警官学院图书馆南京 210031) 2( 南京大学计算机科学与技术系南京 210093) 3( 南京交通技师学院中(高)职教育处南京 210049) 4( 南京农业大学信息科学技术学院南京 210095) 摘要: 【目的】中文机构名结构复杂、罕见词多, 识别难度大, 对其进行正确识别对于信息抽取、信息检索、知识挖掘和机构科研评价等情报学中的后续任务意义重大。【方法】基于深度学习的循环神经网络(Recurrent Neural Network, RNN)方法, 面向中文汉字和词的特点, 重新定义了机构名标注的输入和输出, 提出汉字级别的循环网络标注模型。【结果】以词级别的循环神经网络方法为基准, 本文提出的字级别模型在中文机构名识别的准确率、召回率和F 值均有明显提高, 其中F 值提高了 1.54%。在包含罕见词时提高更为明显, F 值提高了 11.05%。【局限】在解码时直接使用了贪心策略, 易于陷入局部最优, 如果使用条件随机场算法进行建模可能获取全局最优结果。【结论】本文方法构架简单, 能利用到汉字级别的特征来进行建模, 比只使用词特征取得了更好的结果。关键词: 机构名识别循环神经网络深度学习分类号: G351 的特征, 人工设计了区分性强的特征模板, 然后使用 1 引言一个强大的序列化标注模型进行标注, 取得了较好的机构泛指机关、团体或其他企事业单位, 包括院识别效果。但是, 此类方法依赖于专家的领域知识, 在校、公私企业、政府部门、宗教组织、科研部门、国不同类型的语料上难以移植和泛化。近年来, 通过深际组织、体育团队、音乐团体、军队等[1] 。机构名的度学习的策略, 基于循环神经网络的方法在英文的序识别效果对信息抽取、信息检索、知识挖掘和机构科列化标注领域取得了较大的成功, 包括词性标注、汉研评价等后续任务起着重要的影响。然而, 中文机构语分词、组块分析、命名实体识别和语义角色标注等名中罕见词多、结构复杂, 不同机构的名称差异性较任务[5-6] 。循环神经网络不特别需要人工制定规则, 可大, 这些问题对正确识别机构名带来了很大的挑战。以自行从分布式词向量中学习出特征以供标注使用, 中文机构名识别可以看做一个序列化标注问题, 逐渐成为研究的热点。基于人工特征模板的模型是解决这一类问题的主要手循环神经网络的主要输入是词向量, 词向量的质段, 使用的算法包括条件随机场[2] [3] 量直接决定了系统的性能。对于罕见词, 模型不能获、支持向量机和最大熵模型[4] 。这一类方法面向中文机构名内部和外部取足够的上下文信息, 因此学习出的词向量质量很通讯作者: 朱丹浩, ORCID: 0000-0003-0477-8517, E-mail: jisuanyuyan@163.com 。 *本文系江苏省高校哲学社会科学项目“高校危机管理案例知识库构建及知识挖掘研究”(项目编号: 2014SJB246)、江苏省警官学院 “公安学术语自动抽取技术研究”(项目编号: 2015SJYZQ01)和国家自然科学基金项目“基于 CSSCI 的句法级汉英平行语料库构建及知识挖掘研究”(项目编号:的研究成果之一。 36 现代图书情报技术总第277 期 2016 年第12 期差。有些研究使用复杂的规则, 从汉字中获取信息以构名识别中的作用, 采取 Viterbi 算法对切分结果进行强化词向量中的信息。Chen 等使用词中的每一个字来