- 24
- 0
- 约6.51万字
- 约 47页
- 2020-08-22 发布于江苏
- 举报
摘 要
自动语言识别是语言处理和语言理解的第一步,如何较为准确地检测文本所
采用的语言是许多自然语言处理任务(例如:文本自动分类、机器翻译和多语言
数据采集等)的首要步骤。近年来,随着自动语言识别研究的逐渐深入,不同种
类的语言已经可以达到较高的识别率,但对于语言变体识别而言,由于该类语言
资源相对缺乏,语言之间距离较近,语言变体的自动识别仍是一项具有挑战性的
任务。
大中华区由于受地域、历史、文化、社会环境等因素影响,各地区使用的汉
语存在词汇、语法、语用等方面的差异,属于广义现代汉语下的变体。不同于传
统的语言学,本文主要从计算语言学和自然语言处理的角度出发,开展大中华区
汉语变体识别研究,并着重分析了大中华区汉语变体之间的差异性,主要研究内
容体现在以下两个方面:
(1)构建集成经典文本分类方法的大中华区汉语变体识别模型
本文将经典的文本分类方法,包括传统的机器学习方法和基于深度学习的方
法,利用多数投票算法集成构建了一个新的大中华区汉语变体识别模型,并将模
型运用在大中华区新闻书面语的识别上。在抓取的分类语料数据集上进行实验,
结果显示本文构建的大中华区汉语变体识别集成模型可以综合单个模型的优势,
从而取得更好的识别效果。
(2 )构建基于SENet (Squeeze-and-Excitation Networks )注意力机制的大
中华区汉语变体识别模型
受融入了注意力机制的经典单个文本分类模型启发,本文构建了一个基于
SENet 注意力机制的大中华区汉语变体识别模型,利用SENet 注意力机制来捕捉
大中华区汉语变体之间的差异性特征,动态的增加重要区分性特征词汇的权重。
同时在训练中过程中还融入原始词向量特征。实验结果显示,与经典的文本分类
方法相比,基于 SENet 注意力机制的大中华区汉语变体识别模型识别效果有显
著提升,对实验结果详细的可视化分析也验证了注意力模型的有效性。
关键词:语言识别;大中华区;汉语变体;集成模型;SENet ;注意力机制
I
Abstract
Automatic language recognition is the first step in language processing and
language understanding. Accurately detecting the language used in a document is the
key step in many natural language processing tasks, such as automatic text classification,
machine translation, and multilingual data collection. In recent years, with the advance
of research on automatic language recognition, different kinds of languages can be
detected with high recognition rates. Since language resources are relatively lacking,
and the distance between any two languages is relatively close in language variants,
automatic language recognition in language variants is still a challenging task.
Due to the influence of region, history, culture, social environment, etc. in the
greater China region, there are differences in vocabulary, grammar, and pragmatics of
Chinese used in various regions, which are v
您可能关注的文档
最近下载
- 网络安全知识普及网络安全常识题及参考答案.docx VIP
- 数据资产价值评估博弈模型创新.docx VIP
- 中国竞技麻将比赛规则.doc VIP
- 学堂在线《英美音乐与文化》作业单元考核答案.docx VIP
- 关于校园霸凌的辩论赛.doc VIP
- 小森印刷机L40-PQC控制台使用说明书中文版.pdf VIP
- 2025年浙江省公安机关人民警察特殊职位公务员招录考试(网络安全技术)历年参考题库含答案详解.docx VIP
- 解密山楂炒焦:机理剖析与焦香气味物质基础探究.docx VIP
- 四旋翼无人机设计与制作毕业论文.doc VIP
- 2025年度江西省公安机关人民警察特殊职位招录考试[网络安全]练习题及答案.docx VIP
原创力文档

文档评论(0)