推进使用 Shona 俚语的对话式 AI：促进数字包容的数据集和混合模型.pdfVIP

推进使用 Shona 俚语的对话式 AI：促进数字包容的数据集和混合模型.pdf

推进使用Shona俚语的对话式AI：促进数字包容的数据集和

混合模型

HappymoreMasoka

PaceUniversity,SeidenbergSchoolofComputerScienceandInformationSystems

Advisor:KrishnaBathula,Ph.D.

2025年9月

摘要

本非洲语言在自然语言处理（NLP）中仍然代表性不足，大多数语料库局限于正式用法，无

译法捕捉日常交流的活力。本研究通过引入一个从匿名社交媒体对话整理的新绍纳语—英语俚

中语数据集来解决这一问题。该数据集标注了意图、情感、对话行为、混码和语气，并公开发

1布在/HappymoreMasoka/Working_with_shona-slang。我

v们微调了一个多语言DistilBERT分类器用于意图识别，实现了96.4%的准确率和96.3%的F1

4值，模型托管在https://huggingface.co/HappymoreMasoka。该分类器被整合进一

2个混合聊天机器人中，结合了基于规则的响应与检索增强生成（RAG），以处理特定领域的

1查询，并通过一个使用案例展示，在帕克大学协助意向学生获取研究生项目信息。定性评估

9显示，混合系统在文化相关性和用户参与度方面优于仅使用RAG的基础模型。通过发布数

5据集、模型和方法论，这项工作推进了非洲语言的NLP资源，促进了包容且文化共鸣的对话

2AI的发展。

r1介绍

人工智能（AI）系统，从虚拟助手[KepuskaandBohouta,2018]到推荐引擎[Gomez-Uribe

andHunt,2015]和自动驾驶汽车[Shladover,2018]的普及已经重塑了人机交互。然而，非洲语言，

在整个大陆有超过2,000种[Eberhardetal.,2023]，由于其低资源状态[AhiaandBoakye,2023,

Nekotoetal.,2020]，在自然语言处理（NLP）中仍然严重代表性不足。这种排除风险加剧了数字

鸿沟，限制了教育、医疗保健和治理等关键领域的AI驱动服务的访问[Ndichuetal.,2024,Joshi

etal.,2020]。

尚加语，一种在津巴布韦和南部赞比亚由数百万人使用的班图语系语言，体现了这一挑战。

现有的尚加语文本资料主要包含正式文本，如新闻文章或宗教文献[Eberhardetal.,2023]，而日

常交流，特别是在年轻使用者中，则主要是俚语、与英语混用以及非正式表达[Eisenstein,2013]。

基于正式数据训练的标准自然语言处理模型难以处理这些动态的语用模式，阻碍了具有文化相

关性的对话式人工智能的发展。

本研究介绍了一个从匿名社交媒体对话中整理的尚瓦语-英语俚语数据集，并对其进行了

意图、情感、对话行为、代码混合和语气的标注，公开获取地址为/

HappymoreMasoka/Working_with_shona-slang。我们对一个多语言DistilBERT模型[De-

vlinetal.,2019]进行了微调以进行意图分类，在非正式输入上实现了稳健的表现，该模型托管