- 1、本文档共12页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
基于MINKOWSKI范数的语言检测:通过字符双字元组和频率
分析进行识别
Paul-AndreiPogceanSanda-MariaAvram
Babe-BolyaiUniversityBabe-BolyaiUniversity
paul.pogacean@stud.ubbcluj.rosanda.avram@ubbcluj.ro
2025年7月24日
本ABSTRACT
译
中近年来,关于语言识别的辩论重新引起了人们的关注,尤其是随着基于人工智能的语言模型
的迅速发展。然而,非AI基础的语言识别方法已经被忽视了。本研究探讨了一种通过利用
2
v从已建立的语言学研究中得出的单字母和双字母频率排名来实现语言确定性的算法的数学
4实现。所使用的数据集包含长度、历史时期和体裁各异的文本,包括短篇小说、童话故事和
8诗歌。尽管存在这些差异,该方法在150个字符以下的文本上实现了超过80%的准确率,并
2
6且对于更长的文本达到了100%的准确率。这些结果表明,经典的基于频率的方法仍然是AI
1.驱动模型之外的有效且可扩展的语言检测替代方案。
7
0Keywordsn-gram,单字词组,双字词组,语言检测,统计语言识别
5
2
:
v
i1介绍
x
r
a语言识别是自然语言处理(NLP)[8]中的一个基础任务,在机器学习[6]、信息检索[5]和文本分类[3]等领
域有广泛的应用。针对这一任务的方法通常分为两类:基于AI的方法,如深度学习和神经网络[2],以及非
基于AI的统计方法[9]。虽然基于AI的技术主导了当前的研究,但它们往往需要大量的训练数据集、庞大
的计算资源和复杂的模型管理。
相比之下,利用字符频率、音标和双字母组合的统计方法提供了轻量级且易于访问的替代方案。先前的研究
调查了n-gram分类和字符频率分析[11]。然而,关于音标模式利用的研究很少,并且据我们所知,没有系统
地结合这些特征的工作。本文提出了一种新方法,将这些非AI技术集成起来以提高语言识别的准确性,特
别是在至少包含150个字符的文本中,同时在具有挑战性的场景下保持鲁棒性。
我们使用四个数据集评估我们的方法:ROST(罗马尼亚故事和传说)数据集[1],一个多语言的童话故事集
合[13],OPUS多语言平行语料库[12],以及一个诗歌语料库[14]。这些数据集涵盖了多种文本长度、体裁和
历史时期,为语言识别提供了一个全面且多样的测试平台。
本文的其余部分组织如下:
•节2回顾了语言识别的相关工作。
•节3描述了我们的方法论。
APREPRINT-2025年7月24日
•节4呈现了实验结果。
•结论部分5概述了未来研究方向。
2相关工作
2.1概览
语言检测是计算语言学中的一个长期研究领域[8],早期的研究主要集中在统计和基于规则的方法上[3,9]。
人工智能(AI)的出现随后彻底改变了这一领域,使得更强大和可扩展的解决方案成为可能[6]。如今,语言
识别支撑着从机器翻译到信息检索等一系列应用。
2.2基于人工智能的方法
现代语言识别系统通常依赖深度学习和大型语言模型。谷歌翻译和DeepL使用在大量多语种语料库上训练的
神经架构,即使对于模糊或混合语言输入也能实现高准确性[6,15]。OpenAI的GPT模型因其文本理
您可能关注的文档
- LinkedIn 中的薄弱环节:在大语言模型时代提升假档案检测能力-计算机科学-大语言模型-虚假档案检测-对抗训练.pdf
- SIA:通过意图感知增强视觉语言模型的安全性-计算机科学-视觉-语言模型-人工智能.pdf
- 面向具有几何先验的准确单目三维人体姿态估计实时框架-计算机科学-机器学习-单目 3D 姿态估计-实时推断.pdf
- 面向工业级 CRM 系统的弱监督技术以提升 ASR 模型性能-计算机科学-自动语音识别-数据增强-模型微调.pdf
- 评估语音转文本 × 大语言模型 × 文本转语音组合在 AI 面试系统中的应用-计算机科学-大语言模型-语音转文本.pdf
- 面向牙买加帕图瓦音乐转录的鲁棒语音识别-计算机科学-深度学习-自动语音识别-音乐转录.pdf
- 语言对早期通过语音检测帕金森病有影响吗?-计算机科学-机器学习-多语言模型-语言标记.pdf
- 带 连续时间速率约束的受控分配:三维情况-计算机科学-机器学习-飞行控制-算法.pdf
- 2025年智能控制器公司发展战略和经营计划.docx
- 疾病教学课件.ppt
- 白天晚上教学课件.ppt
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题带答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解一套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及完整答案详解1套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解1套.docx
- 2025年山东菏泽市事业单位招聘急需紧缺岗位目录(第一批)笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及答案详解1套.docx
- 画西瓜教学课件.ppt
最近下载
- 单层钢结构厂房施工组织设计-.doc VIP
- 未来可期,不负高三——高三启动仪式高三第一课-2024-2025学年高中主题班会(共29张ppt).pptx VIP
- T∕CHES 32-2019 节水型高校评价标准(可复制版).pdf
- 墙面粉刷施工工艺.docx VIP
- 环氧地坪施工.docx VIP
- 2025广西南宁市交通运输综合行政执法支队招聘编外聘用人员5人备考试题及答案解析.docx VIP
- 青少年航天知识竞赛题库及答案.docx
- 环氧地坪施工工艺流程.docx VIP
- DB 34T 2752-2016 用人单位职业病危害现状评价导则.docx VIP
- 2025年高考全国1卷读后续写讲评课件 -2026届高考英语一轮复习专项.pptx
文档评论(0)