- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
为聋人和听力障碍者开发一种AI引导的辅助设备
Jiayu(Jerry)Liu
July23,2025
Abstract
目的:本研究旨在开发一个用于聋人或听力障碍者的无障碍设备的深度学习系统。该设备将能够实时准
确地定位和识别声源。本研究通过利用机器学习技术,致力于填补当前研究中针对弱势群体的重要空白。
设计与方法:该系统包括三个主要组件。
本•JerryNet:一种自定义设计的CNN架构,用于确定九个可能方向中的到达方向(DoA)。输入是以四
译个不同麦克风产生的同步音频生成的相位矩阵的形式。
中•音频分类:该模型基于微调对比语言-音频预训练(CLAP)模型,仅根据音频来识别确切的声音类别。
•多模态集成模型:这是一个结合音频、视觉和文本数据以准确定位图像中声音来源的精确声音定位模
1
v型。该部分由两个模块组成,一个是使用Yolov9的对象检测模块来生成所有对象的边界框,另一个
5是音频视觉定位模型,利用完全交并比(CIoU)识别出最优的边界框。
1
2硬件由一个四麦克风矩形阵列和一副装有腕带的眼镜组成,腕带上显示必要的信息如方向。
4结果:在一个自定义收集的数据集上,JerryNet实现了91.1%的声音方向精度,超过了所有基准模型。
1
.CLAP模型在自定义数据集和AudioSet数据集上分别达到了98.5%和95%的准确率。组件3中的音频视觉
7
0定位模型产生了的cIoU和的AUC,超越了其他类似的模型。
5结论:本研究推进了辅助技术,特别是对于聋人和听力障碍者的能力。这项研究有很多未来潜力,为创
2
:建新一代无障碍设备铺平了道路。
v关键词:深度学习;声音定位;辅助技术;多模态融合;人工智能。
i
x
r
a
1介绍
背景和情境:本项目旨在为聋人或听力障碍者生产一种更加经济实惠的辅助设备。先天性听力丧
失确实带来了许多困难;然而,多亏了我的家人,我通过人工耳蜗技术获得了听力的能力。这种设备相
当昂贵,左右两只耳朵的价格约为50,000美元。尽管这一费用计算包含了手术、住院以及多年来维持
设备健康所需大部分配件或程序的费用,这个庞大的数字对于聋人适应快速变化的社会来说仍是一道
障碍。相比之下,我的设备原材料和制造成本合计仅略超过20美元,这是几乎所有聋人或听力损失群
体都能负担得起的价格。通过多麦克风和摄像头的合作,我的设备提供了一种多元化的辅助技术方法,
可以同时执行多种任务,这是一种鲜有先例的辅助设备的独特方法。我的设备包括两个组成部分:一副
配备麦克风和相机的眼镜用于声音和视觉输入,以及一块用户显示的手环。该设备的功能繁多,包括声
源定位、音频分类、紧急预防措施,最后是文本转语音功能。通过将所有这些功能无缝整合到一个控制
循环中,为聋人或听力障碍者建立了一个更可靠的社会生活环境。对所有这些功能和主要控制回路的
详细解释将在未来的章节中进行深入讨论。最终,我相信我的软件组件中的步骤可以被提取并修改以
满足其他人的需求,为改善生活质量的辅助技术生态系统的扩展奠定基础。
1
研究问题:如何通过音频和视觉输入的结合来确定声源的确切位置,并且有效利用音频对发声物
体进行分类,以应用于辅助设备中?
论文陈述:通过设计和应用几个深度学习模型,我可以完成声音定位和音频分类的基本任务;这不
仅将弥合人工智能前沿研究与听觉障碍辅助设备之间的缺失环节,还将探索新的潜在领域,为许多新
颖的科学创新和社会应用奠定基础,以帮助各类人群。
您可能关注的文档
- 迈向针对气候变化的主动社区适应的 ABM-计算机科学-基于代理的模型-气候变化适应-社会生态系统.pdf
- 超越架构:评估上下文嵌入在社交媒体上检测双相障碍的作用-计算机科学-双相情感障碍-长短期记忆网络-社 交媒体-自然语言处理.pdf
- 使用模算术优化神经网络高效破解仿射加密方案-计算机科学-机器学习-神经网络-仿射密码.pdf
- 缓解教育领域大型语言模型中特洛伊提示链的问题: 实验结果与检测工具设计-计算机科学-大语言模型-安全部署.pdf
- 关于无线通信中的轻量级语义图像分割的分解-计算机科学-人工智能-语义通信-语义图像分-6G.pdf
- DM-RSA: 具有双模数的 RSA 扩展-计算机科学-机器学习-密码系统-中国剩余定理.pdf
- 2025年智能控制器公司发展战略和经营计划.docx
- 疾病教学课件.ppt
- 病理学基础教学课件.ppt
- 2025年山东菏泽市属事业单位招聘初级综合类岗位人员33人笔试模拟试题及答案详解一套.docx
- 白天晚上教学课件.ppt
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题带答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解一套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及完整答案详解1套.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及参考答案详解1套.docx
- 2025年山东菏泽市事业单位招聘急需紧缺岗位目录(第一批)笔试模拟试题参考答案详解.docx
- 2025年山东菏泽市牡丹区中医医院引进急需紧缺专业技术人才30人笔试模拟试题及答案详解1套.docx
- 画西瓜教学课件.ppt
文档评论(0)