为聋人和听力障碍者开发一种 AI 引导的辅助设备-计算机科学-深度学习-声音定位-声音定位-人工智能.pdf

下载文档

0
0
约1.2万字
约 11页
2025-07-26 发布于北京
举报
版权申诉
保障服务

为聋人和听力障碍者开发一种 AI 引导的辅助设备-计算机科学-深度学习-声音定位-声音定位-人工智能.pdf

此“医疗卫生”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、本文档共11页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

为聋人和听力障碍者开发一种AI引导的辅助设备

Jiayu(Jerry)Liu

July23,2025

Abstract

目的：本研究旨在开发一个用于聋人或听力障碍者的无障碍设备的深度学习系统。该设备将能够实时准

确地定位和识别声源。本研究通过利用机器学习技术，致力于填补当前研究中针对弱势群体的重要空白。

设计与方法：该系统包括三个主要组件。

本•JerryNet：一种自定义设计的CNN架构，用于确定九个可能方向中的到达方向（DoA）。输入是以四

译个不同麦克风产生的同步音频生成的相位矩阵的形式。

中•音频分类：该模型基于微调对比语言-音频预训练（CLAP）模型，仅根据音频来识别确切的声音类别。

•多模态集成模型：这是一个结合音频、视觉和文本数据以准确定位图像中声音来源的精确声音定位模

v型。该部分由两个模块组成，一个是使用Yolov9的对象检测模块来生成所有对象的边界框，另一个

5是音频视觉定位模型，利用完全交并比（CIoU）识别出最优的边界框。

2硬件由一个四麦克风矩形阵列和一副装有腕带的眼镜组成，腕带上显示必要的信息如方向。

4结果：在一个自定义收集的数据集上，JerryNet实现了91.1%的声音方向精度，超过了所有基准模型。

.CLAP模型在自定义数据集和AudioSet数据集上分别达到了98.5%和95%的准确率。组件3中的音频视觉

0定位模型产生了的cIoU和的AUC，超越了其他类似的模型。

5结论：本研究推进了辅助技术，特别是对于聋人和听力障碍者的能力。这项研究有很多未来潜力，为创

:建新一代无障碍设备铺平了道路。

v关键词:深度学习；声音定位；辅助技术；多模态融合；人工智能。

1介绍

背景和情境：本项目旨在为聋人或听力障碍者生产一种更加经济实惠的辅助设备。先天性听力丧

失确实带来了许多困难；然而，多亏了我的家人，我通过人工耳蜗技术获得了听力的能力。这种设备相

当昂贵，左右两只耳朵的价格约为50,000美元。尽管这一费用计算包含了手术、住院以及多年来维持

设备健康所需大部分配件或程序的费用，这个庞大的数字对于聋人适应快速变化的社会来说仍是一道

障碍。相比之下，我的设备原材料和制造成本合计仅略超过20美元，这是几乎所有聋人或听力损失群

体都能负担得起的价格。通过多麦克风和摄像头的合作，我的设备提供了一种多元化的辅助技术方法，

可以同时执行多种任务，这是一种鲜有先例的辅助设备的独特方法。我的设备包括两个组成部分：一副

配备麦克风和相机的眼镜用于声音和视觉输入，以及一块用户显示的手环。该设备的功能繁多，包括声

源定位、音频分类、紧急预防措施，最后是文本转语音功能。通过将所有这些功能无缝整合到一个控制

循环中，为聋人或听力障碍者建立了一个更可靠的社会生活环境。对所有这些功能和主要控制回路的

详细解释将在未来的章节中进行深入讨论。最终，我相信我的软件组件中的步骤可以被提取并修改以

满足其他人的需求，为改善生活质量的辅助技术生态系统的扩展奠定基础。

研究问题：如何通过音频和视觉输入的结合来确定声源的确切位置，并且有效利用音频对发声物

体进行分类，以应用于辅助设备中？

论文陈述：通过设计和应用几个深度学习模型，我可以完成声音定位和音频分类的基本任务；这不

仅将弥合人工智能前沿研究与听觉障碍辅助设备之间的缺失环节，还将探索新的潜在领域，为许多新

颖的科学创新和社会应用奠定基础，以帮助各类人群。

您可能关注的文档

文档评论（0）

zikele + 关注: 实名认证

内容提供者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

为聋人和听力障碍者开发一种 AI 引导的辅助设备-计算机科学-深度学习-声音定位-声音定位-人工智能.pdf