基于FPGA及深度学习的人脸检测系统设计.docxVIP

下载本文档

0
0
约7.26千字
约 21页
2025-12-10 发布于浙江
举报
版权申诉

基于FPGA及深度学习的人脸检测系统设计.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于FPGA及深度学习的人脸检测系统设计第一部分设计概述

1.1设计目的

新冠病毒的肆虐让整个2020年笼罩在恐慌之中，戴口罩成了人们外出必备的“新日常”。新冠病毒主要通过飞沫传播和接触传播，正确选择佩戴口罩，可有效阻隔病毒传播。但在人流量庞大的商圈、车站等场所，仍有许多人拒绝佩戴口罩。若能在这些场所进行当前人群口罩检测，则能有效避免冠状病毒的传播。

本作品是一种能实时检测识别人脸口罩佩戴情况并进行语音播报的系统，准确度高达95.2%,系统处理速度可达25fps左右。除此之外，本作品具备较高的可拓展性，稍加更改就可在更多的领域得到应用。

1.2应用领域

基于深度学习的人脸捕获及口罩检测系统可以适用于人流量大的场所，实现了人脸检测与跟踪以及人脸口罩识别的功能，并将识别结果进行播报，可以辅助疫情防控工作的开展。

除此之外，本系统的人脸检测系统有着广泛的应用范围。

在智能家居领域，可以通过我们的系统实现人类闯入报警装置，在摄像头捕捉到的区域检测到人脸后触发报警；

在新冠疫情期间，我们的系统可以安装在商圈、旅游景点，实时检测人流密度，为实时限流措施提供参考。

1.3主要技术特点

对密集人群进行口罩检测，首先要在画面中进行人脸检测。在非深度学习阶段的目标检测算法都是针对特定目标提出的，比如CVPR2001的Viola-Jones(VJ)[1]是针对人脸检测问题，CVPR2005的HOG+SVM[2]是针对行人检测问题，TPAMI2010的DPM[3]虽然可以检测各类目标，但要用于多目标检测，需要每个类别分别训练模板。而强大的深度学习只要一个CNN就可以搞定多类别检测任务。虽然这些都是多类别方法，但它们也都可以用来解决单类别问题。

本作品是基于深度学习的人脸捕获及口罩检测系统，通过片外的图像传感器采集图像到片上缓冲区，而后把图像送到FPGA上的神经网络加速器进行处理，识别结果输出到显示器，在显示器中框出人脸并显示目标是否佩戴口罩，我们还使用语音模块对画面中的总人数和未戴口罩人数作出播报。

1.4关键性能指标

本作品可以实时检测识别人脸口罩佩戴情况，我们从帧率和精度两个方面进行了分析。识别精度可达到95.2%,而系统延迟仅仅40ms左右，可达到25fps的帧率。

1.5主要创新点

神经网络部分创新点

1、使用了一个轻量级backbone,去除了BN层，在精度达到优秀的前提下极大提升了速度；

2、去掉了FPN结构，仅降低微小的精度却大大提升了速度(20%);

3、在网络的head部分对边框回归和类别预测做了不对称设计，进一步提升性能。

系统框架创新点

1、为了加快系统设计，采用了Xilinx专用于卷积神经网络的深度学习处理单元(DPU)。在设计系统过程中，可根据系统的具体情况配置DPU的参数，将该IP集成到所选器件PL中，通过PS端软件控制，实现多种卷积神经网络的加速。

2、利用PYNQ框架，可以在开发板上动态地加载比特流实现系统所需硬件电路，灵活方便。

3、利用VitisAI编译模型，将浮点模型转换为定点模型，降低了计算复杂度，并且需要的内存带宽更少，提高了模型速度。

第二部分系统组成及功能说明

2.1整体介绍

摄像头语音模块VGA显示

下

USB3.0UARTMiniDP

2GBLPDDR4OpenCV语音控制

2GBLPDDR4

采集处理特征提取PS后处理

采集处理特征提取

边框回归及分类

图1总体框图

基于深度学习的人脸检测系统由PS端、PL端与外设及其接口组成。其中，外设包括、摄像头(通过USB3.0连接)、语音模块(通过UART连接)和VGA显示(通过MiniDP转VGA连接),开发板内部还提供了2GB的LPDDR4;PS端包括openCV采集处理模块、后处理

模块、语音控制模块及显示控制模块；PL端包括特征提取模块和边框回归及分类模块。在PS端的模块中，openCV采集处理模块的主要功能是控制摄像头采集图像，并对LPDDR4中的图像进行预处理；后处理模块的主要功能是使用非极大值抑制(Non-MaximumSuppression,NMS)算法对候选区域进行筛选，得到合适的区域信息并统计画面中检测到的人脸总数；语音控制和显示控制驱动语音模块和摄像头构成结果展示部分，语音控制模块根据后处理模块的结果播报当前画面中的人脸数目，而显示控制模块根据VGA时序显示拍摄画面并框出人脸位