深度学习驱动的烹饪过程中物体多模态检测与运动分析.pdfVIP

  • 1
  • 0
  • 约2.38万字
  • 约 8页
  • 2026-02-27 发布于北京
  • 举报

深度学习驱动的烹饪过程中物体多模态检测与运动分析.pdf

深度学习驱动的烹饪过程中物体多模态检测

与运动分析

TahoshinAlamIshatMohammadAbdulQayum

ElectricalandComputerEngineeringElectricalandComputerEngineering

NorthSouthUniversityNorthSouthUniversity

Dhaka,BangladeshDhaka,Bangladesh

tahoshin.ishat@mohammad.qayum@

摘要—本研究探讨了一个智能的多模态AI系统解释基于

本视觉、音频和动作的数据,以分析和理解烹饪食谱的机会。该系

译统集成了对象分割、手势分类以及借助自然语言处理的帮助将音

中频转换为文本的功能,创建了一个全面的工作流,模仿了人类对

厨房任务和食谱的理解水平。项目的早期阶段涉及使用预设数

2据集进行实验,特别是COCO数据集用于对象分割,但这些对

v

3于项目用例来说效果不佳。为了克服这一问题,通过收集并标注

3超过7,000张与厨房相关的图像来策划了一个特定领域的数据

0

0集,并将其扩展到17,000张图像。在这个数据集上训练了几个

0YOLOv8分割模型以检测16个基本的厨房对象。此外,还收

.

9集和处理了捕捉烹饪动作的短时视频,使用MediaPipe提取手

0部、肘部和肩部的关键点。这些用于训练一个基于LSTM的手

5

2势分类模型,并结合Whisper音频转文本模型以及利用大型语

:言模型如TinyLlama从多模态输入生成结构化的烹饪食谱。

v

iIndexTerms—计算机视觉,对象分割,动作识别,语音图1.厨房过程识别和食谱预测

x

r转录,大型语言模型

a

序列也是理解一道菜的食谱所必需的,这不仅对自动化

I.介绍

系统如此,对于普通人也是如此。因此,需要一个全面

A.背景和动机

的多模态系统来从视频或实时摄像头中通过对象分割、

在计算机视觉和自动化时代,我们日常生活中每一手部运动分类和自然语言理解解释食谱。

个重要的任务也正在被人工智能和机器渗透。烹饪工作

也不例外。随着现代科技和机器人技术的发展,厨房工图1展示了以视频为输入的多模态研究过程,在分

作也被解读和识别,以帮助老年人实现自主烹饪助手的割烹饪对象的同时识别手部动作,将它们分类到一个动

使用。此类程序的应用范围广泛且意义重大。作类别中,并借助ASR将⾳频转录为文本,将所有发

目标检测和分割在复杂环境中展示了令人期待的现存储在内存中供LLM预测食谱并基于用户定义的预

结果,但有时在检测动态、杂乱且任务特定的场景(如设提示生成文本。

厨房用具和餐具)时缺乏精度。然而,理解烹饪任务不本研究旨在构建一个能够从视频中理解厨房任务

仅仅是对象检测,手部运动和空间交互以及动作的时间和活动的稳健管道。通过利用最先进的目标分割、空间

手部动作分类以及⾳频到文本转录技术。最终,借助所

有数据,大型语言模型将致力于预测菜谱并生成人类可李等。[6]在厨房环境中应用了YOLOv4进行食品

读的烹饪说明,从而弥合低层次视觉数据与高层次语义物品检测。他们对15种食品项目的检测准确率达

概念之间的差距。到了85

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档