深度学习驱动的烹饪过程中物体多模态检测与运动分析.pdfVIP

下载本文档

1
0
约2.38万字
约 8页
2026-02-27 发布于北京
举报

深度学习驱动的烹饪过程中物体多模态检测与运动分析.pdf

深度学习驱动的烹饪过程中物体多模态检测

与运动分析

TahoshinAlamIshatMohammadAbdulQayum

ElectricalandComputerEngineeringElectricalandComputerEngineering

NorthSouthUniversityNorthSouthUniversity

Dhaka,BangladeshDhaka,Bangladesh

tahoshin.ishat@mohammad.qayum@

摘要—本研究探讨了一个智能的多模态AI系统解释基于

本视觉、音频和动作的数据，以分析和理解烹饪食谱的机会。该系

译统集成了对象分割、手势分类以及借助自然语言处理的帮助将音

中频转换为文本的功能，创建了一个全面的工作流，模仿了人类对

厨房任务和食谱的理解水平。项目的早期阶段涉及使用预设数

2据集进行实验，特别是COCO数据集用于对象分割，但这些对

3于项目用例来说效果不佳。为了克服这一问题，通过收集并标注

3超过7,000张与厨房相关的图像来策划了一个特定领域的数据

0集，并将其扩展到17,000张图像。在这个数据集上训练了几个

0YOLOv8分割模型以检测16个基本的厨房对象。此外，还收

9集和处理了捕捉烹饪动作的短时视频，使用MediaPipe提取手

0部、肘部和肩部的关键点。这些用于训练一个基于LSTM的手

2势分类模型，并结合Whisper音频转文本模型以及利用大型语

:言模型如TinyLlama从多模态输入生成结构化的烹饪食谱。

iIndexTerms—计算机视觉，对象分割，动作识别，语音图1.厨房过程识别和食谱预测

r转录，大型语言模型

序列也是理解一道菜的食谱所必需的，这不仅对自动化

I.介绍

系统如此，对于普通人也是如此。因此，需要一个全面

A.背景和动机

的多模态系统来从视频或实时摄像头中通过对象分割、

在计算机视觉和自动化时代，我们日常生活中每一手部运动分类和自然语言理解解释食谱。

个重要的任务也正在被人工智能和机器渗透。烹饪工作

也不例外。随着现代科技和机器人技术的发展，厨房工图1展示了以视频为输入的多模态研究过程，在分

作也被解读和识别，以帮助老年人实现自主烹饪助手的割烹饪对象的同时识别手部动作，将它们分类到一个动

使用。此类程序的应用范围广泛且意义重大。作类别中，并借助ASR将⾳频转录为文本，将所有发

目标检测和分割在复杂环境中展示了令人期待的现存储在内存中供LLM预测食谱并基于用户定义的预

结果，但有时在检测动态、杂乱且任务特定的场景（如设提示生成文本。

厨房用具和餐具）时缺乏精度。然而，理解烹饪任务不本研究旨在构建一个能够从视频中理解厨房任务

仅仅是对象检测，手部运动和空间交互以及动作的时间和活动的稳健管道。通过利用最先进的目标分割、空间

手部动作分类以及⾳频到文本转录技术。最终，借助所

有数据，大型语言模型将致力于预测菜谱并生成人类可李等。[6]在厨房环境中应用了YOLOv4进行食品

读的烹饪说明，从而弥合低层次视觉数据与高层次语义物品检测。他们对15种食品项目的检测准确率达

深度学习驱动的烹饪过程中物体多模态检测与运动分析.pdfVIP

深度学习驱动的烹饪过程中物体多模态检测与运动分析.pdf

您可能关注的文档

最近下载

文档评论（0）

1亿VIP精品文档

相关文档