基于多任务学习与注意力机制的食品识别模型研究.pdfVIP

基于多任务学习与注意力机制的食品识别模型研究.pdf

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

基于多任务学习与注意力机制的食品识别模型研究

摘要

随着饮食文化的发展和互联网技术的革新,人们开始热衷于通过网络分享

食品照片。如何自动识别这些食品图像对应的食品属性信息,是目前食品图像识

别技术面临的主要挑战。食品图像识别技术应用前景广泛,针对食品类别、食材

和烹饪方法的识别能够为人们提供相关的菜谱信息,食品营养成分预测还能为

营养学分析、科学膳食搭配和医学健康管理等提供信息支撑。

然而,现有食品图像识别方法主要针对单一任务,如食品分类等,而关于同

时预测食品图像对应的食材、烹饪方法和卡路里等信息的研究较少,尤其是食品

卡路里预测,现有方法通常包含多个计算步骤,且无法融合烹饪方法对食品卡路

里值的影响。在食品数据集上,目前缺少同时包含食品烹饪方法和卡路里信息的

公开数据集。基于以上多属性数据集的缺失和单一任务方法的缺陷,本文从食品

数据集和多任务食品图像识别模型两个方面进行研究与分析,主要研究内容如

下:

(1)构建中西餐食品数据集。目前公开数据集的食品属性信息不全,食品

烹饪方法和卡路里等信息缺失,并且大部分数据集的食品类别不均衡,通常单纯

地以西餐或中餐类别为主。为此,本文首先从3个菜谱网站采集食品图像和对应

的菜谱文本;然后提出基于语料库的食材、烹饪方法自动标注方法,从菜谱文本

中提取食材和烹饪方法标签;接着采用基于支持向量机的异常图像检测方法,通

过多个步骤实现数据清洗以降低噪声干扰;最后对原始数据集实施数据增强从

而解决类别不平衡问题。最终,本研究构建了一个融合中西餐类别,包含食品图

像、食品类别、食材、烹饪方法和卡路里的高质量食品数据集。该数据集样本数

为77362,共有216类食材、18类烹饪方法和75个食品类别,涵盖了大部分常

见的中餐、西餐食品。

(2)提出一种基于多任务卷积神经网络的食品图像识别模型,实现由食品

图像至若干食品属性信息的多任务端到端识别。大部分现有食品图像识别方法

只能识别单一食品属性,而多个食品属性的识别往往需要利用多步骤的查询式

方法,多个独立步骤顺序计算的准确率无法保证且忽略了各个食品属性之间的

关联性。为解决该问题,本模型的图像特征提取模块使用卷积神经网络提取输入

图像的全局特征,再将该特征输入4个子任务模块。各个子任务模块均由全连接

网络构成,其中食品分类模块包含一个多分类子模型;食材和烹饪方法提取模块

为多标签分类子模型;卡路里预测模块包含一个回归子模型。此多任务模型实现

了食品类别、食材、烹饪方法和卡路里4个食品属性的同时预测,并利用食品属

性之间的关联性有效提高了食品分类和卡路里预测的准确率。使用(1)中构建

的食品数据集训练并测试该模型,测试结果中食品分类Top-1准确率为63.47%,

卡路里预测的平均绝对误差为79.6kcal。

(3)提出一种基于多任务注意力网络的食品图像识别模型。考虑到食品图

像特征的复杂性以及不同食品属性识别任务所关注的输入图像特征区域不同,

为了更好地提取这些细粒度特征,进一步提高各个食品属性的识别准确率,在(2)

的基础上对每个子任务分支加入空间注意力模块,从共享特征图中提取特定任

务的特征。本模型首先通过共享的卷积神经网络生成食品图像的全局特征图,然

后各个子任务注意力模块使用注意力掩码从全局特征图中抽取关键性的局部特

征。注意力掩码针对特定任务为共享特征图中各部分赋予权重,决定需要关注的

信息从而实现对共享全局特征和特定任务局部特征的同时学习。本模型在(1)

中构建的食品数据集上的食品分类Top-1准确率为68.59%,卡路里预测的绝对

误差降至71.4kcal,性能较(2)有一定的提升。

关键词:

多任务学习,注意力机制,食品识别,卡路里预测,多标签分类

ResearchonFoodRecognitionModelBasedon

Multi-TaskLearningandAttentionMechanism

Abstract

WiththedevelopmentoffoodcultureandInternettechnology,itbecomespopular

forpeopletosharethefoodimagesonli

文档评论(0)

论文资源 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档