基于图模型表达和稀疏特征选择的图像语义理解-计算机科学与技术专业论文.docxVIP

下载本文档

6
0
约13.94万字
约 140页
2019-01-15 发布于上海
举报
版权申诉

基于图模型表达和稀疏特征选择的图像语义理解-计算机科学与技术专业论文.docx

1、本文档共140页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于图模型表达和稀疏特征选择的图像语义理解-计算机科学与技术专业论文

优秀毕业论文精品参考文献资料浙江人学博一I 浙江人学博一I：学位论文摘要摘要随着Web 2．0和社会媒体的快速发展，海量的图像和视频数据在互联网上涌现，这就给多媒体存储、索引和检索的相关研究带来巨大挑战。传统基于内容的图像检索(CBIR)技术利用图像视觉内容对图像进行索引和检索。然而，由于底层视觉特征和高层语义之间的语义鸿沟，CBIR的性能不能令人满意。为了解决语义鸿沟问题，研究者在图像语义理解进行了大量研究。最近的研究热点是统计和机器学习方法在图像检索和语义理解中的应用。本文研究图像语义理解的三个关键问题：基于上下文融合的图像语义理解、异构视觉特征选择、以及图像自动标注。在以上三个关键问题研究的基础上，本文提出了基于图模型表达和稀疏特征选择的图像语义理解框架。为了有效利用互联网图像所具有的丰富上下文属性，对Web图像检索结果按照语义主题进行归类，本文在图像与其伴随文本中定义了“单词可见度 (visibility)”这种新的异构关联，并将其与从图像伴随文本中提取的同构关联结合，在复杂图和二部图上进行聚类分析。具体而言，本文在聚类过程中考虑了 Web图像的两种关联属性：伴随文本单词与图像之间的异构关联以及伴随文本单词之间的同构关联。这一方法不仅能够反映单词与图像之间语义关联，而且所定义的单词可见度充分利用了图像的伴随文本这一上下文属性。在此基础上，本文应用复杂图聚类和二部图协同谱聚类等算法验证了在图模型中引入两种上下文关联进行图像聚类的有效性，达到了改进Web图像聚类性能的目的。视频关键帧图像的语义理解需要有效利用视频镜头中的上下文多模态信息 (如转录文本、视觉特征和多标签标注信息等)。为了对各种模态下多个视频镜头之间的高阶关联进行表达，本文引入超图来表达数据间存在的高阶复杂关系。具体而言，各种模态下多个视频镜头之间的高阶关联用超图的超边进行表达，则视频镜头的多模态特征可表示为多个超图模型。通过在多个超图上定义Markov 随机游走模型，本文提出多超图排序(MHR)算法对无标记视频镜头的语义概念浙江大学博士学位论文浙江大学博士学位论文摘要进行预测，该方法充分利用了视频镜头的上下文多模态信息和高阶关联。在 TRECVID数据集上的实验表明了基于MHR进行多模态融合的视频语义概念检测的有效性。由于本质上的视觉多义性，图像和视频往往被标注多个语义标签。发现并利用多标签之间的关联关系将能提升多标签语义理解的性能。相关研究表明通过子空间学习将多标签关联嵌入子空间，可使得有共同多标签标注的数据样本在所嵌入的子空间中距离相近。本文提出稀疏多标签迁移学习(S．MLTL)框架进行图像自动标注和视频语义概念检测。其基本思想是在相关数据集上学习得到稀疏多标签嵌入的子空间，通过将目标数据集的训练数据和测试数据嵌入该子空间实现多标签关联信息的迁移，从而在目标数据集上取得更好的语义理解性能。在 S．MLTL框架中，对脊回归、lasso和elastic net等模型在图像自动标注和视频语义概念检测中的应用进行了分析和比较。图像中可提取多种局部和全局异构视觉特征(如颜色、纹理和形状等)。这些不同异构视觉特征对识别不同语义概念的重要性不同。与传统降维和流形学习方法不同，本文提出了反映结构性组效应的稀疏特征选择机制。这一方法以异构视觉特征为特征组，对特定语义标签选择最具区别性的特征组和组内的特征子集，以提升图像语义理解的性能，并且这种结构化特征选择将得到图像语义理解的可解释模型。因此，本文提出结构性组稀疏的回归模型进行异构视觉特征选择。为了利用多标签之间的关联关系，提出多标签提升算法并与结构化视觉特征选择模型有效集成。因此，本文提出对图像异构视觉特征进行结构性组稀疏特征选择的多标签性能提升框架MtBGS。在开放基准图像数据集上的实验表明，MtBGS 有良好的多标签图像自动标注性能，并使得图像语义理解过程可解释。关键词：图像语义理解，统计和机器学习，图聚类，复杂图，可见度，Latent DirichletAllocation，谱聚类，多超图排序，半监督学习，视频概念检测，多视图学习，多标签学习，迁移学习，稀疏表达，lass