基于跨模态的无监督影视剧说话人识别.PDFVIP

下载本文档

28
0
约 5页
2018-12-13 发布于天津
举报

基于跨模态的无监督影视剧说话人识别.PDF

第３３卷第５期　　　计算机应用与软件Ｖｏｌ３３Ｎｏ．５６２０１６年５月　　ＣｏｍｐｕｔｅｒＡｐｐｌｉｃａｔｉｏｎｓａｎｄＳｏｆｔｗａｒｅＭａｙ２０１基于跨模态的无监督影视剧说话人识别１，２２２２１，２１，２冯　骋　库天锡　杨卫星　李雪蒙　谭小琼　梁　超１（武汉大学国家多媒体工程技术研究中心　湖北武汉４３００７２）２（武汉大学计算机学院　湖北武汉４３００７２）摘　要　　现如今，影视剧的海量增长给其有效管理带来了巨大挑战，而其中的角色识别在影视剧内容管理中具有重大意义。传统的角色识别主要采用依赖于训练样本质量的有监督学习，而现实中一般难以获得充足的训练样本。针对影视剧中的角色识别，提出一种跨模态的无监督说话人识别方法：首先基于声学特征和时间近邻性的音频聚类获得对应聚类结果的音频标记序列；然后通过剧本解析获得对应说话人、说话内容、说话时间的文本标记序列；接着将音频序列与文本序列进行跨模态序列匹配，构造满射解出最小编辑距离，从而实现说话人识别。实验结果表明，在训练集较少的情况下该方法比有监督方法具有更高识别率。关键词　　说话人识别　说话人聚类　编辑距离　混合高斯模型　序列匹配中图分类号　ＴＰ３　　　　文献标识码　Ａ　　　　ＤＯＩ：１０．３９６９／ｊ．ｉｓｓｎ．１０００３８６ｘ．２０１６．０５．０３３ＣＲＯＳＳＭＯＤＡＬＢＡＳＥＤＵＮＳＵＰＥＲＶＩＳＥＤＳＰＥＡＫＥＲＲＥＣＯＧＮＩＴＩＯＮＩＮＦＩＬＭＡＮＤＴＶＤＲＡＭＡ１，２２２２１，２１，２ＦｅｎｇＣｈｅｎｇ　ＫｕＴｉａｎｘｉ　ＹａｎｇＷｅｉｘｉｎｇ　ＬｉＸｕｅｍｅｎｇ　ＴａｎＸｉａｏｑｉｏｎｇ　ＬｉａｎｇＣｈａｏ１（ＮａｔｉｏｎａｌＥｎｇｉｎｅｅｒｉｎｇＲｅｓｅａｒｃｈＣｅｎｔｅｒｆｏｒＭｕｌｔｉｍｅｄｉａＳｏｆｔｗａｒｅ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７２，Ｈｕｂｅｉ，Ｃｈｉｎａ）２（ＳｃｈｏｏｌｏｆＣｏｍｐｕｔｅｒ，ＷｕｈａｎＵｎｉｖｅｒｓｉｔｙ，Ｗｕｈａｎ４３００７２，Ｈｕｂｅｉ，Ｃｈｉｎａ）Ａｂｓｔｒａｃｔ　　ＮｏｗａｄａｙｓｔｈｅｅｘｐｌｏｓｉｖｅｇｒｏｗｔｈｏｆｆｉｌｍａｎｄＴＶｄｒａｍａｓｂｒｉｎｇｇｒｅａｔｃｈａｌｌｅｎｇｅｓｔｏｔｈｅｉｒｅｆｆｅｃｔｉｖｅｍａｎａｇｅｍｅｎｔ，ａｎｄｉｎｗｈｉｃｈｔｈｅｒｏｌｅｒｅｃｏｇｎｉｔｉｏｎｉｓｏｆｇｒｅａｔｓｉｇｎｉｆｉｃａｎｃｅｉｎｆｉｌｍａｎｄＴＶｄｒａｍａｃｏｎｔｅｎｔｍａｎａｇｅｍｅｎｔ．Ｔｒａｄｉｔｉｏｎａｌｒｏｌｅｒｅｃｏｇｎｉｔｉｏｎｍａｉｎｌｙｄｅｐｅｎｄｓｏｎｔｈｅｓｕｐｅｒｖｉｓｅｄｌｅａｒｎｉｎｇｏｆｔｒａｉｎｉｎｇｓａｍｐｌｅｑｕａｌｉｔｙ，ｈｏｗｅｖｅｒｉｎｒｅａｌｉｔｙｉｔｉｓｄｉｆｆｉｃｕｌｔｔｏｇａｉｎｓｕｆｆｉｃｉｅｎｔｔｒａｉｎｉｎｇｓａｍｐｌｅｓ．ＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｕｎｓｕｐｅｒｖｉｓｅｄｓｐｅａｋｅｒｒｅｃｏｇｎｉｔｉｏｎｍｅｔｈｏｄｗｈｉｃｈｉｓｂａｓｅｄｏｎｃｒｏｓｓｍｏｄａｌａｉｍｉｎｇａｔｒｏｌｅｒｅｃｏｇｎｉｔｉｏｎｉｎｆｉｌｍｓａｎｄＴＶｄｒａｍａｓ．Ｔｈｅｓｔｅｐｓａｒｅａｓｆｏｌｌｏｗｓ：Ｆｉｒｓｔ，ｂａｓｅｄｏｎａｃｏｕｓｔｉｃｆｅａｔｕｒｅｓａｎｄａｕｄｉｏｃｌｕｓｔｅｒｉｎｇｏｆｔｉｍｅｐｒｏｘｉｍｉｔｙｗｅｏｂｔａｉｎｔｈｅａｕｄｉｏｍａｒｋｉｎｇｓｅｑｕｅｎｃｅｏｆｃｏｒｒｅｓｐｏｎｄｉｎｇｃｌｕｓｔｅ

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于跨模态的无监督影视剧说话人识别.PDFVIP