基于跨模态的无监督影视剧说话人识别.PDFVIP

  • 28
  • 0
  • 约 5页
  • 2018-12-13 发布于天津
  • 举报

基于跨模态的无监督影视剧说话人识别.PDF

基于跨模态的无监督影视剧说话人识别.PDF

第33卷第5期    计算机应用与软件 Vol33No.5 6 2016年5月   ComputerApplicationsandSoftware May201 基于跨模态的无监督影视剧说话人识别 1,2 2 2 2 1,2 1,2 冯 骋  库天锡  杨卫星  李雪蒙  谭小琼  梁 超 1(武汉大学国家多媒体工程技术研究中心 湖北武汉430072) 2(武汉大学计算机学院 湖北武汉430072) 摘 要  现如今,影视剧的海量增长给其有效管理带来了巨大挑战,而其中的角色识别在影视剧内容管理中具有重大意义。传统 的角色识别主要采用依赖于训练样本质量的有监督学习,而现实中一般难以获得充足的训练样本。针对影视剧中的角色识别,提出 一种跨模态的无监督说话人识别方法:首先基于声学特征和时间近邻性的音频聚类获得对应聚类结果的音频标记序列;然后通过剧 本解析获得对应说话人、说话内容、说话时间的文本标记序列;接着将音频序列与文本序列进行跨模态序列匹配,构造满射解出最小 编辑距离,从而实现说话人识别。实验结果表明,在训练集较少的情况下该方法比有监督方法具有更高识别率。 关键词  说话人识别 说话人聚类 编辑距离 混合高斯模型 序列匹配 中图分类号 TP3    文献标识码 A    DOI:10.3969/j.issn.1000386x.2016.05.033 CROSSMODALBASEDUNSUPERVISEDSPEAKERRECOGNITION INFILMANDTVDRAMA 1,2 2 2 2 1,2 1,2 FengCheng  KuTianxi YangWeixing LiXuemeng TanXiaoqiong  LiangChao 1(NationalEngineeringResearchCenterforMultimediaSoftware,WuhanUniversity,Wuhan430072,Hubei,China) 2(SchoolofComputer,WuhanUniversity,Wuhan430072,Hubei,China) Abstract  NowadaystheexplosivegrowthoffilmandTVdramasbringgreatchallengestotheireffectivemanagement,andinwhichthe rolerecognitionisofgreatsignificanceinfilmandTVdramacontentmanagement.Traditionalrolerecognitionmainlydependsonthe supervisedlearningoftrainingsamplequality,howeverinrealityitisdifficulttogainsufficienttrainingsamples.Thispaperproposesan unsupervisedspeakerrecognitionmethodwhichisbasedoncrossmodalaimingatrolerecognitioninfilmsandTVdramas.Thestepsareas follows:First,basedonacousticfeaturesandaudioclusteringoftimeproximityweobtaintheaudiomarkingsequenceofcorresponding cluste

文档评论(0)

1亿VIP精品文档

相关文档