融合音频,视频与文字线索从多式联运内容中分析情绪.docx

下载文档 降价啦

5
0
约1万字
约 10页
2018-06-11 发布于湖北
举报
版权申诉
保障服务

融合音频,视频与文字线索从多式联运内容中分析情绪.docx

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

融合音频，视频和文字线索从多式联运内容中分析情绪SoujanyaPoriaaErikCambriabNewtonHowardcGuang-BinHuangdAmirHussaina英国Stirling大学计算机科学、数学系。新加坡南洋理工大学，计算机工程。美国麻省理工学院，媒体实验室。新加坡南洋理工大学电气与电子工程学院，文章信息文章历史：2014年10月31日被接受，2014年12月31号被修订，2015年1月2号被被普遍认可，2015年8月17日可在线获得。关键字多模态融合社会大数据分析意见挖掘多模态情感分析Sentic计算摘要数量庞大的视频每天被公布在社会化媒体平台，如Facebook和YouTube。这使得互联网有无限来源的信息，在未来的几十年里,应付这样的信息,挖掘有用的知识将是一个越来越困难的任务，在本文中，我们提出一个新颖的方法对多通道情绪分析,由收获情绪从网络视频演示模型,利用音频、视觉和文本形式作为信息的来源。我们使用这两个特性,将情感决策级融合方法信息提取多个模式与这方面现有的作品通过论文进行了彻底的对比，这证明了我们的方法的新颖性。初步与YouTube比较数据集实验表明,该多通道系统达到近80%的精度,优于所有最先进的系统20%以上。2015 Elsevier B.V保留所有权利1.介绍主体性和情感分析是自动的识别人类思维(即私有状态。、观点、情感、情绪、行为和信仰)。此外,主观检测重点是确定数据是否主观目标。其中,情绪分析将数据分为积极的,负面和中性范畴,因此,确定数据的情感极性。到目前为止,大部分的情感分析的工作。进行自然语言处理。可用的数据集和资源局限于文本情感分析、情绪分析。随着社交媒体的出现,人们现在广泛使用社交媒体平台来表达他们的意见。人们越来越多地利用视频(如YouTube和Vimeo VideoLectures),图片(如Flickr,Picasa,Facebook)和音频(如podcasts)通过空气在社交媒体平台上他们的意见。因此,它是高度对我的意见和至关重要识别情绪的不同形式。到目前为止多通道情感分析领域没有得到太多的关注,和没有工作之前专门解决提取特征提取和融合的信息从不同的形式。在本文中,我们讨论了特征提取过程从不同的方式以及说话方式我们用它们来构建一种新颖的多通道情绪分析框架。我们用最初开发的YouTube的数据集[1]，我们所采用的几种监督机器学习的情感分类为基础的分类。最好的性能已经得到了极端学习机（ELM），一种新兴的学习技术为广义进给提供有效的统一解—正向网络包括（但不限于）单/多—隐层神经网络，径向基函数网络内核学习。ELMs提供诸如学习速度快等显著优点，易于实施，和最少的人为干预。因此他们提供强大的潜力作为一个可行的替代技术的大规模计算和机器学习的许多不同的应用领域，包括图像，文，和语音处理，以及多模态数据分析。其余的论文安排如下：2节介绍拟议的工作背后的动机；3部分包括有关从不同的方式对情绪和情绪识别工作；第4节介绍了使用的数据集，并提出了一种实验概述；接下来，5，6和7解释视觉，音频和文本数据怎么进行处理，分别为8节说明了采用的方法融合不同的方式；第9节提出了一个概念证明的实时多模态情感分析头像，10部分介绍了实验结果；最后，11部分总结全文，概述未来的工作。2.动机在这一领域的研究迅速吸学术界和工业界的引注意力和一致好评，这种结合的进步信号处理和人工智能的发展导致了高级智能系统,打算检测和处理情感信息包含在多通道的来源。然而,大多数这样的先进的框架依赖于一个处理形态,也就是说,文本、音频或视频。此外,所有这些系统被展览限制在满足鲁棒性、准确性和整体性能需求反过来又极大地限制了这种系统在实际应用中的有效性。多传感器数据融合的目的是提高精度和可靠性的估计。许多应用程序,例如导航工具,已经证明了数据融合的潜力。这描述了开发一个多通道的重要性和可行性框架,可以应对所有三个传感模式:文本,在以人为中心的环境中音频和视频。人类交流和表达自己的情感和情绪的方式可以表示成多通道。同时文本、音频和视觉形式和认知的剥削,使有效提取的语义和情感信息转达了在沟通。随着社会媒体的普及，如脸谱网和YouTube，很多用户会上传自己的意见论视频格式的产品。恰恰相反，人们想要购买相同的产品，浏览通过在线评论和作出他们的决定。因此,矿业市场更感兴趣意见从视频数据而非文本数据。视频数据可能含有更多的线索来识别情绪的观点持有者有关的产品。音频数据在一个视频表达说话者的语气,视觉数据传达了面部表情,这反过来有助于理解的情感状态的用户。视频数据可以是一个很好的来源情绪分析,可是主要挑战需要克服。例如,表达的意见因人而异。一个人可能更为强烈而其他人表达他或她的意见可以更形象。因此，当一个人表达了他的意