- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
多模态数据表征普通高等教育“十一五”国家级规划教材商务智能原理与方法(第三版)第十三章
01文本表征
词袋模型(BagofWords)是最早的文本表征方法。顾名思义,词袋模型将一段话或者一篇文章视为一个“词袋”,即一个装有多个词语的袋子。词袋模型假设文本是由多个词语组成,不考虑词语之间的前后顺序,仅关注文本包含了哪些词语,以及词语出现的次数。文本表征词袋模型在用词袋模型对文本进行向量化表征前,需要对原始文本数据进行一些基本的数据清洗和预处理,从而能有效地统计文本中包含的词及词频。
Word2vec是谷歌团队于2013年提出的一种高效训练词向量的自然语言处理工具,能简单、快速得到词语的向量表示,适用于大规模语料的学习。Word2vec是一种词嵌入的特征表示方式,将一个词映射到N维向量空间中,即将词语表示转换为N维向量的数学表示,这样的向量被称为词向量。文本表征Word2vec模型
Doc2vec模型是在Word2vec模型基础上提出的一种用于计算长文本向量的深度学习算法,与Word2vec模型不同,在神经元网络的输入层,Doc2vec模型增加了一个句子向量,句子向量与词向量维度相同,每次在训练过程中,将长文本作为一个特殊的段落ID引入语料中。在训练过程中,算法结合上下文、单词顺序和段落特征,以及训练词向量出现的概率分布,在计算句子向量的同时也可计算词向量。文本表征Doc2vec模型
潜在语义分析模型是一种自然语言处理技术。潜在语义分析模型概率潜在语义分析模型是由LSA模型发展而来。概率潜在语义分析模型潜在狄利克雷分配模型用来推测文档的主题分布,是目前应为最广泛的主题模型。潜在狄利克雷分配模型主题模型文本表征
02图像表征
图像是一类重要的多模态数据,也是最早应用表征学习的数据之一。对于图像的表征通常都采用深度学习类的方法。深度学习可以看作一种通过简单、非线性映射方式获取多层特征的表征学习方法,把原始输入数据通过逐层映射,转变为高阶的、更抽象的特征。对于图像表征,最常用方法就是卷积神经元网络。另一种常用于图像处理的方法是自编码器。图像表征
03音频表征
音频分析在语音识别、数字信号处理、音乐分类、标签生成等领域的应用逐渐受到了学者们的关注。目前流行的应用系统,如虚拟助手Siri和百度小度等,都是构建于音频信号提取模型之上的。很多研究人员在音频分类、语音识别、语音合成等任务上不断努力,构建了许多工具来分析、探索、理解音频数据。音频表征
在语音和音频处理中,一些常用的数据特征和转换方法包括频谱、频谱图和梅尔频率倒谱系数(Mel-FrequencyCepstralCoefficients,MFCC)等。处理音频信号时,采样能将连续信号转换为一组离散数值,通过有规律的时间间隔对声波进行采样,并在每个样本处测量声波的振幅。音频表征
04视频表征
视频表征学习(VideoRepresentationLearning,VRL)旨在通过机器学习算法对原视频进行表征提取,为相关下游任务提供语义特征。视频可以看作由连续多帧的图像组成,前文提到的图像表征方法,如卷积神经元网络等,也是进行视频表征的常见方法。但是相对于基础的图像数据,视频数据量更大、维度更高,表达、处理、分析、传输和利用的技术挑战性更大,它的时空特性使得传统的图像表征方法无法直接用于视频,还需要结合视频数据特性对方法进行改进。视频表征
最简单直接的方法是将视频进行截帧,然后在图像粒度(单帧)上进行特征表达。一种常见的视频表征方式是在基础CNN上进行扩展,其总体思路是在CNN框架中寻找时间域上的某模式来表达局部运动信息,从而获得总体性能的提升。双路CNN的方式包括两个独立的神经元网络,一个CNN用来处理普通的单帧图像,另一个CNN处理连续几帧的光流信息,以捕捉视频的动态特征,最后把两个模型的结果平均进行优化。视频表征
谢谢观看商务智能原理与方法(第三版)普通高等教育“十一五”国家级规划教材
您可能关注的文档
- 商务智能原理与方法(第三版) 课件 ch01 引言.pptx
- 商务智能原理与方法(第三版) 课件 ch02 商务智能应用.pptx
- 商务智能原理与方法(第三版) 课件 ch03 商务智能过程.pptx
- 商务智能原理与方法(第三版) 课件 ch04 数据平台.pptx
- 商务智能原理与方法(第三版) 课件 ch05 构建商务智能环境.pptx
- 商务智能原理与方法(第三版) 课件 ch06 数据预处理.pptx
- 商务智能原理与方法(第三版) 课件 ch07 关联规则.pptx
- 商务智能原理与方法(第三版) 课件 ch08 分类分析.pptx
- 商务智能原理与方法(第三版) 课件 ch09 聚类分析.pptx
- 商务智能原理与方法(第三版) 课件 ch10 社会网络分析.pptx
最近下载
- 2023年一级建造师工程经济历年真题章节练习题集.pdf VIP
- 《肺结核病报告转诊制度》.pdf VIP
- 脑梗塞ppt课件(精).pptx VIP
- 高血压、糖尿病培训试题(附答案).docx VIP
- pixelgridV4.5高分辨率卫星影像数据处理系统卫片使用手册.pdf VIP
- 贵州财经大学 法学综合(民法、经济法)A卷 2018年考研专业课真题.pdf VIP
- 2025年河南省高考对口升学烹饪试卷 .pdf VIP
- 贵州财经大学 法学综合(民法、经济法)B卷 2018年考研专业课真题.pdf VIP
- 论刑法中多次犯的理论与实践剖析:从概念厘定到司法适用.docx VIP
- 17J008 挡土墙(重力式、衡重式、悬臂式)(最新).pdf VIP
文档评论(0)