- 1、本文档共49页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
[计算机科学引论课件06
Machine Structure 复旦大学计算机科学与工程系 Machine Structure 计算机科学引论 人工智能 智能 什么是智能 推理、计划、解决问题 抽象思维 连接复杂观点 快速学习、从实践学习 ?人类拥有这些能力 但是使用起来很累 ?科学是由懒惰者推动的 ?! 人工智能 人工智能(AI: Artificial Intelligence) 制造机器来完成需要使用人类智能的工作 什么样的机器才能被认为有智能? ?图灵测试 被测试的有一个人,另一个是声称自己有人类智力的机器。测试时,测试人与被测试人是分开的,测试人只有通过一些装置(如键盘)向被测试人问一些问题,这些问题随便是什么问题都可以。问过一些问题后,如果测试人能够正确地分出谁是人谁是机器,那机器就没有通过图灵测试,如果测试人没有分出谁是机器谁是人,那这个机器就是有人类智能的。 人工智能 图灵测试 全面通过图灵测试 提问者可以提出任何问题 尚遥遥无期 局部通过图灵测试 提问者只能提某个领域的问题 已有先例 IBM Deep Blue 人工智能 实现人工智能的必要条件 获得并理解人类的感知 视、听、触、味、嗅 目前可以被输入计算机的:视、听 目前可被计算机全面“理解”的:没有! 只可部分理解 有时候被叫做“模式识别”(Pattern Recognition) 推理 传统人工智能技术关注的重点 人工智能 理解人类的感知 理解听觉 理解视觉 理解自然语言(NL: Natural Language) 自然语言是一种特殊的“感知”:视听觉只是其传播方式 每一种感知被称作一种“媒体”(media) 多媒体处理(Multimedia Processing):综合分析多种媒体的内容来对一个素材的内容进行理解 人工智能 理解人类的感知 多媒体处理 “处理”主要指提取其语义内容 三维渲染、视频剪辑、声音合成等技术通常不叫做“多媒体处理” 不过仍然可被认为是“多媒体技术” “多媒体处理”中也会用到一些相关技术 多媒体处理 理解声音(audio) 声音分类 噪声(noise) 乐音(music) 语音(speech) 声音识别 检测风声、雨声、读书声……爆炸声 较少 语音识别(Speech Recognition) 多媒体处理 理解声音 时域(time domain) 声音信号本来的面目 ? 波形图 多媒体处理 理解声音 频域(frequency domain) 声音信号在各个频率的能量分布 多媒体处理 理解声音 频域 早期声卡:频率合成 FM: Frequency Modulation 使用不同的加权权重即可获得不同音色 根据乐器的音色设置权重即可模拟不同乐器的声音 多媒体处理 理解声音 频域 多媒体处理 理解声音 频域 多媒体处理 理解声音 第一步:把声音信号变换到频域 FFT: Fast Fourier transform DFT: Discrete Fourier transform …… 第二步:把频率信息变换成特征 倒谱(cepstrum):把频域信息再次进行频率变换 MFCC LPCC 实际计算中这两步常常合并成一步 多媒体处理 理解声音 特征(Feature) 物理上:可以较好地反映某个特性的物理量 数学上:一个矢量(Feature Vector) 特征提取(Feature Extraction) 从原始信号中计算出所需要的特征 一旦原始信号被抽象成特征,对感知的理解问题就成为一个数学问题 把特征矢量转换成语义的数学算法:分类 多媒体处理 理解声音 分类(classification) 把特征矢量转换成语义的数学算法 例:语音识别 把MFCC所组成的高维空间分解成不同的部分,每部分代表一个读音。如某个特征矢量落在某部分,则可知道该矢量代表的读音。 多媒体处理 理解声音 分类 如何获得特征空间的划分方法? ?机器学习(Machine Learning) 采集一大堆样本,样本与语义的对应关系已知。于是,根据这个对应关系就可以知道特征空间中的某个区域所对应的语义是什么。 例:让100个人说“o”,然后对其声音进行变换,发现其MFCC都落在图中的区域,则可知该区域对应“o”。 多媒体处理 理解声音 机器学习 第一步:获得一个训练集(Training Set) 特征矢量和所需要的语义的对应关系 第二步:根据训练集训练出对特征空间的划分 模型(Model) 第三步:根据所获得模型对新到特征矢量分类 多媒体处理 理解声音 机器学习 特征矢量是高维矢量 常用:10-1000维 获得训练样本成本很高 必须标注样本和语义的对应关系,只能由人完成 训练集在特征空间的分布是非常稀疏的 多媒体处理 理解声音 机器学习 高级建模算法 SVM: Support Vector Machine G
文档评论(0)