[计算机科学引论课件06.ppt

下载文档

1
0
约1.09万字
约 49页
2017-01-09 发布于北京
举报
版权申诉
保障服务

[计算机科学引论课件06.ppt

1、本文档共49页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

[计算机科学引论课件06

Machine Structure 复旦大学计算机科学与工程系 Machine Structure 计算机科学引论人工智能智能什么是智能推理、计划、解决问题抽象思维连接复杂观点快速学习、从实践学习 ?人类拥有这些能力但是使用起来很累 ?科学是由懒惰者推动的 ?! 人工智能人工智能(AI: Artificial Intelligence) 制造机器来完成需要使用人类智能的工作什么样的机器才能被认为有智能？ ?图灵测试被测试的有一个人，另一个是声称自己有人类智力的机器。测试时，测试人与被测试人是分开的，测试人只有通过一些装置（如键盘）向被测试人问一些问题，这些问题随便是什么问题都可以。问过一些问题后，如果测试人能够正确地分出谁是人谁是机器，那机器就没有通过图灵测试，如果测试人没有分出谁是机器谁是人，那这个机器就是有人类智能的。人工智能图灵测试全面通过图灵测试提问者可以提出任何问题尚遥遥无期局部通过图灵测试提问者只能提某个领域的问题已有先例 IBM Deep Blue 人工智能实现人工智能的必要条件获得并理解人类的感知视、听、触、味、嗅目前可以被输入计算机的：视、听目前可被计算机全面“理解”的：没有！只可部分理解有时候被叫做“模式识别”(Pattern Recognition) 推理传统人工智能技术关注的重点人工智能理解人类的感知理解听觉理解视觉理解自然语言(NL: Natural Language) 自然语言是一种特殊的“感知”：视听觉只是其传播方式每一种感知被称作一种“媒体”(media) 多媒体处理(Multimedia Processing)：综合分析多种媒体的内容来对一个素材的内容进行理解人工智能理解人类的感知多媒体处理 “处理”主要指提取其语义内容三维渲染、视频剪辑、声音合成等技术通常不叫做“多媒体处理” 不过仍然可被认为是“多媒体技术” “多媒体处理”中也会用到一些相关技术多媒体处理理解声音（audio）声音分类噪声(noise) 乐音(music) 语音(speech) 声音识别检测风声、雨声、读书声……爆炸声较少语音识别(Speech Recognition) 多媒体处理理解声音时域(time domain) 声音信号本来的面目 ? 波形图多媒体处理理解声音频域(frequency domain) 声音信号在各个频率的能量分布多媒体处理理解声音频域早期声卡：频率合成 FM: Frequency Modulation 使用不同的加权权重即可获得不同音色根据乐器的音色设置权重即可模拟不同乐器的声音多媒体处理理解声音频域多媒体处理理解声音频域多媒体处理理解声音第一步：把声音信号变换到频域 FFT： Fast Fourier transform DFT： Discrete Fourier transform …… 第二步：把频率信息变换成特征倒谱(cepstrum)：把频域信息再次进行频率变换 MFCC LPCC 实际计算中这两步常常合并成一步多媒体处理理解声音特征(Feature) 物理上：可以较好地反映某个特性的物理量数学上：一个矢量(Feature Vector) 特征提取(Feature Extraction) 从原始信号中计算出所需要的特征一旦原始信号被抽象成特征，对感知的理解问题就成为一个数学问题把特征矢量转换成语义的数学算法：分类多媒体处理理解声音分类(classification) 把特征矢量转换成语义的数学算法例：语音识别把MFCC所组成的高维空间分解成不同的部分，每部分代表一个读音。如某个特征矢量落在某部分，则可知道该矢量代表的读音。多媒体处理理解声音分类如何获得特征空间的划分方法？ ?机器学习(Machine Learning) 采集一大堆样本，样本与语义的对应关系已知。于是，根据这个对应关系就可以知道特征空间中的某个区域所对应的语义是什么。例：让100个人说“o”，然后对其声音进行变换，发现其MFCC都落在图中的区域，则可知该区域对应“o”。多媒体处理理解声音机器学习第一步：获得一个训练集(Training Set) 特征矢量和所需要的语义的对应关系第二步：根据训练集训练出对特征空间的划分模型(Model) 第三步：根据所获得模型对新到特征矢量分类多媒体处理理解声音机器学习特征矢量是高维矢量常用：10-1000维获得训练样本成本很高必须标注样本和语义的对应关系，只能由人完成训练集在特征空间的分布是非常稀疏的多媒体处理理解声音机器学习高级建模算法 SVM: Support Vector Machine G