- 1、本文档共93页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
机器学习研究 王 珏 中国科学院自动化研究所 2003年3月,北京,自动化所 反思 网络经济的泡沫破灭之后,哪些是值得我们在研究方向上反思的问题呢? 我们的研究应注意哪些课题呢? 需求---NII计划 不分地域地、有效地获得与传输信息。 不分地域地、有效地共享硬软资源。 有效地利用信息,以提高生产率。 保证信息安全。 在过去的十年中,做了什么? 以浏览器为核心技术的“有效获得信息”的研究取得了预期效果。 人们已可以从不同地域有效地获得信息。 但是,,, 硬软资源的使用 在网络上的硬软资源的利用率只有3-5%。 大量计算资源没有由于网络设施的支持而被充分利用。 硬软件的快速更新,导致对环境的污染。 信息的有效使用 由于技术发展的滞后,在网络上获得的信息和与提高生产率有关的信息的有效使用率甚至低于1%。 占用大量硬软资源的信息正在大量地被浪费。 信息安全 信息的安全还没有保证。 提高信息使用率 以机器学习为理论基础的各种方法,是提高信息使用率的有效途径之一。 机器学习 复杂数据分析(符号机器学习) 机器学习 机器学习的一般说明 统计机器学习 集成机器学习 机器学习的研究动力 领域应用驱动。 算法驱动。 领域应用驱动 自然语言数据分析。 DNA数据分析。 网络与电信数据分析。 图像数据分析。 金融与经济数据分析。 零售业数据分析。 情报分析。 没有一种算法可以解决复杂的实际问题。需要各种算法集成。 算法驱动 海量数据(108-10)。 算法的泛化能力,或算法可解释。 不同类型数据的学习方法。 机器学习研究热点的变迁 1989年(Carbonell), 1997年(Dietterich) 符号机器学习。 符号机器学习。 连接机器学习。 集成机器学习。 遗传机器学习。 统计机器学习。 分析机器学习。 增强机器学习。 机器学习计算的说明 令W是这个给定世界的有限或无限所有对象的集合,由于我们观察能力的限制,我们只能获得这个世界的一个有限的子集Q?W。 机器学习的任务就是根据这个世界的对象子集Q,计算这个世界的统计分布。这样,在统计意义下,这个分布对这个世界的绝大多数对象是正确的。这就是这个世界的一个模型。 三个要求 一致性假设:机器学习任务的本质。 对样本空间的划分:决定对样本的有效性。 泛化能力:决定对世界的有效性。 一致性假设 假设世界W与被观察的对象集合Q具有某种相同的性质。 称为一致性假设。 基于统计的假设 原则上说,存在各种各样的一致性假设。 在统计意义下,一般假设: W与Q具有同分布。或, 给定世界W的所有对象独立同分布。 划分 将被观测的对象集合放到一个n维欧氏空间,寻找一个超平面,使得问题决定的不同对象分在不相交的区域。 机器学习主要研究的是这部分内容,即,寻找划分对象集合的超平面(等价关系)。 超平面类型 光滑且连续的超平面。 有限不光滑点,甚至有限不连续点的超平面。 光滑连续超平面作为研究基础 Perceptron,人工神经网络是典型例子。 困难: 对线性不可分的对象集合,如果限制算法是P的,则存在本质性困难。 泛化 机器学习的首要任务是划分。只有找到一个等价关系(模型),将不同类的样本划分为不同的类,才能考虑其他问题。 泛化是一个确定的划分对世界的分类能力。 由于可能存在不同的划分样本集合方法,其泛化能力不同,泛化能力最强的划分就是我们希望的分类器。 Duda的泛化能力描述 以样本个数趋近无穷大来描述模型的泛化能力。 泛化能力需要使用世界W来刻画,是无法构造的判据。 均方差可作为目标函数。 评述 由于人们没有找到基于样本集合Q的描述泛化能力的数学工具。另外,线性不可分问题是一个困难。 在感知机时代,基于Duda泛化理论无法指导机器学习算法的设计,这样,评价机器学习算法只能以划分能力作为指标。 Vapnik对这个问题做出重要贡献。 这样,注重从划分变为泛化。 以划分能力为目标的研究 这类研究的指导思想,一直延续到上个世纪的九十年代。 直到今天,还有大量的学者以此作为机器学习的指导思想。以BP算法为核心的神经网络研究是典型例子。 划分是机器学习的一个目标,但是,不是预测任务的主要研究目标。 神经网络---BP算法 使用了一种非线性的基函数。 这项研究的意义是为研究者回归感知机做好了舆论的准备。 其在科学上的意义,远不如提示人们再次注意感知机的作用更大。 统计机器学习理论与SVM 对机器学习的研究者来说,统计机器学习理论所派生的算法SVM似乎更有吸引力。 但是,如果研究者忘记SVM所基于的统计基础,就与Vapnik的本意相悖了。 事实上,Vapnik的统计理论才是其精华,而基于这个理论的算法只是从这个统计理论派生的自然结果。 机器学习的
您可能关注的文档
- 2013-2014学年中考政治二轮复习 个人利益与集体利益相互依存.doc
- 健康心理学教学大纲 郭妮妮教学.doc
- 中国网络信息存档及其及国外的比较_基于国家图书馆WICP项目的研究.pdf
- 第四章 传播学终极版.doc
- 第二章 案例分析-婴幼儿奶粉消费者行为研究.pdf
- 三级2011.12鉴定考复习资料(第四期)剖析.doc
- 国际关系理论中法国学派.pdf
- 男士应该怎样改善肤色肤质让自己更有魅力.pdf
- 南开17春秋学期《物业管理综合能力》在线作业概论.doc
- 第九章 《保险学概论》形考作业1答案.doc
- 《GB/T 2820.5-2025往复式内燃机驱动的交流发电机组 第5部分:发电机组》.pdf
- GB/T 18501.8101-2025电子和电气设备用连接器 产品要求 第8-101部分:电源连接器 2芯、3芯40 A功率加2芯信号塑料外壳屏蔽密封连接器详细规范.pdf
- GB/T 35077-2025机械安全 局部排气通风系统 安全要求.pdf
- 中国国家标准 GB/T 35077-2025机械安全 局部排气通风系统 安全要求.pdf
- 《GB/T 35077-2025机械安全 局部排气通风系统 安全要求》.pdf
- GB/T 30556.5-2025电磁兼容 安装和减缓导则 第5部分:HEMP传导骚扰保护装置规范.pdf
- 中国国家标准 GB/T 30556.5-2025电磁兼容 安装和减缓导则 第5部分:HEMP传导骚扰保护装置规范.pdf
- 《GB/T 30556.5-2025电磁兼容 安装和减缓导则 第5部分:HEMP传导骚扰保护装置规范》.pdf
- GB/T 31102-2025系统与软件工程 软件工程知识体系.pdf
- GB/T 16263.4-2025信息技术 ASN.1编码规则 第4部分:XML编码规则(XER).pdf
最近下载
- YAESU八重洲FT-8800R中文使用说明书 2014-05-05.pdf
- 小学体育教学课件:走进体育与健康的世界——常见运动损伤的预防和处理.pptx
- 2023-2024学年福建省厦门一中七年级(上)入学数学试卷(含答案).pdf VIP
- 3.1.1 椭圆及其标准方程 课件(共37张ppt) ——高二数学人教A版(2025)选择性必修第一册(含音频+视频).pptx VIP
- 2025江苏财经职业技术学院第二批招聘24人短期笔试模拟试题及答案解析.docx VIP
- 教师职称晋升教育教学能力水平测试复习资料.pdf VIP
- 天津大学《工程经济学》内部题库练习期末真题汇编及答案.pdf
- 2024年海南省中考地理试题卷(含答案解析) +2023年中考地理及答案.docx
- APQC跨行业流程分类框架(PCF)[最新V7.4版-2024年8月21日版-雷泽佳编译).docx VIP
- 肿瘤患者预防跌倒公休会ppt.pptx
文档评论(0)