- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
* 定理:如果一个概念是弱可学习的,充要条件是它是强可学习的 这个定理证明是构造性的,派生了弱分类器的概念,即,比随机猜想稍好的分类器 这个定理说明: 多个弱分类器可以集成为一个强分类器 1990年,Schapire证明了一个关键定理,由此,奠定了集成机器学习的理论基础 集成机器学习的研究还存在着大量未解决的问题,关于泛化能力的估计(不等式)还存在问题 目前,这类机器学习的理论研究主要是观察与积累,大量的现象还不能解释 * 最早的符号机器学习: Solomonoff的文法归纳方法(1959) 符号机器学习的主流: Samuel限制机器学习在结构化符号数据集合上(1967),约简算法。 Gold证明,这是不可能的实现的(1967)。 值得注意的动向: 文法归纳方法引起人们的重视。 Hebb路线:每个规则可以理解为一个弱分类器。 符号机器学习不同于统计机器学习,划分样本集合的等价关系是学习所得,符号机器学习是事先定义等价关系,学习只是在这个等价关系下约简样本集合 等价关系为: {(x, y) : a(x)=a(y), x, y?U} * 一个无矛盾规则越短,其覆盖对象越多,因此,符号机器学习的泛化是以信息长度描述的。这样,“最小”树或规则集合就是其目标函数 两个因素影响这个目标:其一,从实域到符号域的映射,其二,在符号域上的约简。对“最小”两者都是NP完全的。因此,近似算法是必然的 但是,只有在符号域上的约简是符号机器学习特有,因此,其泛化能力受到限制 不必与统计机器学习竞争,设立新目标 * 传统机器学习假设所有用户有相同的需求,其目标函数确定,而数据分析,不同用户有不同需求,目标函数随用户需求而定 传统机器学习是“黑箱”,模型无须可解释,但是,数据分析必须考虑对用户的可读性 传统机器学习将“例外”考虑为噪音,而数据分析则认为“例外”可能是更有意义的知识 * 由于这类机器学习主要处理符号,因此,如果获得一个长度较短的数据集合的描述,可以将其翻译为人可以阅读的文本。人通过阅读这个文本就可以了解数据集合的内容 这个目标与泛化能力无关,计算结果只是给定数据集合根据特定需求的一个可以被人阅读的缩影 这与传统数据分析的目标一致 * 数据分析的主要工具是统计,“统计显现”是分析的主要指标 符号数据分析,尽管统计工具是必要的,但是,主要是通过将符号数据集合约简为简洁形式 * Rough sets中的reduct理论是近几年符号机器学习最重要的研究结果之一 这个理论理论可以作为符号机器学习的数学基础 这个理论可以作为符号数据分析的基础(数据挖掘) * 在任务上,association rules派生于统计相关分析,其方法可以使用reduct理论来刻画 Reduct具有很多重要的数学性质,可以保证根据不同需求识别不同的例外 我们建议,将符号数据分析建立在reduct理论之上 * 不能被模型(统计分布、规则集合等)概括的某些观察称为相对这个模型的outlier/ exception 注释: 在统计学中,这类观察称为outlier,在认知科学中,有意义的outlier称为exception * R是给定U, C?{d}的reduct,使用R构造新信息系统U, R?{d},R是这个信息系统的Core 只要删除一个核属性,必然产生例外,同时缩短规则集 * 删除例外,可以使得规则更为简洁,从而突出信息的重点。例外是噪音 例外是比可以覆盖大多数样本的规则更为有趣的知识 对专家,规则是“老生常谈”,而例外则是应该引起注意的事件或知识 例外是新研究与发现的开始 * 增强机器学习最早提出是考虑“从变化环境中”学习蕴含在环境中知识,其本质是对环境的适应 开始的动机主要是为了解决机器人规划、避障与在环境中适应的学习问题 目前,由于网络用户是更为复杂的环境,例如,如何使搜索引擎适应用户的需求,成为更为重要的应用领域 * 很多问题的表示方法,使得信息十分稀疏,如何将信息稠密化是一个困难的问题(“维数灾难”),主成分分析是一种方法,但是,只对线性情况有效 流形学习是解决上述问题的非线性方法 由于流形的本质是分段线性化,因此,流形学习需要解决计算开集、设计同胚映射等问题 * 在观测数据中,可能有很多观测不能决定其类别标号。这需要根据数据中已知类别标号的样本与领域知识来推测这些样本的类别标号,并建立问题世界的模型,这就是半监督学习 这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病灶都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分? * 传统的机器学习中,一个对象有一个描述,而在一些实际问题中,一个对象可能同时有多个描述,到底哪个描述是决定对象性质(例如类别)的,却并不知道。解决这种“对象:描述:类别”之间1:N:1关
文档评论(0)