- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
周志华版《机器学习》第十五章知识点笔记
核心主题:规则学习——通过从数据中归纳逻辑规则(如“if-then”形式)实现可解释性建
模,是兼顾推理透明度与泛化能力的经典机器学习框架。
一、规则学习的基本概念
1.1规则的定义与表达形式
规则学习旨在从训练数据中归纳出具有逻辑可解释性的规则集合,其基本形式为:
\text{Body}\rightarrow\text{Head}
•Body(前提):由属性条件的合取式构成,如“(色泽乌黑)∧(根蒂蜷缩)”;
•Head(结论):表示预测结果,如好瓜(分类)或甜度“”“12%”(回归)。
根据表达能力可分为两类:
•命题规则:仅包含属性-值对的布尔组合,适用于简单特征空间;
•“(x,y)(y)→(x,)”
一阶规则:引入变量和谓词(如父亲∧富裕子女幸福),可建模关系型数
据,表达能力更强。
1.2规则学习的核心价值
•可解释性:规则直接对应人类可理解的逻辑判断,便于验证与修正;
•灵活性:支持增量学习,可通过添加/删除规则动态更新模型;
•鲁棒性:对噪声数据的敏感度低于黑箱模型,尤其适用于高可靠性要求场景(如医疗诊
断、金融风控)。
1.3规则的评估指标
•覆盖率(Coverage):规则前提覆盖的样本比例:
\text{Coverage}\frac{\text{满足Body的样本数}}{\text{总样本数}}
反映规则的适用范围。
•准确率(Accuracy):覆盖样本中预测正确的比例:
\text{Accuracy}\frac{\text{满足Body且Head为真的样本数}}{\text{满足Body的样本数}}
反映规则的预测精度。
•F1分数:综合覆盖率与准确率的调和平均,平衡规则的泛化能力与针对性。
二、规则学习的基本算法:序贯覆盖与规则生成
2.1序贯覆盖算法(SequentialCovering)
核心思想:逐条归纳规则,移除已被覆盖的样本后迭代学习,直至覆盖所有样本。
•步骤:
a.D
初始化训练集为全部样本;
b.从D中学习一条最优规则r(如准确率最高);
c.将r加入规则集R,并从D中移除被r覆盖的样本;
d.2-3D
重复步骤,直至为空或无法生成有效规则。
•优势:通过分而治之策略降低复杂度,避免一次性优化整个规则集的NP难问题。
2.2命题规则学习:CN2算法
CN2算法是序贯覆盖的典型实现,采用贪心搜索生成规则并通过预剪枝控制复杂度:
1.规则生成:
◦从空规则开始,通过添加属性条件(如“色泽乌黑”)逐步特化规则;
◦基于似然率统计量(LRS)选择最优条件,LRS越大表示规则对样本分布的区分能力
越强。
1.预剪枝策略:
◦当LRS0.99(默认阈值)时停止规则特化,避免过拟合;
◦对比扩展前后的规则准确率,仅保留性能提升的扩展。
2.3一阶规则学习:FOIL算法
FOIL算法针对关系型数据,通过引入变量和谓词扩展规则表达能力:
1.规则形式:如“Father(x,y)∧Wealthy(y)→Happy(x)”,其中x,y为变量;
2.信息增益计算:
\text{FoilGain}\log_2\frac{m^+}{m^++m^-}-\log_2\frac{m^+-l^+}{(m^+-l^+)+(m^--l^-
)}
其中m^+/m^-为规则覆盖的正负样本数,l^+/l^-为添加新谓词后新增的覆盖样本数。
3.优势:可利用背景知识(如领域谓词)提升学习效率,适用于知识图谱、自然语言推理等
任务。
三、规则剪枝与优化
3.1预剪枝(Pre-pruning)
在规则生成过程中提前终止扩展,常见策略:
•阈值控制:如CN2的LRS阈值、最小覆盖率(如覆盖样本数≥5);
•验证集评估:若扩展规则在验证集上准确率下降,则停止特化。
•优势:计算高效,避免生成冗余规则;
•局限:可能因过早停止导致欠拟合。
3.2后剪枝(Post-pruning):REP算法
REP(Re
文档评论(0)