- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模糊决策树
属性 日常生活中的模糊概念 模糊集合 用模糊集合来描述模糊概念 属性:身高 属性值:高,矮----语言术语 两种不确定性 两种不确定性 不确定性度量 模糊决策树 模糊决策树 模糊决策树的归纳过程 (1)数据预处理 数据预处理,包括噪声检查、缺失属性处理、数据离散化、数据模糊化、训练数据和测试数据的划分等操作. 重点是数据模糊化: 一般数据库属性都是:离散的和连续的很少有以模糊集形式给出的。 离散的?模糊的 连续的?模糊的 把数据的分布信息转化成数据的模糊程度。 离散的?模糊的 离散的?模糊的 连续的?模糊的 把数据的分布信息转化成数据的模糊程度。 指定隶属函数和隶属函数的参数。 常用的隶属函数有: 三角隶属函数 梯形隶属函数 高斯隶属函数 连续的?模糊的 属性:身高 属性值:高,矮----语言术语 实验数据 (2)归纳建立决策树 (2)归纳建立决策树 不确定性度量 (2)归纳建立决策树 (2)归纳建立决策树 (3)模糊规则 (4)模糊推理 对于一个给定的样本,可以通过以下步骤得到分类结果: (1)对于每一条模糊规则,根据规则的条件属性和规则的真实度来计算该 样本的分类和属于该分类的隶属度。在规则内取小,得到的值再乘以该条规 则的真实度CF得到的值作为样本属于该分类的隶属度。 (2)如果多条规则都把该样本分到同一个类别,则选择隶属度最大的值作为该样本属于该类别的隶属度。 (3)如果样本被分到不同的类别中,则选取隶属度最大的类别作为该样本的最终分类结果。 在模糊推理中有四种常用的算子,包括( , ), ( , ), ( , )和( , )。 谢谢! 模糊决策树 主讲人:高相辉 河北大学机器学习中心 主要内容 清晰决策树 属性 两种不确定性及其度量 模糊决策树 模糊规则 模糊推理 分类问题 训练样例 条件属性(Sky,AirTemp Humidity,…) 决策属性(EnjoySport) 属性取值(对于Sky:Suny,Rainy) (对于EnjoySport:Yes,No) Example Sky AirTemp Humidity Wind Water Forecast EnjoySport 1 Sunny Warm Normal Strong Warm Same Yes 2 Sunny Warm High Strong Warm Same Yes 3 Rainy Cold High Strong Warm Change No 4 Sunny Warm High Strong Cool Change Yes 分类问题示例:Aldo进行水上运动的日子 决策树简介 Yes Outlook Humidity Wind No Yes No Yes Sunny Overcast Rain High Normal Strong Weak 结点:属性 边:属性值 叶子结点:类别 决策树表示方法 Yes Outlook Humidity Wind No Yes No Yes Sunny Overcast Rain High Normal Strong Weak IF-THEN规则: IF Outlook = Sunny AND Humidity = High THEN PlayTennis = No …… 基本的决策树学习算法 主要内容: (1)ID3算法 (2)熵(Entropy) (3)信息增益(Information Gain) 熵(Entropy) ID3算法的核心问题:如何选取属性? { Outlook, Temperature, Humidity, Wind} 一组样本S对于二元分类的熵为: 其中p+和 p-为S中的正例、反例所占比例。 例子:S中有9个正例,5个负例 熵(Entropy) 信息增益 属性的信息增益是按该属性分割后熵的消减期望值: 其中Sv是S中属性A值为v的子集。 ID3算法选择信息增益最大的属性来分裂当前结点。 连续值属性 连续属性的离散化:对于连续值的属性A,算法可动态地创建一个新的布尔属性Ac,如果Ac,那么为Ac真,否则为假。 例子: 可供选择的阈值(48+60)/2=54,(80+90)/2=85 c=54所对应的信息增益大。所以选择Temperture54 对于连续属性的关键问题是如何选取最佳的阈值c. 属 性:条件属性,决策属性。 属性值:离散的,连续的,模糊的。 离散的:形状{三角,圆形} 颜色{红,黄} Crisp Decision Tree 连续的:身高 {175cm} Binary
文档评论(0)