支持度s.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持度s

支持度s D中包含A和 B 的事务数与总的事务数的比值 规则 A(B 在数据集D中的支持度为s, 其中s 表示D中包含A(B (即同时包含A和B)的事务的百分率. 可信度 c D中同时包含A和B的事务数与只包含A的事务数的比值 规则 A(B 在数据集D中的可信度为c, 其中c表示D中包含A的事务中也包含B的百分率.即可用条件概率P(B|A)表示. confidence(A ( B )=P(B|A) 条件概率 P(B|A) 表示A发生的条件下B也发生的概率 关联规则根据以下两个标准(包含或排除): 最小支持度 – 表示规则中的所有项在事务中出现的频度 最小可信度 - 表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度 项集 – 任意项的集合 k-项集 – 包含k个项的项集 频繁 (或大)项集 – 满足最小支持度的项集 两个基本步骤 找出所有的频繁项集 满足最小支持度 找出所有的强关联规则 由频繁项集生成关联规则 保留满足最小可信度的规则 思想: Apriori 使用了一种称作level-wise搜索的迭代方法,其中k-项集被用作寻找(k+1)-项集. 首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项集被发现.每个Lk都要求对数据库作一次完全扫描.. 方法 找到所有的频繁1-项集 扩展频繁(k-1)-项集得到候选k-项集 剪除不满足最小支持度的候选项集 方法 对每个频繁项,构建它的条件模式基,然后构建它的条件FP-树. 对每个新创建的条件FP-树重复上述过程 直至结果FP-树为空,或者它仅包含一个单一路径.该路径将生成其所有的子路径的组合,每个组合都是一个频繁模式. k均值法的基本步骤 (1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。 (3)重复步骤(2),直至所有的样品都不能再分配为止。 最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。 7.2 C4.5 演算法:產生決策樹 (cont.) 要將下表資料作成決策樹,要如何才能 將資料一一分類成Class1或Class2呢? 先算出Entropy,9個樣本屬於CLASS1,5個樣本屬於CLASS2,總樣本數14個。 利用Attribute1來分割樣本 利用Attribute2來分割樣本 Attribute2的樣本排序後,去除重複值 Z1={65,70,75,78,80,85,90,95,96} 去除Z1的最大值後,剩餘的即是潛在門檻值 Z2={65,70,75,78,80,85,90,95} 門檻值Z2裡的每一個值都要用公式算出Gain值,然後再挑出Gain值最大者做為分類依據。 最後挑出的門檻值為80(因為80代入公式所得的Gain值最大) 利用Attribute3來分割樣本 比較Attribute1、 Attribute2、 Attribute3的Gain值,取最大者做為分類依據。 Gain(X1)=0.246 (Attribute1) Gain(X2)=0.048 (Attribute3) Gain(X3)=0.103 (Attribute2) Gain(X1)值最大,所以利用Attribute1來做決策樹的分類依據 利用Attribute1做分類(root),形成3個分支(branch):A、B、C。 T1和T3仍然無法完全分類CLASS1和CLASS2,所以必須再針對Att.2和Att.3重新帶入公式計算。 ) 排中律:即事件的发生和不发生必居且仅居其一,不存在 第三种现象。随机性遵守排中律,模糊性不遵守,它存在 着多种,甚至无数种中间现象。 对于任意两个集合A、B,若A的每一个元素都是B的元素, 则称A是B的“子集”,记为       ;若B中存在不属于 A的元素,则称A是B的“真子集”,记为      。 )幂集 对于一个集合A,由其所有子集作为元素构成的集合称 为A的“幂集”。 例:论域X={ 1, 2 },其幂集为 只有模糊等价关系才能用模糊等价矩阵进行截矩阵分类。 对于模糊等价关系: 可以用模糊等价矩阵的截矩阵直接进行模式分类 对模糊相似关系: 必须由相应的模糊相似矩阵生成模糊等价矩阵,然后对 生成的等价矩阵利用截矩阵的办法分类。 1.模糊等价关系的截矩阵分类法 定理1:设R是阶模糊等

文档评论(0)

pengyou2017 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档