支持度s.docVIP

下载本文档

16
0
约2.68千字
约 9页
2017-12-19 发布于河北
举报
版权申诉

支持度s.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

支持度s

支持度s D中包含A和 B 的事务数与总的事务数的比值规则 A(B 在数据集D中的支持度为s, 其中s 表示D中包含A(B (即同时包含A和B)的事务的百分率. 可信度 c D中同时包含A和B的事务数与只包含A的事务数的比值规则 A(B 在数据集D中的可信度为c, 其中c表示D中包含A的事务中也包含B的百分率.即可用条件概率P(B|A)表示. confidence(A ( B )=P(B|A) 条件概率 P(B|A) 表示A发生的条件下B也发生的概率关联规则根据以下两个标准(包含或排除): 最小支持度 – 表示规则中的所有项在事务中出现的频度最小可信度 - 表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度项集 – 任意项的集合 k-项集 – 包含k个项的项集频繁 (或大)项集 – 满足最小支持度的项集两个基本步骤找出所有的频繁项集满足最小支持度找出所有的强关联规则由频繁项集生成关联规则保留满足最小可信度的规则思想: Apriori 使用了一种称作level-wise搜索的迭代方法,其中k-项集被用作寻找(k+1)-项集. 首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项集被发现.每个Lk都要求对数据库作一次完全扫描.. 方法找到所有的频繁1-项集扩展频繁(k-1)-项集得到候选k-项集剪除不满足最小支持度的候选项集方法对每个频繁项,构建它的条件模式基,然后构建它的条件FP-树. 对每个新创建的条件FP-树重复上述过程直至结果FP-树为空,或者它仅包含一个单一路径.该路径将生成其所有的子路径的组合,每个组合都是一个频繁模式. k均值法的基本步骤 (1)选择k个样品作为初始凝聚点，或者将所有样品分成k个初始类，然后将这k个类的重心(均值)作为初始凝聚点。 (2)对除凝聚点之外的所有样品逐个归类，将每个样品归入凝聚点离它最近的那个类（通常采用欧氏距离），该类的凝聚点更新为这一类目前的均值，直至所有样品都归了类。 (3)重复步骤(2)，直至所有的样品都不能再分配为止。最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明，聚类过程中的绝大多数重要变化均发生在第一次再分配中。 7.2 C4.5 演算法:產生決策樹 (cont.) 要將下表資料作成決策樹，要如何才能將資料一一分類成Class1或Class2呢? 先算出Entropy，9個樣本屬於CLASS1，5個樣本屬於CLASS2，總樣本數14個。利用Attribute1來分割樣本利用Attribute2來分割樣本 Attribute2的樣本排序後，去除重複值 Z1={65,70,75,78,80,85,90,95,96} 去除Z1的最大值後，剩餘的即是潛在門檻值 Z2={65,70,75,78,80,85,90,95} 門檻值Z2裡的每一個值都要用公式算出Gain值，然後再挑出Gain值最大者做為分類依據。最後挑出的門檻值為80(因為80代入公式所得的Gain值最大) 利用Attribute3來分割樣本比較Attribute1、 Attribute2、 Attribute3的Gain值，取最大者做為分類依據。 Gain(X1)=0.246 (Attribute1) Gain(X2)=0.048 (Attribute3) Gain(X3)=0.103 (Attribute2) Gain(X1)值最大，所以利用Attribute1來做決策樹的分類依據利用Attribute1做分類(root)，形成3個分支(branch)：A、B、C。 T1和T3仍然無法完全分類CLASS1和CLASS2，所以必須再針對Att.2和Att.3重新帶入公式計算。 ) 排中律：即事件的发生和不发生必居且仅居其一，不存在第三种现象。随机性遵守排中律，模糊性不遵守，它存在着多种，甚至无数种中间现象。对于任意两个集合A、B，若A的每一个元素都是B的元素，则称A是B的“子集”，记为　　　　　　　；若B中存在不属于 A的元素，则称A是B的“真子集”，记为　　　　　　。）幂集对于一个集合A，由其所有子集作为元素构成的集合称为A的“幂集”。例：论域X={ 1, 2 }，其幂集为只有模糊等价关系才能用模糊等价矩阵进行截矩阵分类。对于模糊等价关系：可以用模糊等价矩阵的截矩阵直接进行模式分类对模糊相似关系：必须由相应的模糊相似矩阵生成模糊等价矩阵，然后对生成的等价矩阵利用截矩阵的办法分类。 1．模糊等价关系的截矩阵分类法定理1：设R是阶模糊等