- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
支持度s
支持度s
D中包含A和 B 的事务数与总的事务数的比值
规则 A(B 在数据集D中的支持度为s, 其中s 表示D中包含A(B (即同时包含A和B)的事务的百分率.
可信度 c
D中同时包含A和B的事务数与只包含A的事务数的比值
规则 A(B 在数据集D中的可信度为c, 其中c表示D中包含A的事务中也包含B的百分率.即可用条件概率P(B|A)表示.
confidence(A ( B )=P(B|A)
条件概率 P(B|A) 表示A发生的条件下B也发生的概率
关联规则根据以下两个标准(包含或排除):
最小支持度 – 表示规则中的所有项在事务中出现的频度
最小可信度 - 表示规则中左边的项(集)的出现暗示着右边的项(集)出现的频度
项集 – 任意项的集合
k-项集 – 包含k个项的项集
频繁 (或大)项集 – 满足最小支持度的项集
两个基本步骤
找出所有的频繁项集
满足最小支持度
找出所有的强关联规则
由频繁项集生成关联规则
保留满足最小可信度的规则
思想: Apriori 使用了一种称作level-wise搜索的迭代方法,其中k-项集被用作寻找(k+1)-项集.
首先,找出频繁1-项集,以L1表示.L1用来寻找L2,即频繁2-项集的集合.L2用来寻找L3,以此类推,直至没有新的频繁k-项集被发现.每个Lk都要求对数据库作一次完全扫描..
方法
找到所有的频繁1-项集
扩展频繁(k-1)-项集得到候选k-项集
剪除不满足最小支持度的候选项集
方法
对每个频繁项,构建它的条件模式基,然后构建它的条件FP-树.
对每个新创建的条件FP-树重复上述过程
直至结果FP-树为空,或者它仅包含一个单一路径.该路径将生成其所有的子路径的组合,每个组合都是一个频繁模式.
k均值法的基本步骤
(1)选择k个样品作为初始凝聚点,或者将所有样品分成k个初始类,然后将这k个类的重心(均值)作为初始凝聚点。
(2)对除凝聚点之外的所有样品逐个归类,将每个样品归入凝聚点离它最近的那个类(通常采用欧氏距离),该类的凝聚点更新为这一类目前的均值,直至所有样品都归了类。
(3)重复步骤(2),直至所有的样品都不能再分配为止。
最终的聚类结果在一定程度上依赖于初始凝聚点或初始分类的选择。经验表明,聚类过程中的绝大多数重要变化均发生在第一次再分配中。
7.2 C4.5 演算法:產生決策樹 (cont.)
要將下表資料作成決策樹,要如何才能
將資料一一分類成Class1或Class2呢?
先算出Entropy,9個樣本屬於CLASS1,5個樣本屬於CLASS2,總樣本數14個。
利用Attribute1來分割樣本
利用Attribute2來分割樣本
Attribute2的樣本排序後,去除重複值
Z1={65,70,75,78,80,85,90,95,96}
去除Z1的最大值後,剩餘的即是潛在門檻值
Z2={65,70,75,78,80,85,90,95}
門檻值Z2裡的每一個值都要用公式算出Gain值,然後再挑出Gain值最大者做為分類依據。
最後挑出的門檻值為80(因為80代入公式所得的Gain值最大)
利用Attribute3來分割樣本
比較Attribute1、 Attribute2、 Attribute3的Gain值,取最大者做為分類依據。
Gain(X1)=0.246 (Attribute1)
Gain(X2)=0.048 (Attribute3)
Gain(X3)=0.103 (Attribute2)
Gain(X1)值最大,所以利用Attribute1來做決策樹的分類依據
利用Attribute1做分類(root),形成3個分支(branch):A、B、C。
T1和T3仍然無法完全分類CLASS1和CLASS2,所以必須再針對Att.2和Att.3重新帶入公式計算。
) 排中律:即事件的发生和不发生必居且仅居其一,不存在
第三种现象。随机性遵守排中律,模糊性不遵守,它存在
着多种,甚至无数种中间现象。
对于任意两个集合A、B,若A的每一个元素都是B的元素,
则称A是B的“子集”,记为 ;若B中存在不属于
A的元素,则称A是B的“真子集”,记为 。
)幂集
对于一个集合A,由其所有子集作为元素构成的集合称
为A的“幂集”。
例:论域X={ 1, 2 },其幂集为
只有模糊等价关系才能用模糊等价矩阵进行截矩阵分类。
对于模糊等价关系:
可以用模糊等价矩阵的截矩阵直接进行模式分类
对模糊相似关系:
必须由相应的模糊相似矩阵生成模糊等价矩阵,然后对
生成的等价矩阵利用截矩阵的办法分类。
1.模糊等价关系的截矩阵分类法
定理1:设R是阶模糊等
您可能关注的文档
最近下载
- 2025内蒙古孪井滩生态移民示范区社区专职工作者招聘10人考试备考试题及答案解析.docx VIP
- 金属粉末冶金材料.PPT VIP
- 新苏教版三年级上册数学(全册)同步随堂练习一课一练 .pdf VIP
- 《电工基本技能》教案项目五任务二 开关类低压电器的拆装.docx VIP
- 危险源辨识、风险评价表(建筑工程).xls VIP
- 连翘的育苗技术.pptx
- 第16课《诫子书》(教师版).docx VIP
- 跨部门合作流程与沟通模板.doc VIP
- SANKEN三肯变频器samco-ns TEXC-NS-002(小容量)使用手册调试说明书.pdf
- 《电工基本技能》教案项目五任务三 接触器的拆装.docx VIP
原创力文档


文档评论(0)