数据库设计与实现-chap05 SQL实践.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据库设计与实现-chap05 SQL实践

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 决策树分类举例:训练数据集 决策树分类举例:计算属性的熵 类标号属性 buys_computer,有两个不同值{yes,no}, 有两个类,类yes有9个样本,类no有5个样本 计算属性的熵 age = “=30”: s11=2, s21=3, I(s11, s21)=0.971 age = “31…40”: s12=4, s22=0, I(s12, s22)=0 age = “40”: s13=3, s23=2, I(s13, s23)=0.971 决策树分类举例:计算属性的熵 Gain(age)=I(s1, s2) - E(age)=0.246 Gain(income)=0.029 Gain(student)=0.151 Gain(credit_rating)=0.048 因此选择age作为分裂属性 决策树分类举例:分枝 age? overcast =30 40 30..40 决策树分类举例:最终结果 age? overcast student? credit rating? no yes fair excellent =30 40 no no yes yes yes 30..40 由决策树产生规则 IF age = “=30” AND student = “no” THEN buys_computer = “no” IF age = “=30” AND student = “yes” THEN buys_computer = “yes” IF age = “31…40” THEN buys_computer = “yes” IF age = “40” AND credit_rating = “excellent” THEN buys_computer = “no” IF age = “40” AND credit_rating = “fair” THEN buys_computer = “yes” 聚类分析(Clustering) 含义 聚类是把一组对象按照相似性归成若干类别,即“物以类聚”。它的目的是使得属于同一类别的个体之间的距离尽可能的小而不同类别上的个体间的距离尽可能的大。 不同的聚类分析工具可以定义不同的规则集,从而相同的记录集合可能有不同的划分 应用 市场或客户分割、模式识别、基因分类、Web文档分类等 聚类算法:K-Means 算法:k-平均 输入:簇的数目 k, 包含n个对象的数据库 输出:k个簇,使平方误差最小 步骤: 任意选择k个对象作为初始的簇中心 Repeat 根据簇中对象的平均值,将每个对象赋给最类似的簇 更新簇的平均值,即计算每个簇中对象的平均值 Until平方误差小于某个阈值或不再发生变化 平方方差函数: K-Means算法对噪音数据敏感 聚类算法:K-Means + + + + + + + + + + + + * * * * * * * * * * * * * * * * * * * * * * 冰山查询 Select t1.item, t2.item, count(*) From trans t1, trans t2 Where t1.bucket_id = t2.bucket_id Group by t1.item, t2.item Having count(*) 10000 关联分析(Associations) 目的和含义 目的:发现数据库中数据间的相互关联 含义:给定一组数据项(例如:商品号)和一个交易集合(例如交易记录),通过分析记录集合,推导出数据项间的相关性(例如:在交易活动中商品间的相关性) 基本形式 给定: 一组事务集 每一个事务中包含若干个数据项 挖掘: 各个数据项之间的关联 例如, 98% 的顾客在购买电动剃须刀的同时会购买一些电池 关联规则兴趣度的度量值:支持度 推导出的数据间的相关性称为规则(或模式),对规则兴趣度的描述采用支持度、置信度概念 支持度(Support):在关联分析中表示满足规则的记录数与总记录数的比,它表明了规则的模式在数据库中出现的频度对于规则: X ? Y,则其支持度表示为: S = 总交易数 同时购买商品X和Y的交易数 购买商品Y的交易 同时购买商品X和Y的交易 购买商品X的交易 关联规则兴趣度的度量值:置信度 置信度(Confidence),在关联分析中

文档评论(0)

qiwqpu54 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档