- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第04讲 数据挖掘概述.ppt
二、面向属性的归纳 概化过程将产生相等的元组,相等的元组归为一类并给出计数 性别 专业 籍贯 年龄段 信用情况 计数 男 信息 南京 19-22 良 10 女 信息 南京 19-22 优 9 男 化学 盐城 19-22 中 4 .. ... ... ... ... .. 男 通信 镇江 22-25 一般 1 学历 本 研 本 .. 本 此处,计数看成度量,其它看成维 3、概化结果的表示 (1)表格 地区 产品类别 销售额(千万) count(千) 江苏 电视 15 300 浙江 电视 12 250 广东 电视 18 450 江苏 电脑 120 1000 浙江 电脑 150 1200 广东 电脑 200 1800 99年销售概化关系 (2)二维交叉表 地区 电视 电脑 产品类累计 江苏 浙江 广东 地区合计 数量 金额 数量 销量 数量 销量 300 15 1300 135 1000 120 250 12 1450 160 1200 150 450 28 2250 228 1800 200 1000 55 5000 525 4000 470 99年销售概化关系(二维交叉表) (3)可视化方法 柱状图 电视销售 饼图 电脑销售 饼图 (4)量化特征 概化关系可以用逻辑规则的形式表示,典型的是概化的元组代表一个规则的析取。 若单个概化元组不能代表工作关系中的所有元组,则规则应当带上量化信息,用满足规则的左部和满足规则右部的元组所占的百分比表示。带有量化信息的逻辑规则称为量化规则。 地区 产品类别 销售额(千万) count(千) 江苏 电脑 120 1000 浙江 电脑 150 1200 广东 电脑 200 1800 例: 初始工作集合中,地区是南京、镇江、…,产品类别是电脑的元组全部概化在第一个概化元组中,在初始工作集共有1000个元组。该概化元组的t_权是: 定义:设待特化的(或由规则描述的)对象类为目标类,qa是一个描述目标类的概化元组。 qa的t_权是来自初始工作关系集合中被qa涵盖的目标类元组的百分比。形式上为: 其中:n是概化关系中目标类元组的个数,q1,…..,qn是概化关系中目标类的元组,qa在q1,…..,qn中。显然,t_权的取值区间为[0.0,1.0]或[0%,100%]。 规则描述形式: 地区 产品类别 销售额(千万) count(千) 江苏 电脑 120 1000 浙江 电脑 150 1200 广东 电脑 200 1800 例: t_权兴趣度度量:描述规则中每个析取或对应概化关系的每个元组的典型性。 例:有部分学生在图书馆借阅了《大趋势》这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是: 学号 姓名 系别 书名 借阅日期 9932007 颜 立 经济 大趋势 2004.03.16 9833090 王家卫 金融 大趋势 2004.03.16 9813105 王向东 医学院 大趋势 2004.05.08 9822041 刘 伟 历史 大趋势 2004.06.30 9928073 朱小明 企管 大趋势 2004.05.20 9932056 陈立业 经济 大趋势 2004.09.19 9923143 刘 英 新闻 大趋势 2003.12.03 例:有部分学生在图书馆借阅了《大趋势》这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是: 学号 姓名 系别 书名 借阅日期 9932007 颜立 经济 大趋势 2004.3.16 9833090 王家卫 金融 大趋势 2004.3.16 9813105 王向东 医学院 大趋势 2004.5.8 9822041 刘伟 历史 大趋势 2004.6.30 9928073 朱小明 企管 大趋势 2004.5.20 9932056 陈立业 经济 大趋势 2004.9.19 9923143 刘英 新闻 大趋势 2003.12.3 概化层次:系别 文科 – 商学院 -- 经济,金融,企管,会计,国贸 文科 – 文学院 -- 中文,新闻,信管,历史,哲学 理科 – 医学院 理科 – 理学院 -- 数学,天文,物理 (文,商学院) (文,商学院) (理,医学院) (文,商学院) (文,文学院) (文,商学院) (文,文学院) 例:有部分学生在图书馆借阅了《大趋势》这本书,想通过数据挖掘技术发现这部分学生具有什么样的特征。其基本关系表是: 学号 姓名 系别 书名 借阅日期 9932007 颜立 经济 大趋势 2004.3.16 9833090 王家卫 金融 大趋势 2004.3.16 9813105 王向东 医学院 大趋势 2004.5.8 9822041 刘伟 历史 大趋势 2004.
您可能关注的文档
最近下载
- DB50T 1807-2025 承压设备射线检测缺陷自动识别系统评价方法.pdf VIP
- 西南情韵——《布谷催春》课件 2024—2025学年人音版初中音乐九年级上册.pptx VIP
- 2025至2030中国贝伐珠单抗行业市场现状分析及竞争格局与投资发展报告.docx VIP
- 《两次鸦片战争》PPT课件.pptx VIP
- 最新IBM培训体系.pdf VIP
- 工程项目穿透式管理方法.pdf VIP
- 大学物理课件:8-9 铁磁质.ppt VIP
- 非ST段抬高型急性冠脉综合征诊断和治疗指南(2024)解读.pptx
- 口腔解剖学颌面部骨演示文稿.ppt VIP
- 工程项目穿透式管理论文.docx VIP
文档评论(0)