- 1、本文档共61页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
厦门大学数据挖掘Rough集及数据库压缩
第四章 Rough集基本理论与事务性数据库压缩 §4.1 概论 §4.2 Rough集的基本理论 §4.3 数据库中事务性的压缩及分析 §4.4 事务数据库的列联描述 §4.5 事务数据库的属性压缩 §4.6 实证分析 §4.1 概 论 对数据库压缩的内容有那些呢?针对事务项性数据库,根据不同的研究目的,可以对研究对象进行删减;可以对属性集中的条件属性项进行压缩;可以对属性集的属性值进行删减.另外,在本章中,还将探讨如何将事务性数据库转化为不同的列联资料 ,为对数据库所提供的信息进行深入的统计分析奠定基础. 目前,Rough集理论及方法已成为当前数据挖掘的主要方法之一 .如,信息系统表述 (Nelson, D. E.),大型数据库Rough关系的描述 (Theresa, B., Frederick, E. P. and Gurdial, A. (1998)),数据规约以及规则生成( Walczak, B. and Massart, D. L. (1999))等.为了更好地解决数据挖掘理论及实际问题,我们试图将统计思想与Rough集理论相结合,探讨事务性数据库的压缩问题,以达到数据库压缩的目的.为此,我们有必要了解Rough集的基本模型及有关概念. §4.2 Rough集的基本理论 Rough集理论是波兰华沙理工大学Zdzislaw Pawlak教授于1982年首先提出,Pawlak教授在所提出的Rough集理论中,将那些无法确定的个体都归属于边界线区域,而这种边界线区域被定义为上近似集与下近似集之差集.由于上近似集和下近似集都可以通过等价关系给出确定的数学公式描述,所以含糊元素数目可以被计算出来,即含糊程度可以辨析. 如果我们描述一个图形的形态,可以清楚地看到,用图a中边界线上的小方格(含糊元素)来反映这个图形比图b中边界线上的小方格反映的图形真实. 近年来,Skowron (1990), Skowron and Rauszer (1992), Pawlak (1991), Slowinski (1992), Swiniarski (1993), Ziarko (1993), Yao et al. (1997)等,在专家系统、决策支持系统、模式识别、机器学习、决策分析、数据挖掘和知识发现等方面,推进了Rough集理论和应用的发展. 基本理论1—信息系统的表述 基本理论2—不可识别性及等价类族 基本理论3—上近似和下近似 基本理论4—核与属性约简 §4.3 数据库中事务项的压缩及分析问题1—减少事务数增加可识别性 问题2—事务项压缩的特征提取 问题3—事务项压缩的统计分析及奇异项的提取 §4.4 事务数据库的列联描述问题1—条件属性项之间的列联关系 问题2—条件属性项与决策属性项之间的列联关系 问题3—属性项与属性值之间的列联关系 例:大学生隐形教育调查资料 §4.5 数据库中事务项的压缩及分析问题1—基于重要性的属性压缩 利用Rough集理论我们就可以对属性项的重要性进行量度,这个量度是根据论域中样例来得到的,不依赖于人的先验知识( Cios, K. J., Pedrycz, W. and Swiniarski, R. W. (1998), Skowron, A. (2000)).如用症状描述某医院的患者时,有些症状对患者的诊断有较大的影响.为了计算这些属性的重要度,可以采取逐个属性项被去掉后,检测这个系统在作决策或数据分类时,是否会因为移掉了这个属性而被改变?如果去掉了这个属性后将改变作决策和分类,则说明该属性的强度大,即重要性高;反之说明,该属性的强度小,即重要性低. 问题2—基于相依性的属性压缩 问题3—属性项的广义线性分析及压缩 问题4—基于多重相关性的属性项压缩 §4.6 实证分析(移动通讯用户消费分析)问题1—确立移动手机用户信息系统 问题2—移动手机用户数据库的压缩 参考文献 * * 目前,我们已经充分地意识到,在信息系统中的信息积累越来越大,这样给数据的准备带来困难,给数据挖掘阶段的开采工作带来了不便.为此解决信息系统中信息量膨胀的问题,就显得尤为重要了.探讨数据库的压缩是解决这一问题的有效方法,它是将一些无关或多余的信息丢掉,而不影响其原有的功能.无疑可以设想压缩后的数据库,重新组合而产生新的决策规则,这类决策规则的前提信息和结论信息可能不同于压缩前的任何一条决策规则,但它们经过推理和统计推断而得到相同或相近的结果. 含糊程度的辨析 图a 图b
您可能关注的文档
- 制药生产企业信息化解决案例设计.ppt
- 初级卫生保健、健康促进及教育.ppt
- 前厅客房服务及管理PPT.ppt
- 制造型企业生产管理培养训练.ppt
- 制造型企业基础管理技术培养训练-JIT精益生产实务.ppt
- 制造基础培养训练.ppt
- 制造型企业基础管理技术培训-管理技巧及方法.ppt
- 制粒机操作及环模保养常识.ppt
- 加多宝业务代表培养训练系列教材.ppt
- 加强机关作风及服务型机关建设提升行政执行力.ppt
- 4.1 陆地水体及其关系 课件高二上学期地理中图版(2019)选择性必修一.pptx
- 混凝土结构与砌体结构设计习题集 .pdf
- 统编版语文四年级下册 22.古诗三首 课件(共50张PPT).pptx
- 青海2024行测笔试真题及答案 .pdf
- 2.1 充分发挥市场在资源配置中的决定性作用 课件-高中政治统编版必修二经济与社会.pptx
- 27.巨人的花园 课件(共58张PPT).pptx
- 统编版语文一年级下册5 树和喜鹊 第1课时 课件(共37张PPT).pptx
- 2.1 充分发挥市场在资源配置中的决定性作用 课件政治一轮复习统编版必修二经济与社会.pptx
- 贵港市平南县2024届小升初考试语文试卷含答案 .pdf
- 小学期末考试质量分析 .pdf
文档评论(0)