- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
管理信息系统课件6268576330
第7次课 数据库和数据仓库 测试时间——写出关系模式 实体转换为关系: 班级表(班级号,班级名,专业) 学生表(学号,性命,性别,年龄) 课程表(课程号,课程名,学分) 运动队(编号,队名,教练) 联系转换为关系: 选课表(学号,课程号,成绩) 一个概念常常是对一个包含大量数据的数据集合总体情况的概述。如对一个商店所售电脑基本情况的概述总结就会获得所售电脑基本情况的一个整体概念(如: 基本上为!!!以上的兼容机) 数据特征化,一般地汇总所研究类的数据 * * 属性-值频繁地在给定数据集中一起出现的条件 X是变量,代表顾客 在数据挖掘中,support叫做支持度,confidence叫做置信度 由于有些模式并非对数据库中的所有数据都成立,通常每个发现的模式带上一个确定性或“可信性”度量。 * * 前面给的劳工合同的例子就是一个分类挖掘的例子 分类通常用于预测未知数据实例的归属类别(有限离散值),如一个银行客户 的信用等级是属于(A级、B级还是C级)。但在一些情况下,需要预测某数值属性的 值(连续数值),或者说,人们可能希望预测某些空缺的或不知道的数据值,这样的分类就被称为预测(,)。尽管预测既包括连续数值 的预测,也包括有限离散值的分类;但一般还是使用预测(,)来表示对连 续数值的预测;而使用分类来表示对有限离散值的预测 * * 聚类分析中,首先需要根据“各聚集内部数据对象间的相似度最大 化;而各聚集对象间相似度最小化”的基本聚类分析原则,以及度量数 据对象之间相似度的计算公式,将聚类分析的数据对象划分为若干组。因 此一个组中数据对象间的相似度要比不同组数据对象间的相似度要大。每一个聚类 分析所获得的组就可以视为是一个同类别归属的数据对象集合,更进一步从这些同 类别数据集,又可以通过分类学习获得相应的分类预测模型(规则)。此外通过反复 不断地对所获得的聚类组进行聚类分析,还可获得初始数据集合的一个层次结构模 型。 * 一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。那 些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为异类()。 * 举我家电的例子 * 【例】 对在一个商场购买力较大的顾客居住地进行聚类分析,以帮助商场主管针对相应顾客群采取有针对性的营销策略。下图所示就是进行这种聚类分析的一个示意描述。 图中将商场购买力较大的顾客群根据其居住地分为三组,其中“+”表示每组(聚类)的中心 5. 孤立点分析 一个数据库中的数据一般不可能都符合分类预测或聚类分析所获得的模型。 那些不符合大多数数据对象所构成的规律(模型)的数据对象就被称为孤立点/异常点(outlier)。 之前许多数据挖掘方法都在正式进行数据挖掘之前就将这些异类作为噪声或意外而将其排除在数据挖掘的分析处理范围之内。 但在一些应用场合,小概率发生的事件(数据)往往比经常发生的事件(数据)更有挖掘价值。 对异常数据的分析处理通常就称为异常检测或孤立点分析 异常检测的应用包括检测欺诈、网络攻击、疾病的不寻常模式等 5. 孤立点分析 【例】 信用卡公司记录每个持卡人所做的交易,同时也记录信用限度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行为的数目相对较少,因此异常检测技术可以用来发现信用卡欺诈。 构造用户的合法交易轮廓。当一个新的交易达到时与之比较。如果该交易的特性与先前所构造的轮廓不相同,如已付款数目特别大,则把交易标记为可能是欺诈 5. 孤立点分析 同样的方法可以用在网站入侵检测中 四、数据仓库和数据挖掘3. 数据挖掘(DM) 小结 掌握数据库,数据库管理系统,数据库系统区别 掌握ER模型概念以及ER模型向关系模型的转化方法 掌握简单的数据库操作 掌握数据库系统的概念 理解数据仓库,OLAP和数据挖掘的概念 * * * * * * * 数据经过了标准化后,按照主题(如职能领域,供应商或产品等)组织起来,与此不同的是,普通的操作数据是按照业务流程(例如运输、购买、库存控制和职能部门)组织起来 * * * * * * * * * * * * * * 从各种不同的视角探查数据和数据挖掘结果。 * 不特别区别数据挖掘与知识发现 * * 它是一个关于劳动合同谈判的数据集合(来自加拿大(9: (99 劳工谈判数据)。表中的每一列(从第三列开始)代表一个劳工情况,其中共 有/ 个属性(第一列)来描述劳工的基本情况,而最后一个属性(, )为劳工合同谈判结果。表--的数据挖掘任务就是根据所给的个劳工 对合同谈判结果的情况(接受或拒绝),挖掘出识别劳工接受谈判结果的分类知识(规 则),以便之后只需根据其它劳工情况就可判断出其是否会接受谈判结果。 * 这些分类知识的(
文档评论(0)