浅谈数据挖掘.PPT

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
* * * * * * * * * * 3、在现代统计学中,模型是主要的,而对于模型的选择标准、如何计算等则都是次要的。但是在数据挖掘中,算法也扮演着重要的角色。 4、统计学方法的前提假设。而数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识。数据挖掘所得到的信息应具有先未知、有效和可实用三个特征。 * * 5、在统计理论方面: 统计推断的基础“总体”和“样本”的概念是否还继续适用? 面对如此大量的数据很难定义总体和样本; 大样本渐近性质是否满足? 由于数据量太大,传统的统计量无论真实情况如何都会变得“显著”; 统计假设检验使用的小概率原理是否还适用? 因为假定小概率事件在一次实验中不会发生是合理的,而数据量大到一定程度之后,小概率事件一定会发生。 * * 数据挖掘不是统计学的分支 统计学是数据挖掘的核心 统计学和数据挖掘有着共同的目标。 统计学和数据挖掘有着共同的目标:发现数据中的结构或模式。 统计学在数据挖掘中起着重要的作用。 传统的统计学方法是数据挖掘的经典方法,统计学思想在整个数据挖掘过程都有重要的体现,担负着不可忽视的重任。 数据挖掘技术与统计学集成是必然趋势。 * * 四、数据挖掘软件 SQL2005 Clementine 马克威分析系统 Statistica SAS * * * * * * * * * * * * * * * 网上书店现在有了很强的市场和比较固定的大量的客户。为了促进网上书店的销售量的增长,各网上书店采取了各种方式,给客户提供更多更丰富的书籍,提供更优质服务等方式吸引更多的读者。 * * * * * * * * * * * * * * * * 聚类 聚类是在要划分的类未知的情况下,将数据库中的记录划分为多个类或簇,使得同类内的对象之间具有较高的相似度,不同类间的差异较大。它是概念描述和偏差分析的先决条件。 数据挖掘中的聚类方法有划分方法、层次的方法、基于密度的方法、基于网格的方法以及基于模型的方法等。 * * 异常值探测 异常值指的是数据库中不符合数据一般模型的数据对象。 从数据库中探测异常值很有意义,因为它们本身可能隐藏着重要的信息,比正常的数据更有用,忽略或删除它们都会导致信息的丢失。 例如,发现金融和保险领域的欺诈行为、税款的脱逃、通信费用的恶意欠费、网络中的黑客入侵、追寻极低或极高收入者的消费行为以及对多种治疗方式不寻常反映的发现等。 * * 序列模式挖掘 序列模式挖掘是指挖掘相对时间或其他序列出现频率高的规律或趋势,并建模。 这里的序列一般指时间序列数据库和序列数据库(Web日志分析和DNA分析)。 在许多行业产生的数据库都是时间序列数据库,例如,商业交易、电信部门、天气数据等等,因此,序列模式的挖掘是非常有意义的。 * * 序列分析和关联规则的相似之处在于,它们所用的样本数据中,每一个样本都包含了一个项集或状态集合。其不同之处在于序列分析研究的是项集(或状态)间的转换,而关联规则模型研究的是项集之间的相关性。 在序列分析模型中,先购买计算机再购买音箱,和先购买音箱再购买计算机是两种不同的序列。而在关联规则中这两种行为都表达了一个同样的项集{计算机,音箱}。 * * 7、几种数据挖掘技术 * * 决策树 聚类 时间序列 关联规则 贝叶斯分类 类神经网络 罗吉斯回归 线性回归 文本数据挖掘 ?Decision Tree决策树 决策树是用二叉树形图来表示处理逻辑的一种工具,是对数据进行分类的方法。决策树的目标是针对类别因变量加以预测或解释反应结果。 主要有两个步骤:首先,通过一批已知的样本数据建立一棵决策树;然后,利用建好的决策树,对数据进行预测。 决策树的建立过程可以看成是数据规则的生成过程,因此,决策树实现了数据规则的可视化,其输出结果也容易理解。 * * 决策树的应用举例 * * 客户信贷分类 输出结果:关于“buys_computer”的决策树 * * ?聚类(Cluster) 聚类目的在将相似的事物归类。 可以将变量分类,但更多的应用是透过顾客特性做分类,通过将顾客特性进一步分割成若干类别而达到市场区隔之目的。 可以帮助企业了解顾客的特征,将顾客分成新顾客、忠诚顾客、流失顾客、无规律购买顾客、新吸引的顾客等,便于企业针对不同群体的特征,设计出不同的营销策略,更大程度地满足消费者个性化需求。 * * Hierarchical Clustering层次聚类法 该方法是利用距离矩阵作为分类标准,将n个样品各作为一类;计算n个样品两两之间的距离,构成距离矩阵;合并距离最近的两类为一新类;计算新类与当前各类的距离;再合并、计算,直至只有一类为止。 * * Step 0 Step 1 Step 2 Step 3 Step 4 b d c e a a b d e c d e a b c d e

文档评论(0)

cyx + 关注
实名认证
内容提供者

装饰装修木工持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年05月15日上传了装饰装修木工

1亿VIP精品文档

相关文档