- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘的步骤 数据清理: (这个可能要占全过程60%的工作量) 数据集成 数据选择 数据变换 数据挖掘(选择适当的算法来找到感兴趣的模式) 模式评估 知识表示 数据挖掘的类型 数据挖掘的任务是从大量的数据中发现模式。根据数据挖掘的任务可分为多种类型,其中比较典型的有: 概念描述 预测模型 关联分析 分类分析 聚类分析 序列分析 偏差检测 模式相似性挖掘 Web数据挖掘 概念描述:为数据的特征化和比较产生描述 特征化:提供给定数据集的简洁汇总。 例:对公司的“大客户”(月消费额在5000以上)的特征化描述:40-50岁,有固定职业,信誉良好,等等 数据挖掘的类型 预测模型 所谓预测即从数据库或数据仓库中已知的数据推测未知的数据或对象集中某些属性的值分布。 建立预测模型的常用方法: 回归分析 线性模型 关联规则 决策树预测 遗传算法 神经网络 数据挖掘的类型 关联分析 从事务数据库,关系数据库和其他信息存储中的大量数据的项集之间发现有趣的、频繁出现的模式、关联和相关性。 广泛的用于购物篮或事务数据分析。 (1)关联发现算法:得到关联规则、找出关联组合,在关联组合中,如果出现某一项,则另一项也会出现。 (2)序列模式发现算法:发现在时间序列上,一个项目集之后的项目集是什么,即找到时间上连续的事件。 (3)类似的时序发现算法:先找到一个事件顺序,再推测出其他类似的事件顺序。 数据挖掘的类型 分类分析 根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据(分类),用来预测类型标志未知的对象类(预测)。 分类分析已经成功地用于顾客分类、疾病分类、商业建模和信用卡分析等。 可以用来预报某些未知的或丢失的数字值 数据挖掘的类型 聚类分析 将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程。最大化类内的相似性和最小化类间的相似性 采用聚类分析,系统可以根据部分数据发现规律,找出对全体数据的描述。例:对WEB日志的数据进行聚类,以发现相同的用户访问模式 数据挖掘的类型 序列分析 序列分析主要用于分析数据仓库中的某类与时间相关的数据,搜索类似的序列或子序列,并挖掘时序模式、周期性、趋势和偏离等。 例如,它可以导出类似“若ATT股票连续上涨两天且DEC股票不下跌,则第三天IBM股票上涨的可能性为75%”的数据关系。序列模式可以看成是一种特定的关联模型,它在关联模型中增加了时间属性。 数据挖掘的类型 孤立点分析 孤立点:一些与数据的一般行为或模型不一致的孤立数据 通常孤立点被作为“噪音”或异常被丢弃,但在欺骗检测中却可以通过对罕见事件进行孤立点分析而得到结论。 应用 信用卡欺诈检测 移动电话欺诈检测 客户划分 医疗分析(异常) 数据挖掘的类型 Web数据挖掘 Web使用模式挖掘:在Web环境中,文档和对象一般都是通过链接来便于用户访问。捕捉用户的存取模式或发现一个Web网站最频繁的访问路径称为Web使用模式挖掘或Web路径挖掘。 Web结构挖掘:是挖掘Web的链接结构,并找出关于某一主题的权威网站。 Web内容挖掘:是指在大量训练样本的基础上,得到数据对象之间的内在特征,并以此为依据进行有目的的信息筛选,从而获得指定内容的信息。 基于Web的研究:搜索引擎的设计、文件自动分类技术、关键词的自动提取、半结构化信息的提取及Web上新型应用的研究等。 数据挖掘的类型 数据挖掘应用 金融业 1、对账户进行信用等级的评估。利用数据挖掘工具进行信用评估可以从已有的数据中分析得到信用评估的规则或标准,即得到“满足什么样条件的账户属于哪一类信用等级”,将得到的规则或评估标准应用到对新的账户的信用评估。 2、分析信用卡的使用模式。通过数据挖掘分析信用卡的使用模式,可以得到这样的规则:“什么样的人使用信用卡属于什么样的模式”,一般一个人在相当长的一段时间内,其使用信用卡的习惯往往是较为固定的。因此,通过判别信用卡的使用模式,可以监测到信用卡的恶性透支行为,还可以根据信用卡的使用模式,识别“合法”用户。 3、进行股票分析。可以使用数据挖掘技术从股票交易的历史数据中得到股票交易的规则或规律。 4、探测金融政策与行情间的关系。使用数据挖掘技术可以从大量的历史记录中发现或挖掘出金融政策与金融业行情的相互影响的更深层次的关联关系。 保险业 (1) 保险金的确定。对受险人员的分类有助于确定适当的保险金额度。通过数据挖掘可以有助于确定对不同行业、不同年龄段、处于不同社会层次的人的险金额度。 (2) 险种关联分析。使用数据挖掘技术,通过险种关联分析,可以预测购买了某种保险的人是否会同时购买另一种保险。 (3)
文档评论(0)