17.3网络运行-数据挖掘基础要点分析.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
优点 (1)复杂度: O(tkn), 其中n 是对 象的数目, k 是簇的数目, t 是迭代 的次数. 通常k, t n。 (2)通常以局部最优结束, 使 用遗传算法技术可以达到全球最 优。?? 缺点 (1)只有在簇的平均值被定 义的情况下才能使用,当涉及 有分类属性的数据时失效。 (2)需要事先给出k,簇数目。 (3)不能处理噪声数据和孤 立点。 (4)不适合发现非凸面形状 的簇。 5.3 基于层次的聚类 使用距离矩阵作为聚类的标准,这种方法不需要簇的数目k作为输入,但需要一个中止条件 通常采用凝聚式和分裂式两种策略 代表性聚类算法—— 5.4 基于密度的聚类 基于密度的簇是密度相连的点的集合 主要特点: 发现任意形状的簇 能处理噪声 只需一次扫描 需要密度参数作为终结条件 代表性算法 DBSCAN:Ester, et al. (KDD’96) DBSCAN算法简介 两个参数 (1)Eps: 邻域半径 ??(2)MinPts: 数据对象的Eps-邻域至少包含对象数目 数据对象的Eps邻域 NEps(p):{q∈D | dist(p,q)≤Eps} 直接密度可达 若满足下述条件,称对象p是从对象q关于Eps, MinPts直接密度可达的: (1)p属于NEps(q)??(2)|NEps(q)|≥MinPts 密度可达 如果存在对象链p1, …, pn, p1=q, pn=q, pi+1是从pi直接密度可达的, 称对象p从对象q关于Eps,和MinPts 是密度可达的。 密度相连 如果存在对象o,使得对象p和q 是从o关于Eps和MinPts密度可达 的,称p和q是关于Eps和MinPts密 度相连的。 依赖簇的基于密度的思想:它定义簇为密度相连的点的最大集合。在带有“噪声”的空间数据库中发现任意形状的聚类 5.5 孤立点分析 Computer History Raymond 100 40 Louis 90 45 Wyman 20 95 … … … Computer History 聚簇1 (e.g. 计算机获得高分,但历史成绩较低) 聚簇2 (e.g. 历史获得高分,但计算机成绩较低) 聚类 孤立点 (e.g. 计算机和历史分数都很高) 孤立点 (e.g. 计算机分数低,同时历史分数也低) 什么是孤立点? 和其它数据表现相当不同的对象集问题 目的:找出数据集内的孤立点 应用 信用卡的欺诈监测 电信的欺诈监测 顾客分类 医疗分析 基于统计的孤立点检测 对给定的数据集合假设了 一个分布或概率模型(例如 一个正态分布) 使用不一致检验依靠: 数据分布 分布参数(例如平均值和方差) 预期的孤立点的数目 缺点 大部分的检验都是对单属性的 在很多情况下,数据分布是未知的 基于距离的孤立点检测 为了解决统计学方法带来的一些限制,引入了基于距离的孤立点的概念 思路:不知道数据分布的情况下进行多维分析 基于距离的孤立点 基于距离的孤立点,指数据集T中的一个对象o,T中对象至少有p部分与对象o的距离大于d(或表现出的模式不同于o表现出的模式) a C2 C1 ? ? ? a b C1 C2 ? ? 6. 挖掘应用范例 数据挖掘应用目前在国内的基本状况“大企业案例少,中小企业需求小”。但是随着数据日益积累,及企业常规业务推进方式的无尽完善,对数据深层使用价值的发掘成为必然趋势。 本章对数据挖掘的常规应用进行举例概述 (1)超市商品进货及摆放策略 啤酒尿片故事:啤酒和尿布是顾客群完全不同的商品。但是对沃尔玛销售数据进行分析得到结论,尿片卖得好的超市啤酒也卖得好。分析原因,通常太太在家中照顾婴孩,一般让先生去超市买尿片。男士多有喝啤酒习惯,在超市购买尿片时都会犒劳自己几瓶啤酒。这是一个现代商场智能化信息分析系统发现的秘密。这个故事被公认是商业领域数据挖掘的诞生。 (2)库存预测 零售商依靠供应链软件、内部分析软件或直觉来预测库存需求。随着竞争压力的一天天增大,很多零售商(从主要财务主管到库存管理员)都开始致力于找到一些更准确的方法来预测其连锁商店应保有的库存。预测分析是一种解决方案。 通过对卖场所积累各类商品历史销售数据的分析,建立模型,预测哪些商品应在何时补货、补货数量等。 (3)老客户对新产品的兴趣度分析 考虑投入产出,通信公司希望优先将那些有大量 潜在用户的区域机站升级为3G。能够利用的仅有各个 区域现有2G通信业务数据(包括通信时间、流量、套 餐使用情况等)。如何进行分析? 实例: 3.3 关联规

文档评论(0)

南非的朋友 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档