SQL Server 数据挖掘在企业中应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
SQL Server 数据挖掘在企业中的应用 ? 什么是数据挖掘? ? 对于数据挖掘有两个常见的误区,一个是认为数据挖掘就是商业智能,另一种则认为数据挖掘高不可攀遥不可及,前者夸大了数据挖掘的能力,后者则夸大了数据挖掘的难度。那么什么是数据挖掘呢? ? 数据挖掘是商务智能应用中较高层次的一项技术,而商务智能中还包括数据仓库、ETL、联机分析、商业报表等多项技术。数据挖掘在商务智能应用中提供的是一种自动化或半自动化的数据分析手段,利用数据挖掘用户将可以更加方便地发现数据的模式(其实就是用户关心的业务模式),用户还可以利用这些模式对某些符合特征的数据作出预测。 ? 那么数据挖掘究竟是怎么做到上面这些貌似神奇的事情的呢?现在主流的数据挖掘技术有两种,其中之一来源于我们每一个人可能都学习过的一门学科——统计学,例如聚类、关联规则、时间序列等,而另外一种则来源于我们每一个人都听说过的一门学科——机器学习(俗称人工智能),例如神经元网络、遗传算法等。 ? 数据挖掘能干什么? ? 前面提到数据挖掘是用于发现数据模式的,那么什么是模式呢?例如著名的啤酒和尿布,这就是数据模式。除了这个之外,根据风向、湿度、云图等进行天气预测、根据网络数据包的分析进行入侵检测、根据用户在线浏览路径推荐商品等等都和数据模式有关系。最神奇的是,在我和我太太准备要宝宝的时候很多朋友都提到了这个说法那个经验,突然发现这也和数据模式有关系。扯远了!数据模式在企业中有什么作用呢? ? 分类 ? 在西方电信经常有促销活动,也就是客户可以免费试用该电信服务商一段时间的服务,结果就发现有些客户经常在多个电信商之间来回选择免费试用服务而永远不会转成长期客户。数据挖掘技术就曾经帮助这些电信公司在客户申请试用服务的时候筛选出那些有可能滥用试用服务的客户而减少成本支出。这就是一个分类的问题。数据挖掘中有很多算法可以进行分类,例如决策树、神经元网络、贝叶斯算法等。 ? 分类可以把大量数据(在数据挖掘中也称为事例CASE)分成多个类别,而分类的依据就是这些事例中的属性。前面提到的电信服务商就是通过用户最近几期的家用账单、收入、职业等来进行分类的。 ? 聚类 ? 听说过物以类聚么?分类有一个同胞兄弟就是聚类,聚类相对分类更加自动,聚类也将大量实例分成多个类别,不过这次是根据属性值的相似程度自动汇聚成不同的类别。通常把分类成为有监督的算法,而聚类则被称为无监督的算法,主要原因就是分类在执行前就已经有了明确的类别,例如前面所说的客户——两种,试用后会选择的和试用不购买的,而聚类在分析前还不知道有多少分类,而是通过不断的迭代使得各分类之间的边界更加清晰,然后再分析这些分类之间的差别,因此聚类也成为无监督的算法。 ? 如果你有足够多的详细人口资料,那么我说某男30岁、大学教育、在大型外企从事IT业,你也许可以判断出我的收入,这是分类,不过如果我问什么样的女孩子愿意嫁给我那么看上去就更像是聚类的问题了。 ? 关联 ? 我在为一家大型国际餐饮连锁集团作商务智能咨询的时候曾经向客户提供过一个数据挖掘原型应用,在这个原型应用中客户认为购买汉堡包和辣鸡翅的用户有47%的可能性会购买百事冰可乐(这是第一次挖掘的结果,我们后面会讨论这个比例的问题),而这个就是一个关联的问题,因此关联分析另外一个相当响亮的名字就是购物篮分析。 ? 关联是找到事例中出现频率较高的组合规则,能做出上面这种判断的原因是47%的客户在购买汉堡包和辣鸡翅的时候同时购买了百事冰可乐,我们称之为“支持度”。 ?? 序列 ? 提到关联,另外一个同胞兄弟就是序列。序列也是发现组合规律的,不过关联中所提到的规律不涉及到先后次序,而序列则是有先后次序的。一个客户在网站上浏览了几种品牌的笔记本,如果顺序是Thinkpad - HP - DELL - XX牌,那么我们说他很有可能想买笔记本,不过更有可能买的是XX牌或者同一档次的笔记本,如果顺序倒过来,最后还看了Mac Air,那么还是说明他想买笔记本,不过他更有可能会买X300或者Mac Air,至少也是HP,这就是序列和关联的区别。 ? 回归 ? 温度、气压、风向和湿度,大体上气象预报员可以告诉你明天的天气怎么样。这就使回归。上周股票平均交易价格是29元,30元,31元,33元,35元,那么貌似这周一的价格是多少呢?当然不一定是37元,我不炒股也知道这个原因,但是如果我有三个月或者更长时间的股票交易价格历史,我倒是愿意估计一下,这也是一个回归的问题。当然有人愿意把这个问题叫做时间序列分析,不过我更加愿意把对连续的结果值(不依靠人为分段Discretize)进行预测的算法归为回归,其原因是其最为流行的方法就是发现回归公式。??? ? 企业中应用数据挖掘需要注意什么问题 ? 还记得那个47%的值么,当时一定

文档评论(0)

nnh91 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档