- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第一章 数据挖掘概述讲授:吴雄华电话:Email:一、引例例1。如果你在当当的购书网站并购买过书籍或音像制品,以后再浏览该网站时经常看到类似的提示:“欢迎你,下面是我们给您推荐的新书和VCD。” 然后就可以在网页的某个位置看到几本新书或VCD的名字及其相关链接。网站怎么知道读者可能会对这些物品干兴趣?这是因为网站采用了新的技术来了解顾客的潜在需求,比如:网站从顾客的购买清单中发现你买的书与张三买过的书有几本是相同的,但是还有些书张三已经买了,而你却还没买,网站会据此认为你们的阅读偏好相近,从而你会对那些书也干兴趣。网站这种推荐并非漫无边际,而是有一定技术依据的,这种技术就是数据挖掘技术(DM)。例2。啤酒与尿布的故事某超市Post机上记录如下的销售数据:顾客购买商品1面包,黄油,尿布,啤酒2咖啡,糖,小甜饼,鲑鱼,啤酒3面包,黄油,咖啡,尿布,啤酒,鸡蛋4面包,黄油,鲑鱼,鸡5鸡蛋,面包,黄油6鲑鱼,尿布,啤酒7面包,茶,糖鸡蛋8咖啡,糖,鸡,鸡蛋9面包,尿布,啤酒,盐10茶,鸡蛋,小甜饼,尿布,啤酒从这个销售数据中可以得出什么结论?简单分析发现,有6个顾客买了啤酒,而其中5个人买了尿布,或说,5个买了尿布的顾客都买了啤酒。从数据挖掘的角度就是得到了如下的很强的关联规则:“买尿布”。规则1:“买啤酒”置信度为5/6“买啤酒”。规则2:“买尿布”置信度为5/5结论:“买尿布的顾客很可能会买啤酒”。原因?对决策者的启示:商品的摆放设计和销售策略。二、数据挖掘的定义 数据挖掘的定义有多种不同的定义方式,现在为大家广泛采用的是如下定义:数据挖掘是从大量的数据中挖掘出隐含的、未知的、用户可能感兴趣的和对决策有潜在价值的知识和规则。简单的说,数据挖掘就是从大量的数据中发现有用的信息。三、数据挖掘技术产生的动力1.数据爆炸问题。例3、美国未来学家阿尔温~托夫勒在1980年的著作在《第三次浪潮》中认为,未来的信息量将以指数级的速度增长。现在已成事实。例4.1965年,Intel公司联合创始人Gordon Morore在准备一个演讲时发现了一个具有历史意义的现象:芯片的容量每18~24个月增加一倍。他据此推断,按此趋势发展下去,在较短时间内计算能力将呈指数增长。----“摩尔定律”。 。例5.John Roth在联合国世界电信论坛上又提出了一个关于网络科技的一个观点:互联网宽带每9个月会增加一倍的容量,但成本降低一半,比芯片的变革速度还快。----“光纤定律”。还有很多案例都可以印证,现在的社会是一个信息爆炸的社会。是在信息的潮流中随波逐流还是“到中流击水,浪遏飞舟”?数据挖掘技术的另一个产生动力2.数据过量而知识贫乏现代人了解古代的主要方式主要是通过前人留下的记录,但是这些记录往往是零碎的、不完全的。例如?想象一下,如果后人希望了解现在人们的生活状况,他们面临的已不再是信息缺失,而是需要从浩如烟海的资料中有选择性的收集他们认为有用的信息,若没有一定技术支持,其难度恐怕可以用“浪里淘金”或“大海捞针”来形容。四、数据挖掘的支撑技术数据挖掘融合了统计、人工智能及数据库等多种学科的理论、方法和技术如统计学:除了实验设计与数据挖掘的关系不大,其他几乎所有方法都可以用于数据挖掘,如估计、假设检验、回归分析、主成分分析、时间序列分析、马尔科夫链等。五、数据挖掘的主要任务1、预测:分类和回归2、关联分析:如研究顾客的行为模式3、聚类分析:例如 对于新闻可以根据他们的主题分组。4、异常检测:识别其特征显著不同于其他数据的观测值(异常点)。主要应用包括检测欺诈、网络攻击、疾病的不寻常模式等。例 6。信用卡欺诈检测信用卡公司记录每个持卡人所做的交易,同时也记录信用限度、年龄、年薪和地址等个人信息。由于与合法交易相比,欺诈行为的数目相对较少,因此异常检测技术可以用来构造合法交易的轮廓。当一个新的交易到达时就与之比较。如果该交易的特性与所构造的轮廓很不相同,就把交易标记为可能是欺诈。第二章 数据一、理解数据例 1。有人给你如下数据,每行包含一个病人的信息,用前4个字段预测后一个字段5010.702012116.52210.7027165240427.6你做了相关的工作后再与数据提供者交流,字段1只是一个标号不代表任何实际意义,而字段4中0表示缺失值,在录入数据时偏偏所有的10都变成了0.?!二、数据属性及其类型属性(Attitude)是对象的性质或特性。属性类型描述例子分类的(定性的)标称属性值只是不同的名字,只提供足够的信息区分对象(=,!=)邮编、ID号、颜色、性别序数属性值只是确定对象的序(或)矿石硬度等级、成绩(A、B、C)数
文档评论(0)