《数据挖掘》第一章数据挖掘的基本概念.docx

《数据挖掘》第一章数据挖掘的基本概念.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主讲:王名扬 信息学院 教学安排 愈总学时:40学时 ◎课堂教学:40学时 愈考核方式: 僉两次平时考核:30+30 , / 5月22日7-8节丹青楼422 / 6月19日7-8节丹青楼422 。期末考试:40 6月28日3-4节丹青楼420 参考书目 《数据挖掘:概念与技术》韩家炜著(机械) 数据挖掘原理 数据挖掘 快玄等技术 W 口尹,Mrnwp 声 ^ OilhLMy.BXOM 构建面向CRM -的数据挖掘应用 CHINA?WCOM 亜务建模 与数据挖掘 CHINA-PUB.COM 一引例 例1如果你在当当的购书网站购买过书籍或音像制品, 以后再浏览该网站时经常看到类似的提示:“猜您可能会 喜欢”,然后就可以在网页的某个位置看到网站推荐的图 书的名称及其相关链接。 网站怎么知道读者可能会对这些物品感兴趣? 这是因为网站釆用了新的技术来了解顾客的潜在需求,比 如:网站从顾客的购买清单中发现你买的书与张三买过的书有 儿本是相同的,但是还有些书张三已经买了,而你却还没买, 网站会据此认为你们的阅读偏好相近,从而你会对那些书也会 感兴趣。 感兴趣。 网站这种推荐并非漫无边际,而是有一定技术依据E 技术就是数据挖掘技术(DM) 0 例2啤酒与尿布的故事 某超市Post机上记录如下的销售数据: 顾客10购买商品 顾客 10 面包,黄油,尿布,啤酒 咖啡,糖,小甜饼,鲤鱼,啤酒 ?? 面包,黄油,咖啡,尿布,啤酒,鸡蛋 面包,黄油,鮭鱼,鸡 鸡蛋,面包,黄油 鲤鱼,尿布,啤酒 面包,茶,糖鸡蛋 咖啡,糖,鸡,鸡蛋 面包,尿布,啤酒,盐 茶,鸡蛋,小甜饼,尿布,啤酒 从这个销售数据中可以得出什么结论? 简单分析发现,有6个顾客买了啤酒,而其中5个人 买了尿布,或说,5个买了尿布的顾客都买了啤酒。 从数据挖掘的角度会得到如下的很强的关联规则: 规则1: “买啤酒” 买尿布”。 置信度为5/6 规则2: “买尿布” =“买啤酒”。 置信度为5/5 结论:“买尿布的顾客很可能会买啤酒”。 原因? 二什么* 什么是数据挖掘? ■存在太多数据挖掘的定义,但基木上有这样一种描述结构 To find / discover / extract / dredge / harvest、、、 Interesting / novel / useful / implicit / actable / meaningful、、、 Information / knowledge / patterns / trends / rules / anomalies、、、 In massive data / large data set / large database / data warehouse、、、 WisdomKnowledge + experienceKnowledgeInformation + rules Wisdom Knowledge + experience Knowledge Information + rules 数据挖掘的定义(从数据中发现知识角 度): 数据挖掘是从大量的数据中挖掘出隐含 的、未知的、用户可能感兴趣的和对决策 有潜在价值的知识和规则。 简单的说,数据挖掘就是从大量的数据中发现 有用的信息。 为什么会出现数据挖掘? 为什么会出现数据挖掘? ■数据爆炸性增长是数据挖掘技术应运而生的根本原因。 我们拥有丰富的数据,但却缺乏有用的信息 ?商务环境(CRM):电子商务的Web数据,超市购物数据 ^^?金融:银行卡交易数据 .■ ?科学计算:天气、地理环境等 ?很多没有分析的数据 只见树木,不见森林(Drowning in data but starving for information) ■数据爆炸性增长是数据挖掘技术应运而生的根本原因。 我们拥有丰富的数据,但却缺乏有用的信息 ?商务环境(CRM):电子商务的Web数据,超市购物数据 ^^?金融:银行卡交易数据 .■ ?科学计算:天气、地理环境等 ?很多没有分析的数据 只见树木,不见森林(Drowning in data but starving for information) 数据 一个中等规模的企业每天要生产100MB以上来自各生产经营等多 方面的商业数据; ?美国政府部门的一个典型的大数据库每天要接收约5TB的数据量; ?在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据 量就达3~4TB之多,而为研究,这些数据至少要保持7年之久; 20世纪90年代互联网的出现及发展,使整个世界互联形成一个小 小的地球村,人们可跨越时空在网上交换信息和协同工作,展现在人 们面前的是浩瀚无垠的信息海洋; ?据估计,1993年全球数据存储容量约为二千TB,到2000年増尢三质 三百万T

文档评论(0)

文档查询,农业合作 + 关注
官方认证
内容提供者

该用户很懒,什么也没介绍

认证主体土默特左旗农特农机经销部
IP属地河北
统一社会信用代码/组织机构代码
92150121MA0R6LAH4P

1亿VIP精品文档

相关文档