- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
主讲:王名扬信息学院
教学安排
愈总学时:40学时
◎课堂教学:40学时
愈考核方式:
僉两次平时考核:30+30
, / 5月22日7-8节丹青楼422
/ 6月19日7-8节丹青楼422
。期末考试:40
6月28日3-4节丹青楼420
参考书目
《数据挖掘:概念与技术》韩家炜著(机械)
数据挖掘原理
数据挖掘
快玄等技术
W 口尹,Mrnwp 声
^
OilhLMy.BXOM
构建面向CRM
-的数据挖掘应用
CHINA?WCOM
亜务建模 与数据挖掘
CHINA-PUB.COM
一引例
例1如果你在当当的购书网站购买过书籍或音像制品, 以后再浏览该网站时经常看到类似的提示:“猜您可能会 喜欢”,然后就可以在网页的某个位置看到网站推荐的图 书的名称及其相关链接。
网站怎么知道读者可能会对这些物品感兴趣?
这是因为网站釆用了新的技术来了解顾客的潜在需求,比
如:网站从顾客的购买清单中发现你买的书与张三买过的书有 儿本是相同的,但是还有些书张三已经买了,而你却还没买, 网站会据此认为你们的阅读偏好相近,从而你会对那些书也会
感兴趣。
感兴趣。
网站这种推荐并非漫无边际,而是有一定技术依据E
技术就是数据挖掘技术(DM) 0
例2啤酒与尿布的故事
某超市Post机上记录如下的销售数据:
顾客10购买商品
顾客
10
面包,黄油,尿布,啤酒
咖啡,糖,小甜饼,鲤鱼,啤酒 ?? 面包,黄油,咖啡,尿布,啤酒,鸡蛋 面包,黄油,鮭鱼,鸡
鸡蛋,面包,黄油
鲤鱼,尿布,啤酒 面包,茶,糖鸡蛋
咖啡,糖,鸡,鸡蛋
面包,尿布,啤酒,盐
茶,鸡蛋,小甜饼,尿布,啤酒
从这个销售数据中可以得出什么结论?
简单分析发现,有6个顾客买了啤酒,而其中5个人 买了尿布,或说,5个买了尿布的顾客都买了啤酒。
从数据挖掘的角度会得到如下的很强的关联规则:
规则1: “买啤酒” 买尿布”。 置信度为5/6
规则2: “买尿布” =“买啤酒”。 置信度为5/5
结论:“买尿布的顾客很可能会买啤酒”。
原因?
二什么*
什么是数据挖掘?
■存在太多数据挖掘的定义,但基木上有这样一种描述结构
To find / discover / extract / dredge / harvest、、、
Interesting / novel / useful / implicit / actable / meaningful、、、
Information / knowledge / patterns / trends / rules / anomalies、、、
In massive data / large data set / large database / data warehouse、、、
WisdomKnowledge + experienceKnowledgeInformation + rules
Wisdom
Knowledge + experience
Knowledge
Information + rules
数据挖掘的定义(从数据中发现知识角
度):
数据挖掘是从大量的数据中挖掘出隐含 的、未知的、用户可能感兴趣的和对决策 有潜在价值的知识和规则。
简单的说,数据挖掘就是从大量的数据中发现 有用的信息。
为什么会出现数据挖掘?
为什么会出现数据挖掘?
■数据爆炸性增长是数据挖掘技术应运而生的根本原因。
我们拥有丰富的数据,但却缺乏有用的信息
?商务环境(CRM):电子商务的Web数据,超市购物数据 ^^?金融:银行卡交易数据 .■
?科学计算:天气、地理环境等
?很多没有分析的数据
只见树木,不见森林(Drowning in data but starving for
information)
■数据爆炸性增长是数据挖掘技术应运而生的根本原因。
我们拥有丰富的数据,但却缺乏有用的信息
?商务环境(CRM):电子商务的Web数据,超市购物数据 ^^?金融:银行卡交易数据 .■
?科学计算:天气、地理环境等
?很多没有分析的数据
只见树木,不见森林(Drowning in data but starving for
information)
数据
一个中等规模的企业每天要生产100MB以上来自各生产经营等多 方面的商业数据;
?美国政府部门的一个典型的大数据库每天要接收约5TB的数据量; ?在科研方面,以美国宇航局的数据库为例,每天从卫星下载的数据 量就达3~4TB之多,而为研究,这些数据至少要保持7年之久;
20世纪90年代互联网的出现及发展,使整个世界互联形成一个小 小的地球村,人们可跨越时空在网上交换信息和协同工作,展现在人 们面前的是浩瀚无垠的信息海洋;
?据估计,1993年全球数据存储容量约为二千TB,到2000年増尢三质 三百万T
您可能关注的文档
最近下载
- 2025年床旁盲插鼻空肠管及管理.pptx VIP
- 医院落实《医疗机构医疗质量安全专项整治行动方案》自查自纠报告.docx VIP
- 英威腾AX70系列可编程控制器硬件手册_V1.1.pdf VIP
- VEICHI伟创 AC310系列变频器简易说明书-V1.6.pdf VIP
- 传感器技术基础与应用实训 课后习题答案汇总(徐军版) 项目单元1-11.pdf VIP
- 奥的斯ACD-MRL ACD4-MRL电气原理图纸 HAA21310AW-有注释注解.pdf
- 施工总承包的安全管理.pptx
- DB61T 5006-2021技术设计规范.docx VIP
- 工程造价咨询服务方案(预结算及全过程).docx VIP
- 急性心肌梗死治疗小讲课.pptx VIP
原创力文档


文档评论(0)