- 1、本文档共41页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
信息管理专题——数据挖掘
信息管理专题——数据挖掘(Data Mining) 啤酒 与尿布 问题 美国加州某个超级连锁店通过数据挖掘发现:该超市啤酒与尿布的销售量成正相关关系。后来发现,在下班后,来购买婴儿尿片的多数是男性,他们在购买婴儿尿片的同时往往也购买啤酒。于是连锁店经理当机立断重新布置货架,把啤酒与尿布放置在邻近的货架上,并且在两者之间放上土豆片之类的佐酒小吃,这样一来,上述几种商品的销量几乎马上成倍上涨。 信息管理专题——数据挖掘 数据挖掘基本功能 聚类分析 关联挖掘 互联网数据挖掘 数据丰富与知识匮乏 据粗略估计,20世纪80年代,全球信息量每隔20个月就要增加一倍。而进入90年代,全球所拥有的数据库及其所存储的数据规模增长更快。据估计,1993年全球数据存储容量为2000TB,2000年增加到300万TB。但是目前一个大型企业数据库中的数据,约只有7%得到很好的应用。 数据挖掘模式 数据仓库 数据仓库是用以支持企业和组织的决策分析处理、面向主题、集成的、不可更新、随时间变化的数据集合 数据泛化 将数据抽象到更高的层次概念来取代低层次的数据。如:某个客户的地址(安徽省合肥市桐城南路375号),这样的数据可以泛化到“安徽省”。如年龄属性,可以映射到青年、中年、老年。 数据挖掘功能 1、概念描述:定性与对比 2、关联分析★★★★★ 3、分类分析 4、聚类分析★★★★★ 5、异类分析 6、演化分析 概要描述示例 【示例1 】一个数据挖掘系统需要从我校职工数据库中,挖掘出我校讲师情况的概要总结,并给出我校讲师概念描述: “62%(age30)and (age24)” 概要描述示例 【示例2 】一个数据挖掘系统需要从我校职工数据库中,针对我校副教授情况(对比数据集),对我校讲师情况(目标数据集)进行对比概要总结,并给出我校讲师对比概念描述: “讲师:78%(papers3)and (teaching course2)”,而“副教授: 66%(papers=3)and (teaching course=2)” 关联分析 【示例3 】一个数据挖掘系统可以从一个商场的销售记录数据中,挖掘出如下所示的关联规则: buy(X,”computer”) =buy (X,”software”) [支持度=1%,信任度=60%] 支持度和信任度 分类分析-第一步:学习建模 分类分析-第二步:分类测试 异类分析 【示例4 】异类分析可以用于从大量商品购买记录中,依据各账户平常所发生的购买行为,发现正在进行信用卡诈骗的购买行为(异类行为)。例如:可以根据购买的发生地点、购买商品类型和购买频率等发现属于信用卡诈骗的购买行为(异类数据) 演化分析 【示例5 】利用演化分析方法可对股市主要股票交易数据(时序数据,time series data)进行分析,以便获得整个股票市场的股票演化规律,以及一个特定股票的变化规律 信息管理专题——数据挖掘(Data Mining) 数据挖掘基本功能 聚类分析 关联挖掘 互联网数据挖掘 聚类分析- κ均值(κ-means )算法 聚类分析-距离表示 聚类分析- κ均值(κ-means )算法 聚类分析- κ均值(κ-means )算法 信息管理专题——数据挖掘(Data Mining) 数据挖掘基本功能 聚类分析 关联挖掘 互联网数据挖掘 关联挖掘 【示例6 】挖掘常在一起被购买的商品(关联知识)将帮助商家制定有针对性的市场营销策略。比如:顾客在购买牛奶时,是否也可能同时购买面包,显然能够回答这些问题将会帮助商家进行合适的货架商品摆放。 关联挖掘-相关概念 关联挖掘-相关概念 关联挖掘-步骤 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 单维布尔关联规则挖掘-Apriori算法 信息管理专题——数据挖掘(Data Mining) 数据挖掘基本功能 聚类分析 关联挖掘 互联网数据挖掘 互联网数据挖掘-挖掘难度 互联网数据挖掘-Google搜索引擎功能模块 Google搜索引擎功能模块-常用搜索策略 互联网数据挖掘-搜索引擎评价 思考题 第三步:连接步骤 第三步:频繁项集L3产生 2 {G1、G2、G5} 2 {G1、G2、G3} 支持频度 项集 频繁3-项集L3 根据频繁项
文档评论(0)