数据挖掘与商业智能培训课件.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘与商业智能 吴联仁 2016.4.24 数据挖掘与商业智能 5 商业智能 【引导案例1】 1-3 中国能制作出类《纸牌屋》的电视剧吗?原因: A.没有系统性的数据积累、分析和挖掘习惯 B.广告模式不足以覆盖全部成本 C.内容需要一定的程序审核 大数据解读《星星》互联网时代造神剧 【引导案例2】 1-4 犯罪的根源: 孟菲斯警察局与孟菲斯大学合作利用SPSS创建一个统计包,利用统计历史减少犯罪。 措施:锁定抢劫案的多发地区,加派警力进行巡逻,对行为异常的人员加强盘查。 结果:收效甚微,发案率依然居高不下。 系统中保存了多年的案件和案犯的卷宗信息,通过利用数据挖掘等分析技术,揭示出最近这段时间的抢劫犯具有一些非常显著的特征: 没有固定住所,无家可归,而且也没有稳定的工作。另外,在很多抢劫案发生前,这些罪犯都吸食了毒品。 新措施:加强对无业人员和有吸毒前科人员的管理,并通过社会福利机构对他们实施救助;加强对毒品交易易发场所的严打和治理,从源头上掐断毒品的供应。 结果:抢劫案的发案率迅速降低。 1-5 【引导案例2】 1-6 【引导案例3】 卡夫食品,“澳洲老干妈”传奇: 有着90年历史的澳大利亚国民食品VEGEMITE(咸味酱),面临着市场“审美疲劳”的威胁,在IBM协助下,抓取互联网社交媒体上海量数据与信息,将分析转化为洞察,开辟了全新的市场机会,销量激增。 1-7 【引导案例3】 社交媒体(Social Media),也称为社会化媒体、社会性媒体,指允许人们撰写、分享、评价、讨论、相互沟通的网站和技术。 社交媒体营销有两种含义: 一种是这些媒体营销自己; 一种是其他公司利用这些媒体营销自身的产品。 1-8 数据挖掘与商业智能 5 商业智能 数据挖掘的社会需求 有价值的知识 可怕的数据 数据挖掘的社会需求 数据爆炸,知识贫乏 什么是数据挖掘? 堆积如山的数据 数据挖掘:在你的数据中搜索知识 什么是数据挖掘? 数据挖掘--从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合。 数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构; 数据挖掘大部分的价值在于利用数据挖掘技术改善预测模型。 数据挖掘(Data mining),也称为数据库知识发现(Knowledge-Discovery in Databases,KDD),或认为是KDD中的一个基本步骤。 矿山(数据) 挖掘工具(算法) 金子(知识) 数据挖掘视为知识发现过程的基础步骤 数据清理、数据集成、数据选择、数据变换、数据挖掘、模式评估、知识表示: 消除噪音或不一致数据 多种数据源可以组合在一起 从数据库中提取与分析任务相关的数据; 数据变换或统一成适合挖掘的形式 使用各种算法提取数据模式 识别提供知识的真正有用的模式 使用可视化和知识表示技术,向用户提供挖掘的知识 数据库、数据仓库、或其它信息库:数据挖掘的数据源,需要在其上进行数据清理和集成 数据库或数据仓库服务器:根据用户的数据挖掘请求,数据库或数据仓库服务器负责提取相关数据 知识库:存储面向领域的知识,用于指导搜索,或评估结果模式的兴趣度 数据挖掘引擎:数据挖掘系统核心部分,由一组功能模块组成,用于特征、关联、分类、聚类分析、演变和偏差分析等 数据挖掘系统体系结构 模式评估模块: 使用兴趣度度量,与挖掘模块交互,以便将搜索聚焦在有趣的模式上 对于有效的数据挖掘,建议尽可能地将模式评估推进到挖掘过程之中,以便将搜索限制在有兴趣的模式上 数据挖掘系统体系结构 图形用户界面: 该模块在用户和挖掘系统之间通讯 允许用户与系统交互,指定数据挖掘查询或任务,提供信息、帮助搜索聚焦,根据数据挖掘的中间结果进行探索式数据挖掘。 允许用户浏览数据库和数据仓库模式或数据结构,评估挖掘的模式,以不同的形式对模式可视化 数据挖掘系统体系结构 数据挖掘与商业智能 5 商业智能 文件组织术语和概念 数据结构 位是计算机能处理的最小数据单位。 一组位叫字节,可以表示一个字母、数字或字符。 若干个字节组成一个字、一组字(例如姓名、年龄等),称为字段。 相关字段的有序集合称为记录。 相同类型的记录汇集成文件。 一组有序的文件组成数据库。 一个记录描述一个实体(entity)。 每一个描述实体的特性称为一个属性(attribute)。 传统文件环境带来的问题 会计和金融 人力资源 销售和市场 制造业 衍生文件 传统文件处理过程 传统文件环境带来的问题:数据冗余、数据-程序依赖、缺乏灵活性、低安全性以及低共用性。 数据库模型 数据库软件:是一种软件,可以看得见,可以操作。用来实现数据库逻辑功能。属于物理层。 如Oracle ,SQL Server等 数据库:是一种逻辑概念,用来存放

文档评论(0)

扶摇直上九万里 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档