商务智能知识整理.docVIP

  1. 1、本文档共7页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
商务智能知识整理

商务智能整理 数据仓库 数据仓库是面向主题的、集成的、非易失的和时变的数据集合,用以支持管理决策。面向主题的数据组织方式可在较高层次上对分数据给出完整、一致的描述;其数据是从原有分散的源数据库中提取集成出来的;其数据是不可实时更新的,仅当超过规定的存储期限,才将其从仓库中删除,提取新的数据经集成后再更新;其数据是按照时间顺序追加的,带有时间属性。 〖例〗试画出销售分析的概念模型。 解:首先根据销售分析的实际需求,确定信息包的维度、类别和指标与事实: (1)维度:包括日期维、销售地点维、销售产品维、年龄组别维、性别维等。 (2)类别:确定各维的详细类别,如:日期维包括年(10)、季度(40)、月(120)等类别,括号中的数字分别指出各类别的数量;销售地点维包括国家(15)、区域(45)、城市(280)、区(880)、商店(2000)等类别,括号中的数字同样分别指出各类别的数量;类似地,可以确定销售产品、年龄组别维、性别维等的详细类别。 (3)度量和事实:确定用于进行分析的数值化信息,包括预测销售量、实际销售量和预测偏差等。 一个超市案例 设计一个数据库存储商店管理信息系统的数据 涉及的数据信息有: 商品,仓库,仓库管理员,顾客,供货商 商品名称、商品类型、商品规格、商品质量、商品库存量、仓库地址、仓库电话、管理员姓名、管理员电话、顾客姓名、顾客电话、顾客住址、购买商品价格、购买商品数量、商品供货价格、商品 供货商电话、供货商地址、供货商联系人 概念模型图实例 星型结构与雪花模型的比较 星型结构的查询速度快,查询访问效率高,结构比较直观,方便业务人员使用;雪花模型节省存储空间,有一定程度的范式。 数据仓库设计 度量 维度 维度表和事实表设计 数据仓库物理实现 ETL 多维数据集设计部署 OLAP 定义1 :OLAP(联机分析处理)是针对特定问题的联机数据访问和分析。通过对信息(维数据)的多种可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观察。 定义2 :OLAP(联机分析处理) 是使管理人员能够从多种角度对从原始数据中转化出来的、能够真正为用户所理解的、并真实反映企业维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的一类软件技术。 Slicing:Filtering by AUS2 Dicing:Filtering by AUS1+AUS2 and Wholesale 数据挖掘 又称为数据库中的知识发现,它 是一个利用人工智能、机器学习和统计学等多学科理论分析大量的数据,进行归纳性推理,从事务数据库、文本数据库、空间数据库、多媒体数据库、数据仓库以及其他数据文件中提取正确的、新颖的、有效的以及人们感兴趣的知识的高级处理过程。 聚类与分类的区别 与分类不同,在开始聚集之前用户并不知道要把数据分成几组,也不知分组的具体标准,聚类分析时数据集合的特征是未知的。 聚类根据一定的聚类规则,将具有某种相同特征的数据聚在一起也称为无监督学习。分类用户则知道数据可分为几类,将要处理的数据按照分类分入不同的类别,也称为有监督学习。 贝叶斯分类器 对于连续属性: 离散化 把属性的范围划分为许多段: 每一段设定一个有序值 这样会违反独立性假设 估计概率密度: 假定属性服从正态分布 估计该属性分布的参数 (例如, 均值和标准差) 在得到概率密度之后,我们可以使用它估计条件概率P(Ai|c) 税号 去年退税 婚姻状况 可征税收入 逃税 1 是 单身 125k 否 2 否 婚姻中 100k 否 3 否 单身 70k 否 4 是 婚姻中 120k 否 5 否 离婚 95k 是 6 否 婚姻中 60k 否 7 是 离婚 220k 否 8 否 单身 85k 是 9 否 婚姻中 75k

您可能关注的文档

文档评论(0)

haocen + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档