- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
报表系统数据挖掘优化分析
摘要:伴随着大数据的发展,各大企业都在成立自己的数据中心,目的是为了统一处理各大部门的数据信息,打造一个数据中台来提升企业的综合实力。BI系统应用而生,BI主要是通过对大数据的收集,提取,分析以及展示等操作,过滤之后的信息以各种图形化的方式展示出来,帮助领导以及企业做出正确的决断。通过对国内的大部分数据中心进行观察发现了以下问题:海量的数据不能正确的处理,复杂的图表展示,大量冗余的信息使得企业不得做出正确的决定。故该文主要针对报表系统的数据挖掘模型进行优化设计与分析。
关键词:报表系统;数据挖掘
1背景
BI又被称为商务智能,译为BusinessIntelligence,在1989年,HowardDresner称为“使用基于事实的决策系统,来解决业务决策的一套理论和方法”[1],主要是通过数据仓库,数据挖掘以及报表系统集合来打造一个系统。将多种来源的数据整合并提取出共性数据,然后对数据进行清洗,分析以及整理,这个数据处理就叫作ETL过程,ETL过程可以完善数据的正确性。然后对数据进行分类整理呈现给决策者或者存入数据仓库。目前国内的BI系统发展迅速,大部分企业的数据分析技术也很强,但是大家对于BI的认知不同导致设计系统的侧重点也是不同的,在此仅针对BI系统部分的数据挖掘进行优化。
2数据挖掘模型
2.1数据挖掘。数据挖掘是对数据进行抽取,分析,处理之后形成的数据仓库,之后再对数据仓库中的数据进一步挖掘的过程。2.2数据模型之决策树。决策树结构如图2所示。决策树是树形结构,每个节点是一个简单的线性决策器,节点属性依据取值的不同划分为不同的种类,其中决策树的任意一个非叶子节点有两个特点:一个训练子集和一个分割属性,每个节点的训练子集互不相交。决策树的构造:在初始时刻构建树根节点,且树根节点拥有所有的训练数据,任一节点Ni,选择数据的某一个属性A,以A的不同值,把节点Ni拥有的数据Di划分为全部没有交集的集合,每个集合变成Ni的一个子节点,当某个节点的所有训练数据都属于同一个类时,该节点的划分过程结束,生成叶节点只有一个属性,它的父节点拥有的数据集所属的类标号。ID3算法:决策树的重点在于如何最有效的去划分子节点,也就是选择划分的属性使得从数据集中找到最重要的数据,我们可以用数据的不纯性来描述数据分割的能力,“纯”代表着分割之后的子集异类数目越少越好,因此衍生出了ID3算法,采取信息增益这个量来作为纯度的度量[2],算法流程:1)计算信息熵,对于给定的变量拥有的概率分布向量(p1,p2,p3……),我们可以计算出信息熵是概率分布向量的对数期望值:H=-f(x)=-∑npnlogpn,主要是来衡量随机变量的不确定性;2)计算熵不纯度:对决策数的节点N定义熵不纯度为i(N)=H(N);3)对于节点的不同取值,都进行子节点的信息增益计算:IG(N/Ai)=H(N)-∑INi/NH(Ni)=H(N)-H(N/Ai),可选取信息增益最大的属性作为当前划分属性,之后再从第一步开始循环,直到叶子节点。以信息的增益为例,我们一般会选取属性相同多的属性,这样做的后果是会造成对取值数目的属性和个数有所偏好,为了减少这种偏好取值所带来的影响,我们可以采用C4.5算法来消除这种影响,使用属性增益率来划分最适合属性,对最适合的信息增益属性取权值再求熵,作为最后的增益率划分属性。C4.5算法:与ID3算法不同的是,C4.5算法划分重点转移到信息增益率上,信息增益率可以表示为:IGR=IG(N/Ai)/H(N/Ai),息增益除以分割后的信息熵[3],它通过信息增益率的选择分裂属性可以解决ID3算法中通过信息增益倾向拥有多个属性值的属性进行分割的不足,同时也可以将连续性的属性进行离散化的处理,属性离散化处理流程:将属性A的N个属性按照一定的规则排序,然后将属性A的所有量化属性通过二分法划分为两个部分,可以计算出共有N-1种划分的方法,划分的值取相近的属性取平均值,计算出每一种划分方式的信息增益值,然后对比信息增益的结果,将信息增益值最大的划分方式的阈值作为属性A的二分阈值。也就是当前节点的划分方式。算法流程:1)将当前节点上的属性A的值作为所有样本的数据,然后将数据进行排序,得到属性A的排列属性(xA1,...,xAN)。2)对于属性A的排序(xA1,...,xAN)中共有N-1种划分方法,总计可以产生N-1个划分阈值。假设针对第i种划分方式,取其二分阈值为θi=(xAi+xAi)/2。可以将该节点上的原始数据集划分为2个子数据集(xA1,...,xAi)(xAi+1,...,xAN)。然后计算该划分方法下的信息增益。3)统计N-1种划分结果下的信息增益值,选取信息增益值最优的方
您可能关注的文档
最近下载
- 用高倍显微镜观察叶绿体和细胞质流动实验.doc VIP
- 总账会计面试题目及答案.doc VIP
- 测绘安全生产事故报告及处置办法.docx VIP
- 最新版精选食品安全管理员完整题库298题(含答案) .pdf
- 造纸用压滤脱水靴套加工设备.pdf VIP
- 【腾讯广告营销洞察】Z世代消费力白皮书.pdf VIP
- 统编版(2024)新教材小学三年级道德与法治上册第二单元《爱科学 学科学》(复习课件).pptx VIP
- 一例基于5A护理模式下的AECOPD患者肺康复改善护理个案(1) PPT课件.pptx VIP
- 湘美版小学六年级美术上册-《田间的精灵》同步课件.pptx VIP
- 广州市居住小区配套设施建设暂行规定.doc VIP
原创力文档


文档评论(0)