点击流数据仓库构建与多维分析.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
点击流数据仓库构建与多维分析

点击流数据仓库的构建与多维分析   [摘要]介绍点击流数据仓库的多维建模技术,在此基础上以“平和网”的日志数据为例,利用SQL Server2008构建点击流数据仓库,并对其进行多维分析研究。   [关键词] 点击流 数据仓库 ETL 多维分析      1引言    随着互联网的飞速发展,采用网站的形式进行宣传和交流的企业越来越普遍,网站每天都产生大量的数据,访客点击网站产生这些数据被称作点击流数据。其中包含很多对企业非常有用的信息,例如,访客的来源、访客的行为、访客的兴趣等。对这些数据进行有效的分析,不但能够对网站的建设起到指导作用,增强网站的粘着度,而且也能够反映出企业各方面的状况。    随着数据库技术的应用和发展,人们尝试对数据库中的数据进行再加工,形成一个综合的面向分析的环境,以更好地支撑决策分析。在此过程的发展和完善中形成了支持决策的、特殊的数据存储,即数据仓库。数据仓库概念首次出现是由被称为“数据仓库之父”的W.H.Inmon提出的,即数据仓库是面向主题的、集成的、稳定的、不同时间的数据集合,用以支持经营管理中的决策制定过程[1]。    为点击流分析而建立起的数据仓库称为点击流数据仓库。点击流分析技术的初衷是通过对客户点击行为的分析,抽取出对企业非常有用的信息,如访客的来源、行为、兴趣等,然后对这些数据进行有效的分析,为网站企业提供服务,改善客户关系,提高网站企业服务质量。    本文采用“平和网”新闻媒体网站的日志记录数据,基于SQL Server 2008 构建点击流数据仓库,并进行多维数据分析,目的在于对新闻媒体网站的建设起到一定的辅助作用。   2点击流数据仓库的需要分析    网站每天产生大量的数据,对于一个门户网站,其日浏览量甚至可能达到上亿次,其中伴随着海量的点击流和大量的浏览信息,这些数据中包含了很多有价值的信息。用户与Web进行会话时留下来的行为记录,经过分析后可获取信息之间的关联度,从而指导网络的布局和内容发布,得出潜在的有价值的信息。    点击流数据仓库的数据源更丰富,它除了包含传统数据仓库的数据源外,还包含网站的日志文件;它包含的一些新的维,如页面(Page)、会话(Session)、参考(Referrer)是传统数据仓库所不具有的[2]。    “没有点击流数据仓库,就像乘坐的飞机没有窗户或驾驶舱内没有仪器工具一样,你会毫无方向地乱飞,最终是会坠机的”[2]。    对点击流数据仓库中的数据的有效分析,可以得出:访客来自哪些区域,停留多长时间;哪些页面是访客不感兴趣的,哪些形式的网页更加吸引访客;访客使用什么类型浏览器或操作系统等等。    综上所述,建立一个结构合理的点击流数据仓库是很有实际意义的。   3点击流数据仓库的多维建模   3.1 确立数据分析主题    数据仓库是面向主题的,首先要确定数据分析或前端展现的主题。不同的主题来源于数据仓库中的不同子集,称之为数据集市。数据集市体现了数据仓库某一方面的信息,数据仓库由多个数据集市构成。    根据既定的数据仓库建设目标和网站管理者、网站商务运营者对网站运行的了解需求,本文以“平和网”新闻媒体网站的“网站信息分析”为主题,内容包括:网站总页面流量,访问最集中时段,访问量最高月份,访问量最少的页面,页面平均驻留时间等。   3.2 确定度量值    通过SQL Server 2008来构建数据仓库时,度量值是数值型的,度量值是所分析的多维数据集的中心值,基于不同的度量值可以进行复杂关键性能指标等的设计和计算。例如,当度量值组中包括时间维度并且时间维度的默认粒度为每天,则度量值组中该维度的默认粒度也为每天。   3.3 确定维度和数据粒度    维度是指OLAP 中分析的不同角度。用户可能需要针对不同目的来定义不同粒度或专一性的事实数据表维度,在 SQL Server Analysis Services中,基于不同的维度,可以看到各度量值的汇总情况,也可以多个维度进行交叉分析。    在 SQL Server Analysis Services中,维度还要确定维度的层次和级别。例如:在时间维度上,可以按照“年―月―日”形成一个层次,其中“年”、“月”、“日”成为了这个层次的3 个级别。数据粒度则代表了数据汇总的层次或深度,在确定了度量值之后,要考虑到该度量值的汇总情况。   3.4 创建事实表    事实表是维度模型的基本表,存在大量的业务性能度量值或KPI指标。一个事实表代表一个业务度量,度量值的列表确定了事实表的粒度和度量值的取值范围。事实表中最有用的事实是数字类型和可加型事实。    日志数据仓库系统中存在特殊的维度表和事实表,来支持流量统计功能和将来的Web使用挖掘,

文档评论(0)

317960162 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档