网站用户访问特征的第三方评估体系.docVIP

  • 8
  • 0
  • 约3.54千字
  • 约 6页
  • 2017-08-17 发布于山东
  • 举报

网站用户访问特征的第三方评估体系.doc

网站用户访问特征的第三方评估体系   何谓好的评估指标体系   从数学的角度看,好的评估指标体系即要用最少的参数,建立最准确有效的模型;从统计学的角度看,好的评估指标体系指要用最少的变量,反映样本最多的数据特征。所以本文中,我们也将用最少的数据指标,准确和全面的反应网站的用户访问特征。通俗的讲,就是定义各个网站的“德智体美劳”。因此衍生出以下两个需要遵守的具体原则:   1.体系中的各指标间不相关,或弱相关;   2.体系中的各指标组合、换算,可以得出现有常用体系中的所有指标。   以上两个原则和主成份分析、因子分析的原则是一致的。这些通用的统计方法,从纯粹的数据角度出发,找出几个不相关的统计指标,并以此来解释原有数据。这种方法存在下述一些缺陷:   1.人为创造出因子间的高度不相关,而忽视了实际指标中的模糊性;   2.得出的数据模型不稳定,可能因数据变化而变化;   3.忽视了实际中这些指标间的内在联系。   所以本文所属的评估体系,并不是从数学解释出发,而是从指标间的因果关系,和网民行为的内在模式出发。建立稳定的、准确的、有效的,反应网民访问各个网站不同特征的指标体系。 证明过程中用到的都是基本的统计学和数学知识,大家可以在标准的统计学教材内找到解释,这里不另作标注。   现有日均指标间的因果关系   目前市场上常用的指标有月度指标、周度指标,和日度指标。日度指标因为波动较大,所以往往用一段时间的日均指标来代替。而不论月度、周度和日均指标中,都包括覆盖人数、浏览页面、浏览时间等访问行为指标,所以我们先从最基本的日均相关指标着手。   如图1,一共有9个常用的日均和人均指标,从中我们根据因果关系,挑选出了4个相对基本的指标(白色的圈)。这4个指标间交叉相乘,恰能很好的得出其他的5个日均指标。而且这4个指标间互不相关。   (1)日均覆盖×人均单日访问次数=日均访问次数cor=1:   (2)人均单次浏览页面×日均访问次数=日均访问页面cor=1:   (3)人均单页浏览时间×日均访问页面=日均浏览时间cor=1。   以上3个推演的逻辑非常简单,而且很多第三方网络数据提供商实际就是根据这样的公式来计算人均指标的,所以他们的相关系数都接近1。   (4)人均单日访问次数×人均单次浏览页面=人均单日浏览页面cor=0.91;   (5)人均单日浏览页面×人均单页浏览时间=人均单日浏览时间cor=0.86:   以上2个推演的逻辑也很简单,且从极高的相关系数看,也可认为逻辑成立。   如果将该模型作为事件背后的规律,那么我们来看一下这个规律在现实中如何表现。   如图2,我们可以看到4个基本指标间(白色的圈)高度不相关,而最下面的日均指标都高度相关。原因就是每个日均指标都严重受到日均覆盖的影响。所以在评估媒体特征的时候,如果同时选择了多个日均指标,将对结果没有太大的意义。而只有选择4个基本指标(白色的圈),才能有效的区分出不同媒体的特性。   单日访问和周度访问的累加模型   上面的部分已经把日均和人均指标间的问题解决了,剩下的就是如何从日均指标推演出周度、月度指标。因为目前大多的媒体行为都以周为单位,所以这里主要解决周度数据的推演。   如图3,按照图中网站访客用的滚动模式,一周7天计,假设每天的用户行为一致。   每一天的:覆盖数n、人均访问次数c、人均浏览页面p、人均浏览时间t;   每一周的:覆盖数N、人均访问次数C、人均浏览页面P、人均浏览时间T; 在图中滚动比例a确定的情况下,经过7天的迭代,得到:   (6) N= (7-6a)n;   (7)C=7cn /N=7c/(7-6a);   (8)P=7p/ (7-6a);   (9)T=7t/(7-6a);   其中公式(7)也等效为人均周访问天数。   我们将N/n,C/c,P/p,T/t称为他们各自的周累加指数,即:   (10)单日的指标×周累加指数=周度指标   可以看出,除了周覆盖累加指数和其他的累加指数呈反比关系,其他各累加指数间都是线性关系。iUser-Tracker的数据证明了这一现象,从而也证明了这个模型的有效性(见图4)。 在模型初步证明后,我们可以根据公式(6)一(9)获得4个滚动系数。经检验,这4种方法获得系数基本一致。为了方便处理,我们以周覆盖累加指数计算出的滚动系数a为准,得到以下数据表格(其中日回访比例就是模型中的滚动比例)。   表中覆盖人数最多的几个大网站,他们的日回访比例都呈现显著的差异,所以这个日回访比例(滚动比例)能够有效的描述以前未被发现的一个网站特征。将这个根据周覆盖累加指数计算的日回访比例回代到其他的累加指数中,结果同样非常准确(见图5)。   图5中模型参数的回代误差呈现很好的正态分布。大家回想一下最初的日均指标因果图(

文档评论(0)

1亿VIP精品文档

相关文档