第5章 数据预处理.ppt

  1. 1、本文档共98页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
函数 中的 代表已知列表的起始点, 为已知列表的终点, 表示要查找的记录参考时间,即等于它或小于它的最近的记录。其结果是返回一条记录的位置,标示出会话的终点,或下一会话的起点。 例如:从某实验室的Web服务器3天的日志作为会话的数据,数据大小是145MB。其中,θ的会话溢出时间为30min,会话总数47631,原始Web日志中项数为572614,数据清洗后项数为85892 谢谢 性质5.2(关于各类型变量的近似分布性) (1) 对于连续随机变量x,其估计分布函数为近似正态分布N(xmena,sx2)。分布函数为: F(x)= (2) 对于二元变量x,设其状态为0,1。所抽ssimp个样本中,0状态的个数为ssimp0,1状态的个数为ssimp1。令p= ssimp0/ssimp,则其估计分布函数为: F(x)= (3) 对于标称变量x,设状态为sta1,sta2,…,stat,分别被标记为1,2,…,t。所抽样本中各状态出现的个数分别为ksta1,ksta2,…kstat,令pi=kstai /ssimp(i=1,2,…,t)。则其估计分布函数为: F(x)= 性质5.3 (抽样数的确定) 估计分布函数的简单随机抽样样本个数ssimp由以下方法确定: ssimp= 其中 为标准正态分布的双侧 分位数,r为相对误差。 5.2.3.3 Hash函数的构造 SHF模型按如下步骤构造Hash函数: 对总体进行简单随机抽样,抽样针对每维变量进行。 按(5.1)(5.2)(5.3)式得到每维变量的近似分布,构造Hash函数如下: H(x1,x2,…,xm)=F(x1)F(x2)…F(xm)     (5.4) 以上方法实际上假定了各变量之间相互独立。对于总体数据,若各变量之间存在复共线性情形,可采取因子分析法先将数据进行转化,消除其复共线性。其计算量为O(n)。 命题5.2  x1,x2,…,xm 相互独立时,H(x1,x2,…,xm)为变量X=(x1,x2,…,xm)的联合分布函数。 证明:由独立随机变量的联合分布函数的性质即知。 5.2.3.4 分层取样 SHF模型利用Hash函数对总体数据进行分桶,亦即将数据进行分层,然后针对各桶进行简单随机抽样,从而实现分层抽样。 设按函数发现技术要求所需抽取的样本数为slayer,将[0,1]slayer等分,slayer个等分点如下: 0=i0, i1, i2, …, islayer-1, islayer=1,则iq-iq-1=1/slayer(q=1, 2, …, slayer) 将n个数据分到slayer个桶,分法如下: 若第j行数据满足: iq-1=H(xj1, xj2, …, xjm)iq(q=1,2,…slayer-1) iq-1=H(xj1,xj2,…,xjm)=iq(q=slayer)  (5.5) 则第j 行属于第q个桶。 命题5.3 (各桶中数据分布的特点)按上述分桶方法,各桶中数据的个数以概率1相同。 证明:由命题5.2知, H(x1, x2, …, xm)为变量X=(x1,x2,…,xm)的联合分布函数,将n个点看作是分布在维数为m的超几何体中。由于桶的划分是按分布函数等概率来划分的(注意,不是按超几何体等体积划分),即超几何体被划分为slayer个等概率空间,即slayer个等概率Hash桶,由概率函数的频率意义知,各桶落入点的频率应该均为,因此,各桶中数据的个数以概率1相同。 命题5.3保证了后面的基于Hash函数取样技术在分层时,各层中数据个数接近,为保证抽样质量提供了理论依据。 性质5.4 分层抽样的精度优于简单随机抽样,即分层抽样的估计量方差小于简单随机抽样。 5.2.3.5 基于Hash函数取样的数据预处理算法 SHF模型中的HSDPA(Hash Sampling Based Data Preprocessing Algorithm)算法首先进行简单随机抽样,估计分布函数,构造出Hash函数,然后进行基于Hash函数的分

文档评论(0)

38号店铺 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档