- 1、本文档共98页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
函数 中的 代表已知列表的起始点, 为已知列表的终点, 表示要查找的记录参考时间,即等于它或小于它的最近的记录。其结果是返回一条记录的位置,标示出会话的终点,或下一会话的起点。 例如:从某实验室的Web服务器3天的日志作为会话的数据,数据大小是145MB。其中,θ的会话溢出时间为30min,会话总数47631,原始Web日志中项数为572614,数据清洗后项数为85892 谢谢 性质5.2(关于各类型变量的近似分布性) (1) 对于连续随机变量x,其估计分布函数为近似正态分布N(xmena,sx2)。分布函数为: F(x)= (2) 对于二元变量x,设其状态为0,1。所抽ssimp个样本中,0状态的个数为ssimp0,1状态的个数为ssimp1。令p= ssimp0/ssimp,则其估计分布函数为: F(x)= (3) 对于标称变量x,设状态为sta1,sta2,…,stat,分别被标记为1,2,…,t。所抽样本中各状态出现的个数分别为ksta1,ksta2,…kstat,令pi=kstai /ssimp(i=1,2,…,t)。则其估计分布函数为: F(x)= 性质5.3 (抽样数的确定) 估计分布函数的简单随机抽样样本个数ssimp由以下方法确定: ssimp= 其中 为标准正态分布的双侧 分位数,r为相对误差。 5.2.3.3 Hash函数的构造 SHF模型按如下步骤构造Hash函数: 对总体进行简单随机抽样,抽样针对每维变量进行。 按(5.1)(5.2)(5.3)式得到每维变量的近似分布,构造Hash函数如下: H(x1,x2,…,xm)=F(x1)F(x2)…F(xm) (5.4) 以上方法实际上假定了各变量之间相互独立。对于总体数据,若各变量之间存在复共线性情形,可采取因子分析法先将数据进行转化,消除其复共线性。其计算量为O(n)。 命题5.2 x1,x2,…,xm 相互独立时,H(x1,x2,…,xm)为变量X=(x1,x2,…,xm)的联合分布函数。 证明:由独立随机变量的联合分布函数的性质即知。 5.2.3.4 分层取样 SHF模型利用Hash函数对总体数据进行分桶,亦即将数据进行分层,然后针对各桶进行简单随机抽样,从而实现分层抽样。 设按函数发现技术要求所需抽取的样本数为slayer,将[0,1]slayer等分,slayer个等分点如下: 0=i0, i1, i2, …, islayer-1, islayer=1,则iq-iq-1=1/slayer(q=1, 2, …, slayer) 将n个数据分到slayer个桶,分法如下: 若第j行数据满足: iq-1=H(xj1, xj2, …, xjm)iq(q=1,2,…slayer-1) iq-1=H(xj1,xj2,…,xjm)=iq(q=slayer) (5.5) 则第j 行属于第q个桶。 命题5.3 (各桶中数据分布的特点)按上述分桶方法,各桶中数据的个数以概率1相同。 证明:由命题5.2知, H(x1, x2, …, xm)为变量X=(x1,x2,…,xm)的联合分布函数,将n个点看作是分布在维数为m的超几何体中。由于桶的划分是按分布函数等概率来划分的(注意,不是按超几何体等体积划分),即超几何体被划分为slayer个等概率空间,即slayer个等概率Hash桶,由概率函数的频率意义知,各桶落入点的频率应该均为,因此,各桶中数据的个数以概率1相同。 命题5.3保证了后面的基于Hash函数取样技术在分层时,各层中数据个数接近,为保证抽样质量提供了理论依据。 性质5.4 分层抽样的精度优于简单随机抽样,即分层抽样的估计量方差小于简单随机抽样。 5.2.3.5 基于Hash函数取样的数据预处理算法 SHF模型中的HSDPA(Hash Sampling Based Data Preprocessing Algorithm)算法首先进行简单随机抽样,估计分布函数,构造出Hash函数,然后进行基于Hash函数的分
您可能关注的文档
- 第3章 基因组学.doc
- 第3章微生物代谢调节.ppt
- 第4章固体的电学性质和电学材料.ppt
- 第4章生物的遗传II(普生2010年第7次课2)幻灯格式.pdf
- 第5十四章 基因重组和基因工程.ppt
- 第5章 植物基因工程.pdf
- 第5章 基因突变及其他变异精练.doc
- 第5章 热分析.ppt
- 第5章 猪生产学.ppt
- 第5章 科研选题.ppt
- 2023-2024学年广东省深圳市龙岗区高二(上)期末物理试卷(含答案).pdf
- 2023-2024学年贵州省贵阳市普通中学高一(下)期末物理试卷(含答案).pdf
- 21.《大自然的声音》课件(共45张PPT).pptx
- 2023年江西省吉安市吉安县小升初数学试卷(含答案).pdf
- 2024-2025学年广东省清远市九校联考高一(上)期中物理试卷(含答案).pdf
- 广东省珠海市六校联考2024-2025学年高二上学期11月期中考试语文试题.pdf
- 2024-2025学年语文六年级上册第4单元-单元素养测试(含答案).pdf
- 2024-2025学年重庆八中高三(上)月考物理试卷(10月份)(含答案).pdf
- 安徽省安庆市潜山市北片学校联考2024-2025学年七年级上学期期中生物学试题(含答案).pdf
- 贵州省部分校2024-2025学年九年级上学期期中联考数学试题(含答案).pdf
文档评论(0)