- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
ISSN 1004⁃9037,CODENSCYCE4 http://
JournalofDataAcquisitionandProcessingVol.34,No.3,May 2019,pp.373-385 E⁃mail:sjcj
DOI:10.16337/j.1004⁃9037.2019.03.001 Tel/Fax:+86⁃025
ⒸⒸ 2019byJournalofDataAcquisitionandProcessing
大数据随机样本划分模型及相关分析计算技术
黄哲学1,2 何玉林1,2 魏丞昊1,2 张晓亮1,2
(1.深圳大学计算机与软件学院大数据技术与应用研究所,深圳,518060;2.深圳大学大数据系统计算技术国家工
程实验室,深圳,518060)
摘 要:设计了一种新的适用于大数据的管理和分析模型——大数据随机样本划分(Randomsample
partition,RSP)模型,它是将大数据文件表达成一系列RSP数据块文件的集合,分布存储在集群节点
上。RSP的生成操作使每个RSP数据块的分布与大数据的分布保持统计意义上的一致,因此,每个
RSP数据块是大数据的一个随机样本数据,可以用来估计大数据的统计特征,或建立大数据的分类和
回归模型。基于RSP模型,大数据的分析任务可以通过对RSP数据块的分析来完成,不需要对整个大
数据进行计算,极大地减少了计算量,降低了对计算资源的要求,提高了集群系统的计算能力和扩展能
力。本文首先给出RSP模型的定义、理论基础和生成方法;然后介绍基于RSP数据块的渐近式集成学
习Alpha计算框架;之后讨论基于RSP模型和Alpha框架的大数据分析相关计算技术,包括:数据探索
与清洗、概率密度函数估计、有监督子空间学习、半监督集成学习、聚类集成和异常点检测;最后讨论
RSP模型在分而治之大数据分析和抽样方法上的创新,以及RSP模型和Alpha计算框架实现大规模数
据分析的优势。
关键词:大数据;随机样本划分;渐近式集成学习;人工智能
中图分类号:TN911.73 文献标志码:A
RandomSamplePartitionDataModelandRelatedTechnologiesforBigDataAnalysis
1,2 1,2 1,2 1,2
Huang Zhexue , He Yulin , Wei Chenghao , Zhang Xiaoliang
(1. BigDataInstitute, CollegeofComputerScience SoftwareEngineering, ShenzhenUniversity, Shenzhen, 518060, China;
2.NationalEngineeringLaboratoryforBigDataSystemComputingTechnology,Shenzhen,518060,China)
Abstract:Randomsamplepartition (RSP)datamodeldistributedlyrepresentsabigdatasetasasetof
RSP data blocks stored on a computing cluster. The RSP data model guarantees that the probability
distributionofeachdatablockisstatisticallyconsistenttotheprobabilitydistributionofwholebigdata
set. Thus,each RSP data block is a random sample of big data set and can be used to estimate the
statisticalpropertiesofbigdatasetorestablishtheclassificationandregressionmodels.BasedontheRSP
datamodel,thebigdataanalysiscanbeconductedbyanalyzingRSPdatablocksratherthanthewhole
big data set. This
文档评论(0)