- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
CDH5.9.0宽表性能测试
部署环境CDH环境DataNode有5个节点,Hive、Spark、Impala都有3个节点,每个节点128G内存。创建表原始数据表:taglibs_text,以STORED AS TEXTFILE方式存储表。RCFILE格式表:taglibs_rc,以STORED AS RCFILE方式存储表。PARQUET格式表:taglibs_parquet,以STORED AS PARQUET方式存储表。关联查询表:taglibs_busy,只有一个telno字段,用于跟数据表做关联查询。制作测试数据原始数据是实际数据,517列,966929行,以作为分隔符原始数据行扩展[root@hadoop-9 gaoyang]#for((i=10087;i=10100;i+=1));do sed s/10086/$i/g HIVE_201606050001_201606.txt HIVE_201606050001_201606_1.txt ;done;原始数据3G左右,行扩展一次替换不要太大30G左右即可,否则会慢,跟系统内存有关原始数据列扩展[root@hadoop-9 gaoyang]#cat HIVE_201606050001_201606_1.txt |awk BEGIN{OFS=}{print $0$0} HIVE1.txt行扩展完成后,进行列扩展,517扩大一倍变成1034列[root@hadoop-9 gaoyang]#cat HIVE_201606050001_201606_1.txt |awk BEGIN{OFS=}{print $0$0$0$0} HIVE1.txt行扩展完成后,进行列扩展,517扩大四倍变成2068列导入数据导入原始text格式数据:load data local inpath /root/gaoyang/HIVE_201606050001_201606.txt into table taglibs_text;将原始数据导入到RCFILE格式表:insert into taglibs_rc select * from taglibs_text;将原始数据导入到PARQUET格式表:insert into taglibs_parquet select * from taglibs_text;将业务数据导入到busy表:load data local inpath /root/gaoyang/busy.txt into table taglibs_busy;占用空间taglibs_rc517占用空间hive desc formatted taglibs_rc517;# Detailed Table Information Database: default Owner: root CreateTime: Wed Nov 16 11:12:55 CST 2016 LastAccessTime: UNKNOWN Protect Mode: None Retention: 0 Location: hdfs://hadoop-9:8020/user/hive/warehouse/taglibs_rc517Table Type: MANAGED_TABLE Table Parameters: COLUMN_STATS_ACCURATE true numFiles 1113 numRows rawDataSize 245389068794 totalSize 265033234899 transient_lastDdlTime 1479286803 # Storage Information SerDe Library: org.apache.hadoop.hive.serde2.columnar.ColumnarSerDe
您可能关注的文档
最近下载
- 牛津译林版九年级上册Unit3 Teenage problems Welcome to the unit课件(共31张PPT)(内嵌音频+视频).pptx VIP
- 理光 Aficio 1022 1027 复印机中文维修手册.pdf VIP
- 英文富士施乐 B9136 B9125 B9110 B9100 英文维修手册.pdf VIP
- 施乐SC2020 彩色复印机中文维修手册.pdf VIP
- 施乐DC5010 4000 550I 450I 350I 5010 4000 3000I维修手册中文.pdf VIP
- 危险性较大分部分项工程安全管理措施.docx VIP
- 河北-2012定额【文件版】.pdf VIP
- 施乐DC SC2022 彩色复印机中文维修手册.pdf VIP
- 【国家标准】DL∕T 1745-2017 低压电能计量箱技术条件.pdf VIP
- 施乐DC S2520 S2320 S2011 黑白复印机中文维修手册.pdf VIP
文档评论(0)