- 12
- 0
- 约2.86千字
- 约 6页
- 2016-04-22 发布于重庆
- 举报
分析海量数据
转自cnblogs
程序员应知 -- 如何分析海量数据
在这个云计算热炒的时代,如果你没有处理过海量数据的话,你将不再是个合格的Coder。现在赶紧补补吧~
前一阵子分析了一个将近1TB的数据群(gz文件,压缩率10%)。因为第一次分析如此巨大的数据,没有经验,所以浪费了许多时间。下面是我整理的一些经验,方便后者。
欢迎各种补充,我会不断更新这篇文章;觉得有用的话,速度分享链接;有不同意见的话,请果断拍砖;
下载数据
Q:怎么自动下载多个文件?
这是我遇到的第一个问题。当数据量很大时,一般都会分成很多个文件存放。这时下载文件比较麻烦。
A:用Wget命令。Windows下花费一点时间去下载安装。但之于手动下载,能省不少时间。
我提供两种方式方式下载文件,
a)用Wget的递归下载选项 “-r”。一般命令如下
wget –r http://下载数据的根目录/? -o 下载记录文件名? -np
因为递归下载没法控制进度,所以建议不一要次递归下载太多的文件
b)用Bat+Wget,多次执行Wget。一般命令如下
wget –r http://下载数据的根目录分支1/? -o 下载记录文件名? -np
wget –r http://下载数据的根目录分支2/? -o 下载记录文件名? -np
wget –r http://下载数据的根目录分支3/? -o 下载记录文件名? -np
…… ……
您可能关注的文档
最近下载
- 电子产品可靠性预计 BELLCORE.docx VIP
- 高中联赛难度几何100题(新版).docx
- 35项医疗核心制度监测指标(2025版)操作手册.docx VIP
- 化工原理课件_气体吸收相组成表示法及换算在液体中溶解度定律各种表达式.pdf VIP
- 第二信使的信号通路ppt课件.pptx VIP
- 故事代替道理:《鼻子里的蘑菇:不要挖鼻子!》.docx VIP
- 2024年普通高中信息技术学业水平合格性考试真题汇编及答案1 .pdf VIP
- 故事代替道理:《阅读的力量:养成阅读的好习惯》.docx VIP
- D-L 5190.3-2019 电力建设施工技术规范 第3部分:汽轮发电机组(高清可复制).pdf VIP
- 故事代替道理:《上课为什么要认真听讲》.docx VIP
原创力文档

文档评论(0)