- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
mapreduce文件读取实例及应用场景
对于一个文件系统来说,如何能够方便的读取文件系统中的内容是使用者很关心的一个问题,对于hadoop这样一个分布式云计算平台来说,它的hdfs文件系统当然提供了一个方便的文件访问接口进行文件系统内容的读取.我们可以通过Hadoop URL的方式进行读取,也可以通过Hadoop提供的文件系统的API进行文件读取.今天首先介绍一下通过URL的方式进行Hadoop文件系统的读取:
?? ? ? ?使用URL的方式对Hadoop文件系统的读取非常简单,可以使用java.net.URL对象以及org.apache.hadoop.io.IOUtils的静态方法copyBytes来对文件系统进行读取,具体的例子如下:
import?java.io.InputStream;
import?java.net.URL;
import?org.apache.hadoop.fs.FsUrlStreamHandlerFactory;
import?org.apache.hadoop.io.IOUtils;
public?class DataReadByURL?{
static{
URL.setURLStreamHandlerFactory(new?FsUrlStreamHandlerFactory());
}
public?static?void?main(String[] args)?throws?Exception{
InputStream in =?null;
try{
in =?new?URL(hdfs://127.0.0.1:9000/data/mydata).openStream();
IOUtils.copyBytes(in,System.out,2048,false);
}finally{
IOUtils.closeStream(in);
}}}
上次我们讨论了利用HDFS的url的方式读取HDFS内文件内容的方法,今天我们讨论使用HDFS的API对HDFS内的文件进行读取.
HDFS主要通过FileSystem类来完成对文件的打开操作.和java使用java.io.File来表示文件很不相同,hadoop的HDFS文件系统中的文件是通过Hadoop的Path类来表示的.
FileSystem通过静态方法 get(Configuration conf)来获得FileSystem的实例.通过该实例,我们可以通过FileSystem的open,seek等方法来实现对hdfs的访问,具体的方法如下所示:
public?FSDataInputStream open(Path f)?throws?IOExceptionpublic?abstract?FSDataInputStream open(Path f,?int?bufferSize)
? ??throws?IOException;
通过FileSystem的源代码可以看到,最终open方法落到一个抽象方法public?abstractFSDataInputStream open(Path f,?int?bufferSize)来实现文件的打开,具体的实现方式由继承自FileSystem的具体文件系统的实现来决定.有了上面的简单解释,我们来看一个通过HDFS的API来访问文件系统的例子:import?org.apache.hadoop.fs.*;
import?org.apache.hadoop.conf.*;
import?org.apache.hadoop.io.*;
public?class?HDFSCatWithAPI {
/**
*?@param?args
*/
public?static?void?main(String[] args)?throws?Exception{
//?指定ConfigurationConfiguration conf =?new?Configuration();
//定义一个DataInputStreamFSDataInputStream in =?null;
try{
//得到文件系统的实例FileSystem fs = FileSystem.get(conf);
//通过FileSystem的open方法打开一个指定的文件in = fs.open(newPath(hdfs://localhost:9000/user/myname/input/fixFontsPath.sh));
//将InputStream中的内容通过IOUtils的copyBytes方法拷贝到System.out中IOUtils.copyBytes(in,System.out,4096,false);
//seek到position 1in.seek(1);
//在执行一边拷贝输出工
文档评论(0)