Question

I am new to Hadoop and MapReduce. I have some directory and files within this (each file 10 MB big and N could be 100. Files may be compressed or uncompressed) like: MyDir1/file1 MyDir1/file2 ... MyDir1/fileN

MyDir2/file1 MyDir2/file2 ... MyDir3/fileN

我想设计一个地图绘制应用程序,让一位地图绘制者或减标者处理整个MyDir1,即。我无意让MyDir1分裂成多个地图绘制。同样,我也希望由其他测绘师/研究师彻底处理MyDir2,而不分裂。

关于如何做到这一点的想法? 我是否需要写自己的投入书,阅读投入文件?

Answer 1

执行。然后,投入文件不分开,每个地图处理。请注意,完成这项工作的时间取决于处理最大投入文件的时间,尽管地图绘制者同时执行。而且,这或许没有效率,因为许多数据将充斥于各个节点。

import org.apache.hadoop.fs.*;
import org.apache.hadoop.mapred.TextInputFormat;
public class NonSplittableTextInputFormat extends TextInputFormat {
    @Override
    protected boolean isSplitable(FileSystem fs, Path file) {
        return false;
    }
}

目前的APICA登t允许由单一制图员处理整个目录。 http://developer.yahoo.com/hadoop/tutorial/module5.html#inputformat” 否则,就会编制一份拟处理的目录清单,并将单一目录送交每个地图编辑处理,这再次因为数据在点之间有缺陷而没有效率。

他们回头向裁员,从地图制作人而不是输入文件/方向操作KV。

友情链接