I am new to Hadoop and MapReduce. I have some directory and files within this (each file 10 MB big and N could be 100. Files may be compressed or uncompressed) like: MyDir1/file1 MyDir1/file2 ... MyDir1/fileN
MyDir2/file1 MyDir2/file2 ... MyDir3/fileN
我想设计一个地图绘制应用程序,让一位地图绘制者或减标者处理整个MyDir1,即。 我无意让MyDir1分裂成多个地图绘制。 同样,我也希望由其他测绘师/研究师彻底处理MyDir2,而不分裂。
关于如何做到这一点的想法? 我是否需要写自己的投入书,阅读投入文件?