Question

在许多文本档案中,Im 采用Hive 实际本应uniq的字眼从事Hadoop的工作。在减小步骤中,它选择了最近每个关键人物的记录。

www.un.org/Depts/DGACM/index_spanish.htm Hadoop是否保证,每个具有相同关键意义的记录,即按地图步骤的产出,都只能用于单一减员,即使许多减员正在跨越一个组群?

令我担心的是,在有相同钥匙的一组记录中出现磨擦之后,地图仪的输出可能会分裂。

Answer 1

钥匙的所有价值都发给同样的减员。见Yahoo! tutorial ,供进一步讨论。

这种行为由分治者决定,如果使用除违约以外的分治者,则可能不会发生。

Answer 2

实际上,没有! 您可创建<代码>Partitioner,每当打电话get Partition时,将同样的钥匙发送到不同的削减者。它对大多数申请来说,通常不是一个好主意。

Answer 3

是的,Hadoop确实保证,所有同样关键的关键都将是同一个减员。实现这一目的,是利用散射功能将钥匙捆绑起来的分离功能。

它具体谈的是,处理相同钥匙的不同地图绘制者如何确保特定价值的所有关键点在相同的分界线上结束,从而由同样的减小者处理。