Question

Im考虑利用 had/图示来处理一个项目,并且粗略地说明如何建立由数量可变的、按顺序处理的工作流程。

例如:

Job 1: Map source data into X levels.
Job 2: MapReduce Level1 -> appends to Level2
Job 3: MapReduce Level2 -> appends to LevelN
Job N: MapReduce LevelN -> appends to LevelN+1

直至最后一级。关键是,每个层次必须包含自己的具体来源数据以及前一级的成果。

我看着猪、 h、ham和木.,但还没有看到这种支持。

是否有任何人知道实现这一目标的有效方法? 现在,我 le笑,为ham打造一个包裹,以根据参数制作假文件(在操作时间知道数量,但每次操作都会改变)。

感谢!

Answer 1

Oozie 这是一种开放源服务器,雅虎用来管理Hadoop &。

云盖拉在其最近与非常好的文件。

http://sg.video.yahoo.com 页: 1

Answer 2

You should be able to generate the pig code for this pretty easily using Piglet, the Ruby Pig DSL: http://github.com/iconara/piglet

友情链接