Question

我有两个数据集:

A = {uid, url}; B = {uid, url};

现为<编码>cogroup:

C = COGROUP A BY uid, B BY uid;

页: 1 Group AS uid, DISTINCT A.url+B.url};

我的问题是,我如何把两袋A.url和B.url混为一谈?

或者说它不同,我如何在多个栏目上读取?

Answer 1

这不是你所期望的,而是我从你的问题中理解的:

C = JOIN A BY uid, B BY uid;
D = DISTINCT C;

分类方式如下:

E = FOREACH D GENERATE CONCAT(A::uid,B::uid);

Answer 2

A = LOAD  A  using PigStorage() as (uid,url);
B = LOAD  B  using PigStorage() as (uid,url);
C = JOIN A by uid ,B by uid;
D = FOREACH C GENERATE $0,CONCAT(A::url,B::url);
E= DISTINCT D;
dump E;

友情链接