Question

我有一个连接板块应用,把Kafka的数据整理成实时的数据库。这些数据按年数汇总:[1、5、10、30、60、每日],并写到相应的非行表格。

我将水mark功能用于综合数据,如数据。由TUMBLE(ts,InterVAL 5 MINUTES)组成的小组

table.exec.state.ttl = 24 h
table.exec.sink.not-null-enforcer = DROP
table.exec.emit.early-fire.enabled = true
table.exec.emit.early-fire.delay = 500 ms
table.optimizer.agg-phase-strategy= TWO_PHASE
table.exec.source.idle-timeout = 5000 ms

我以4个平行主义和2个平行的科索沃警察部队(总共2个科索沃邮联)为对象。卡夫卡专题分四部分。

最初1.5分期的申请如期进行,数据延迟增加,一些分类结果缺失,这种情况在日常重复出现,数据数量和数据也相同。

从这些衡量标准中,我发现,电离线输入信息的趋势与卡夫卡在运行1.5hr(11)之后的输入信息不一致。

flink input vs kafka input

flink input vs task resources

task status when output normally

Task:
1) Input from kafka
2) tumble into 1 min
3) Left join extra info to the 1 min result
4) tumble into 1, 5 min
5) Group and write to DB into 1,5,10,15,30,60 min

task status when output unexpected

我改变了下文,局势仍然存在。

Change a better instance type of database
Change a better instance type of Kafka cluster
Set 4 parallelism and 1 parallelism per KPU(4 KPU in total)

我很想知道造成这种情况的荒谬原因,以及解决这一问题的建议,感谢你。

Answer 1

你们应当使用温饱电视基金,而不是假装的遗产小组Wow Aggregations。为了提高业绩,这是优化的。你们可以找到有关docs子和组合的细节,载于 docs . ?

*** https://weeklies.apache.org/flink/flink-docs-master/docs/dev/table/sql/queries/window-tvf/。

友情链接