我有一个连接板块应用,把Kafka的数据整理成实时的数据库。 这些数据按年数汇总:[1、5、10、30、60、每日],并写到相应的非行表格。
我将水mark功能用于综合数据,如数据。 由TUMBLE(ts,InterVAL 5 MINUTES)组成的小组
table.exec.state.ttl = 24 h
table.exec.sink.not-null-enforcer = DROP
table.exec.emit.early-fire.enabled = true
table.exec.emit.early-fire.delay = 500 ms
table.optimizer.agg-phase-strategy= TWO_PHASE
table.exec.source.idle-timeout = 5000 ms
我以4个平行主义和2个平行的科索沃警察部队(总共2个科索沃邮联)为对象。 卡夫卡专题分四部分。
最初1.5分期的申请如期进行,数据延迟增加,一些分类结果缺失,这种情况在日常重复出现,数据数量和数据也相同。
从这些衡量标准中,我发现,电离线输入信息的趋势与卡夫卡在运行1.5hr(11)之后的输入信息不一致。
task status when output normally
Task:
1) Input from kafka
2) tumble into 1 min
3) Left join extra info to the 1 min result
4) tumble into 1, 5 min
5) Group and write to DB into 1,5,10,15,30,60 min
task status when output unexpected
我改变了下文,局势仍然存在。
- Change a better instance type of database
- Change a better instance type of Kafka cluster
- Set 4 parallelism and 1 parallelism per KPU(4 KPU in total)
我很想知道造成这种情况的荒谬原因,以及解决这一问题的建议,感谢你。