kafka(2)
-
Spark Streaming vs Structured Streaming 비교 체험(?)
현재 개발/운영 중인 플랫폼에서는 Spark Streaming을 중심으로 데이터 처리를 진행하고 있다. Spark Streaming은 Micro-batch 방식으로 데이터를 처리하는 RDD 기반 프레임워크인데... 문제는 Catalyst Optimizer와 거리가 먼 RDD 기반이라는 점이다(?) 이에 따라 Spark 2.0 이후 Structured Streaming이 추가었으며, 이제는 Continuous Processing을 제외학곤 [Experimental] 딱지를 지웠다. Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express y..
2019.05.12 -
Kafka 운영 - Offset 관리
Kafka를 처음 사용하다보면 신경써야할 부분 중 하나로 Offset 관리가 있다. Offset은 아래 그림과 같이 Producer가 메시지를 Write하면 Partition 별로 Offset이 증가한다. 여기서 주의할 점은 메시지가 언제까지나 Broker 내 쌓여있지 않는 다는 점이다. 'delete.retention.ms' 설정에 따라 메시지의 Delete Tombstone Marker를 유지하는 시간이 결정된다. The amount of time to retain delete tombstone markers for log compacted topics. This setting also gives a bound on the time in which a consumer must complete a re..
2019.03.16