[Kafka] 카프카 토픽, 프로듀서, 컨슈머

토픽 : 특정한 스트림 데이터를 의미한다.

파티션과 오프셋

주의해야하는 사항

파티션에 데이터가 기록이 된다면, 변경이 불가하다.
데이터는 한정된 시간에만 존재 가능하다(기본설정은 한 주이고 설정할 수 있다.)
오프셋은 같은 파티션에서만 의미있다. (파티션0의 오프셋3과 파티션1의 오프셋3은 서로 다른 데이터다.)
- 오프셋은 앞의 데이터가 삭제되더라도 그 오프셋을 재사용할 수 없다.(같은 순번(오프셋)을 가질 수 없다라는 의미)
파티션 내부에서만 순서가 보장된다. 파티션 끼리의 순서는 보장되지 않는다!
데이터는 키를 들고있다고 하더라도 파티션에 랜덤하게 들어간다.

프로듀서

프로듀서는 데이터를 (파티션으로 구성되어있는)토픽에다가 쓴다.
프로듀서는 어떤 파티션에 써야할지 미리 알고있다. 카프카 브로커(카프카 서버)가 그걸 갖게 된다.
어디에 쓸지 정하는 주체는 카프카 브로커가 아니라 프로듀서이다. 또한, 카프카 서버에서 어떤 파티션이 고장났을 경우에 어떻게 복구할지 프로듀서가 알게 된다.
프로듀서가 파티션으로 데이터를 보낼때 로드밸런서가 개입하게 된다. 프로듀서는 어떤 매커니즘에 따라서 모든 파티션에 걸쳐 데이터를 전송하기 때문이다.
카프카의 한 토픽의 파티션은 다수의 프로듀서로부터 데이터를 받아올 수 있기 때문에, 스케일링을 사용하여 파티션을 관리한다.

프로듀서: 메세징 키

프로듀서는 메세지 안에 메세지 키를 설정해줄 수 있다(키로 올 수 있는건 문자열, 숫자, 이진수, 등...).
만약, key = null 이라면 데이터는 라운드 로빈 상태로 보내진다 (partitoin0 -> partition1 -> partition2 ... 이런식으로 로드밸런싱이 이뤄짐)
key != null이라면 해싱전략으로 인해 메세지는 같은 파티션에 들어갈 수 있다.

카프카 메세지 시리얼라이저

카프카 메세지 해싱전략?

targetPartition = Math.abs(Utils.murmur2(keyBytes)) % (numPartitions - 1)

컨슈머

컨슈머는 카프카 브로커, 서버에 데이터를 요청하고 되돌아오는 응답을 받는다. (pull model 이라고 함)
즉, 데이터를 컨슈머에게 푸싱하는 건 카프카 브로커가 아니라 '풀 모델'이다.
컨슈머는 어느 브로커로 부터 읽어야하는지 알기 때문에, 브로커가 죽더라도 컨슈머는 회복하는 방법을 알고 있다.
데이터는 파티션 내부적으로는 오름차순으로 읽히는데, 2개이상의 파티션으로부터 읽어올 땐 순서가 보장되지 않기에 주의해야한다.

컨슈머 역직렬화

컨슈머가 더 많아진다면? / 하나의 토픽에 여러 컨슈머가 존재한다면?

컨슈머 오프셋

카프카는 컨슈머가 어디까지 읽었는지 저장해 놓는다.
데이터에 대한 처리를 컨슈머가 완료하면 컨슈머는 종종 오프셋을 커밋해야하고 카프카 브로커가 컨슈머 오프셋 토픽에 기록하라고 알린다. 오프셋을 커밋함으로써 어느만큼 성공적으로 읽었는지 카프카 브로커에게 알려줄 수 있게 된다.
왜 이런 작업을 하는가? : 만일 컨슈머가 죽으면 다시 돌아와서 읽었던 곳에서부터 커밋한 컨슈머 오프셋으로 인해 다시 읽을 수 있다.

다양한 전달 의미론(Delivery semantics for consumers)

[Kafka] 브로커, 토픽, 주키퍼 (0)	2024.03.21

개복치