뒹굴뒹굴

뒹굴뒹굴

  • 개발새발 (56)
    • Study (21)
      • Information Retrieval (21)
      • Machine Learning (0)
    • Development (32)
      • Android (3)
      • Web (0)
      • R (0)
      • Python (0)
      • Virtualization (1)
      • DB (5)
      • Hadoop (17)
      • Spark (4)
      • Kafka (1)
      • Linux (1)
    • Etc. (2)
      • Car (1)
      • Travel (1)
  • 홈
  • 태그
  • 방명록
RSS 피드
로그인
로그아웃 글쓰기 관리

뒹굴뒹굴

컨텐츠 검색

태그

노바리조트 spark hadoop Compaction HBASE tuning scheduler android 정보검색론 색인 ubuntu Yarn maldive MiddleManager Nova Maldives 하둡 RDD information retrieval kafka Druid

최근글

댓글

공지사항

아카이브

kafka(2)

  • Spark Streaming vs Structured Streaming 비교 체험(?)

    현재 개발/운영 중인 플랫폼에서는 Spark Streaming을 중심으로 데이터 처리를 진행하고 있다. Spark Streaming은 Micro-batch 방식으로 데이터를 처리하는 RDD 기반 프레임워크인데... 문제는 Catalyst Optimizer와 거리가 먼 RDD 기반이라는 점이다(?) 이에 따라 Spark 2.0 이후 Structured Streaming이 추가었으며, 이제는 Continuous Processing을 제외학곤 [Experimental] 딱지를 지웠다. Structured Streaming is a scalable and fault-tolerant stream processing engine built on the Spark SQL engine. You can express y..

    2019.05.12
  • Kafka 운영 - Offset 관리

    Kafka를 처음 사용하다보면 신경써야할 부분 중 하나로 Offset 관리가 있다. Offset은 아래 그림과 같이 Producer가 메시지를 Write하면 Partition 별로 Offset이 증가한다. 여기서 주의할 점은 메시지가 언제까지나 Broker 내 쌓여있지 않는 다는 점이다. 'delete.retention.ms' 설정에 따라 메시지의 Delete Tombstone Marker를 유지하는 시간이 결정된다. The amount of time to retain delete tombstone markers for log compacted topics. This setting also gives a bound on the time in which a consumer must complete a re..

    2019.03.16
이전
1
다음
티스토리
© 2018 TISTORY. All rights reserved.

티스토리툴바