Apache Hadoop 3.0.0

 

  • Minimum required Java version increased from Java 7 to Java 8
  • Support for Erasure Coding(EC) in HDFS
    • 오버헤드 비교
      • 기존 방식에서 3 Replication 경우 200% 오버헤드를 초래함
      • 1개의 Data Block 분할시킨 여러 조각(Stripe) Data Block 2 이상의 Parity Block으로 구성 50% 오버헤드만 존재
    • Directory-level EC policies
      • 표현: codec-num data blocks (Ndb)-num parity blocks (Npb)-cell size
      • 최소 요구 구성 노드: Ndb + Npb
      • 현재 6개의 Policy (RS: Reed-Solomon)
        • RS-3-2-1024k, RS-6-3-1024k (기본값), RS-10-4-1024k
        • RS-LEGACY-6-3-1024k, XOR-2-1-1024k
        • REPLICATION (기존 복제 방식)

 

 

 

 

 

 

 

  • Intel Storage Acceleration 기술 지원
  • 한계점: 기술적 한계로 append, hflush, hsync 지원할 없음
    • 대신 StreamCapabilities API 이용하여 hflush hsync 사용 가능한지 확인 가능

 

  • YARN Timeline Service v.2 (early preview)
    • Improving scalability and reliability of Timeline Service
    • Enhancing usability by introducing flows and aggregation

 

 

 

  • Support for Opportunistic Containers and Distributed Scheduling
    • 리소스 부족으로 할당이 불가한 경우 노드 매니저에 의해 큐에 대기 컨테이너를 할당 가능
  • MapReduce task-level native optimization
    • NativeMapOuputCollector(C++ 구현된 Native 프로그램을 JNI 호출) 통한 Mapper K/V 처리로 Sort, Spill, IFile Serialization에서 30% 성능 향상 결과를 얻음
    • , 실험적 결과이기에 모든 환경에서 보장할 없음
  • Support for more than 2 NameNodes
    • 기존 1 Active NameNode, 1 Standby NameNode
    • 현재 N Active NameNode, N Standby NameNode 구성하여 높은 Fault-tolerance 제공 기존 Fail Over 문제 해결
    • 하지만 Connection Overhead 때문에 최대 3 Namenode 추천
  • Default ports of multiple services have been changed
    • 다른 애플리케이션과의 충돌 방지를 위한 기본 포트 변경
    • Namenode ports: 50470 9871, 50070 9870, 8020 9820
    • Secondary NN ports: 50091 9869, 50090 9868
    • Datanode ports: 50020 9867, 50010 9866, 50475 9865, 50075 9864
    • KMS server port : 16000 9600
  • Intra-datanode balancer
    • 기존 Inter-datanode balancer 한계점을 해소
    • Datanode 디스크가 추가/교체되는 경우 diskbalancer 불균형 문제 해결
  • Reworked daemon and task heap management
    • 데몬 사이즈를 위한 Auto_tuning 제공(기존 HADOOP_HEAPSIZE 옵션은 deprecated)
  • HDFS Router-Based Federation
    • Router 통한 NameNode Federation 기능 제공

 

 

 

  • API-based configuration of Capacity Scheduler queue configuration
    • REST API 이용하여 Capacity Scheduler (YARN 스케줄러 하나) 설정 변경이 가능함
  • YARN Resource Types
    • CPU Memory 외에도 GPU, locally-attached storage 같은 사용자 정의 리소스 타입을 지원함
  • Shell Script Rewrite
    • 오랫동안 가지고 있던 버그 수정 새로운 기능 추가를 위해 쉘스크립트 수정
    • 기존 쉘스크립트 버전에 대해 완벽하게 호환되지 않아 Hadoop 환경변수를 사용하거나 shell command 이용 경우 검토 필요
  • Support for Microsoft Azure Data Lake and Aliyun Object Storage System filesystem connectors
  • S3Guard: Consistency and Metadata Caching for the S3A filesystem client
    • Amazon S3 클라이언트에게 DynamoDB 연계를 위한 옵션 기능

 

 

참조: Apache Hadoop Documentation

블로그 이미지

나뷜나뷜

,