- 클러스터에서 실행하기

 

  • Job 패키징
    • Job JAR 파일을 생성하고 전체 클러스터에 배포되어야
  • 라이브러리 클래스 경로 설정
  • Job 구동하기
    • Job 완료되면 카운터의 통계 정보 출력
      • Map input records: 분석한 레코드
      • HDFS: Number of bytes read: HDFS에서 읽은 파일 크기
      • Launched map tasks: 분할

 

 

 

- UI

 

  • Resource Manager 페이지
    • 클러스터에서 현재 실행 중인 애플리케이션의 개수, 클러스터 가용 자원의 수량, 노드 매니저 정보
  • MapReduce Job 페이지
    • Job 진행 상황을 계속 확인할 있음
    • 대기 (Pending), 실행 (Running), 실행 성공(Complete), 실패(Killed)

 

- 결과 얻기

 

  • Job 완료되면 Reducer 하나의 출력파일을 생성하기 때문에 part-r-00000부터 part-r-00029 Part파일이 있음
  • hadoop fs -getmerge 옵션으로 이들을 하나의 파일로 병합 로컬 파일 시스템으로 저장할 있음

 

 

참조: Hadoop: The Definitive Guide

블로그 이미지

나뷜나뷜

,