- 클러스터에서 실행하기
- Job 패키징
- Job JAR 파일을 생성하고 전체 클러스터에 배포되어야 함
- 라이브러리 클래스 경로 설정
- Job 구동하기
- Job이 완료되면 카운터의 통계 정보 출력
- Map input records: 분석한 레코드 수
- HDFS: Number of bytes read: HDFS에서 읽은 파일 크기
- Launched map tasks: 분할 수
- 웹UI
- Resource Manager 페이지
- 클러스터에서 현재 실행 중인 애플리케이션의 개수, 클러스터 가용 자원의 수량, 노드 매니저 정보 등
- MapReduce Job 페이지
- Job의 진행 상황을 계속 확인할 수 있음
- 대기 중(Pending), 실행 중(Running), 실행 성공(Complete), 실패(Killed) 등
- 결과 얻기
- Job이 완료되면 각 Reducer는 하나의 출력파일을 생성하기 때문에 part-r-00000부터 part-r-00029의 Part파일이 있음
- hadoop fs -getmerge 옵션으로 이들을 하나의 파일로 병합 후 로컬 파일 시스템으로 저장할 수 있음
'Development > Hadoop' 카테고리의 다른 글
하둡 공부 - 하둡 클러스터 설치 및 고려사항 (0) | 2019.01.24 |
---|---|
하둡 공부 - 맵리듀스의 튜닝과 고급 기능 (0) | 2019.01.24 |
하둡 공부 - MapReduce 작동 방법 (0) | 2019.01.24 |
하둡 공부 - Hadoop I/O (0) | 2019.01.24 |
하둡 공부 - YARN (0) | 2019.01.24 |