뒹굴뒹굴 :: 하둡 공부 - MapReduce 실행

하둡 공부 - MapReduce 실행

Development/Hadoop 2019. 1. 24. 20:17

- 클러스터에서 실행하기

Job 패키징

Job JAR 파일을 생성하고 전체 클러스터에 배포되어야 함

라이브러리 클래스 경로 설정
Job 구동하기

Job이 완료되면 카운터의 통계 정보 출력

Map input records: 분석한 레코드 수
HDFS: Number of bytes read: HDFS에서 읽은 파일 크기
Launched map tasks: 분할 수

- 웹UI

Resource Manager 페이지

클러스터에서 현재 실행 중인 애플리케이션의 개수, 클러스터 가용 자원의 수량, 노드 매니저 정보 등

MapReduce Job 페이지

Job의 진행 상황을 계속 확인할 수 있음
대기 중(Pending), 실행 중(Running), 실행 성공(Complete), 실패(Killed) 등

- 결과 얻기

Job이 완료되면 각 Reducer는 하나의 출력파일을 생성하기 때문에 part-r-00000부터 part-r-00029의 Part파일이 있음
hadoop fs -getmerge 옵션으로 이들을 하나의 파일로 병합 후 로컬 파일 시스템으로 저장할 수 있음

참조: Hadoop: The Definitive Guide

저작자표시 비영리 변경금지 (새창열림)

'Development > Hadoop' 카테고리의 다른 글

하둡 공부 - 하둡 클러스터 설치 및 고려사항 (0)	2019.01.24
하둡 공부 - 맵리듀스의 튜닝과 고급 기능 (0)	2019.01.24
하둡 공부 - MapReduce 작동 방법 (0)	2019.01.24
하둡 공부 - Hadoop I/O (0)	2019.01.24
하둡 공부 - YARN (0)	2019.01.24

블로그 이미지

나뷜나뷜

,

달력

티스토리툴바