다중 출력 > - 다중출력 - 구분값에 따라서 여러 개의 결과 파일을 출력할 때 사용 - GenericOptionParser의 -D옵션에 정의한 구분속성에 따라서 각각의 output파일이 생성될 수 있도록 작업 1. Mapper - GenericOptionParser테스트할 때와 동일하게 구현 단, 각각의 작업을 구분할 수 있도록 outputkey에 구분 문자열을 추가한다. 2. Reducer - mapper가 보내오는 출력 데이터에서 구분자 별로 개별 output파일이 생성될 수 있도록 처리 - setup메소드 : 리듀서가 처음 실행될 때 한번 실행되는 메소드 MultipleOutputs를 선언하고 생성할 수 있도록 처리 - reduce메소드 : MultipleOutputs객체의 write를 호출해서 ..
> 1. GenericOptionParser 활용 - hadoop을 실행할 때 -D옵션과 함께 속성=속성값을 입력하면 Mapper에서 이 정보를 사용할 수 있도록 정의 - commons-cli-xxx.jar 라이브러리를 추가(하둡 설치폴더 안 lib에 있음) 1) Mapper작성 - setup메소드 : Mapper가 실행될 때 한 번만 실행되는 메소드 - 하둡을 실행할 때 -D옵션과 함께 입력한 속성명을 지정하면 입력했던 속성값을 추출할 수 있다. - Configuration객체를 이용해서 작업 2) Reducer - 동일 3) Driver - 실행할 때 사용자가 입력한 옵션을 이용할 수 있도록 설정해야 하므로 기존 방식을 모두 변경 - 사용자정의 옵션을 사용하기 위한 작업(command line에 사용..
NASDAQ 데이터 분석 첨부 파일을 HDFS의 inputdata폴더를 작성하고 put한 후 작업합니다. 출력결과 :/mywork/nasdaq 패키지명 : mapred.exam.stock StockMapper.java, StockReducer,StockDriver.java exchange => 거래구분 stock_symbol =>주식종목명(약칭) date => 거래일자 stock_price_open => 시가 stock_price_high =>최고가 stock_price_low =>최저가 stock_price_close => 종가 stock_volume =>거래량 stock_price_adj_close =>조정금액 상승마감한 것들이 년도별로 몇 건인지 조회하세요 [결과] 분석할 파일을 hdfs의 /inp..
1. MapReduce프레임워크 내부에서 사용되는 데이터 타입 분산 환경에서 처리되므로 데이터 타입이 일반 자바에서 사용하는 기본 데이터 타입이 아니라 하둡 내부에서 작성된 인터페이스(Writable)를 상속하는 특별한 클래스타입이어야 한다. int - IntWritable long - LongWritable String - Text 2. 기본작업 1) Mapper - Mapper를 상속 Mapper KEYIN : mapper에 input되는 데이터의 key타입 (byte offset이나 라인넘버로 생각 - LongWritable타입) VALUEIN : mapper에 input되는 데이터의 value타입 KEYOUT : mapper에서 output되는 데이터의 key타입 VALUEOUT : mapper에..
java 설치 hadoop은 java로 만들어져 있으므로 java를 설치 해야한다 https://www.oracle.com/java/ rpm -> 설치 버전 tar.gz -> 압축 버전 sts 에서 윈도우 -> hadoop01 머신 파일 전송 local에 있는 파일을 hadoop01로 전송할 수 있다. 윈도우에서 받은 jdk를 hadoop폴더로 전송 파일 전송 확인 rpm 파일 설치 rpm 으로 설치하는 프로그램은 usr폴더에 설치된다. hadoop02, hadoop03, hadoop04로 jdk 파일 복사 hadoop02, hadoop03, hadoop04로 jdk 파일 설치 root계정의 home디렉토리는 root폴더이므로 경로를 지정하지 앟아도 rpm명령어를 바로 실행 할 수 있다. Hadoop 설..
- Total
- Today
- Yesterday
- JSON
- Java
- mapreduce
- 하둡
- Replacement Strategies
- Variable allocation
- Disk System
- I/O Mechanisms
- RAID Architecture
- linux
- vmware
- aop
- maven
- oracle
- Disk Scheduling
- jdbc
- Free space management
- 빅데이터
- File Protection
- Flume
- HDFS
- hadoop
- springboot
- gradle
- Allocation methods
- Spring
- I/O Services of OS
- SQL
- 빅데이터 플랫폼
- SPARK
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |