Sqoop sqoop은 Apache Hadoop과 RDBMS사이에 data를 효율적으로 이동할 수 있도록 지원되는 도구 sql to hadoop의 약자 Sqoop 사용하기 다운로드 압축풀기 .bashrc에 환경설정정보 등록 오라클 연동을 위해서 ojdbc6.jar를 sqoop_home/lib에 복사 다운로드 sqoop.apache.org 설치 Shell(bash)설정 /etc/profile - 부팅시 적용되는 파일 (root) /home/사용자계정/.bash_profile : 각 계정에 로그인할 때 로드 /home/사용자계정/.bashrc : 로그인 한 상태에서 터미널을 열면 실행 sqoop을 사용하기 위해 path 설정 db사용을 위해 JDBC 라이브러리 복사 /home/사용자계정/sqoop폴더/lib..
다중 출력 > - 다중출력 - 구분값에 따라서 여러 개의 결과 파일을 출력할 때 사용 - GenericOptionParser의 -D옵션에 정의한 구분속성에 따라서 각각의 output파일이 생성될 수 있도록 작업 1. Mapper - GenericOptionParser테스트할 때와 동일하게 구현 단, 각각의 작업을 구분할 수 있도록 outputkey에 구분 문자열을 추가한다. 2. Reducer - mapper가 보내오는 출력 데이터에서 구분자 별로 개별 output파일이 생성될 수 있도록 처리 - setup메소드 : 리듀서가 처음 실행될 때 한번 실행되는 메소드 MultipleOutputs를 선언하고 생성할 수 있도록 처리 - reduce메소드 : MultipleOutputs객체의 write를 호출해서 ..
하둡 설정 변경 core-site.xml : 도메인 -> ip 로 변경 hdfs-site.xml : 도메인 -> ip로 변경 , permissions 처리 추가 mapred-site.xml : 도메인 -> ip로 변경 staging.root.dir -> 외부에서 접근하는 디렉토리 설정 hadoop02, hadoop03, hadoop04 머신에 설정파일 복사 확인 (03,04 반복) hadoop 실행 확인 이클립스에 연결하기 hadoop01 머신의 하둡 폴더의 라이브러리와 설정파일을 복사 프로젝트에 라이브러리 등록 (java 프로젝트 이므로 등록해줘야 한다.) 설정파일 등록 추가한 라이브러리중 jar 가 아닌 파일때문에 오류발생 오류해결 Driver 파일 선택 적용 후 실행 명령형 매개변수 입력 경로는 항..
> 1. GenericOptionParser 활용 - hadoop을 실행할 때 -D옵션과 함께 속성=속성값을 입력하면 Mapper에서 이 정보를 사용할 수 있도록 정의 - commons-cli-xxx.jar 라이브러리를 추가(하둡 설치폴더 안 lib에 있음) 1) Mapper작성 - setup메소드 : Mapper가 실행될 때 한 번만 실행되는 메소드 - 하둡을 실행할 때 -D옵션과 함께 입력한 속성명을 지정하면 입력했던 속성값을 추출할 수 있다. - Configuration객체를 이용해서 작업 2) Reducer - 동일 3) Driver - 실행할 때 사용자가 입력한 옵션을 이용할 수 있도록 설정해야 하므로 기존 방식을 모두 변경 - 사용자정의 옵션을 사용하기 위한 작업(command line에 사용..
NASDAQ 데이터 분석 첨부 파일을 HDFS의 inputdata폴더를 작성하고 put한 후 작업합니다. 출력결과 :/mywork/nasdaq 패키지명 : mapred.exam.stock StockMapper.java, StockReducer,StockDriver.java exchange => 거래구분 stock_symbol =>주식종목명(약칭) date => 거래일자 stock_price_open => 시가 stock_price_high =>최고가 stock_price_low =>최저가 stock_price_close => 종가 stock_volume =>거래량 stock_price_adj_close =>조정금액 상승마감한 것들이 년도별로 몇 건인지 조회하세요 [결과] 분석할 파일을 hdfs의 /inp..
1. MapReduce프레임워크 내부에서 사용되는 데이터 타입 분산 환경에서 처리되므로 데이터 타입이 일반 자바에서 사용하는 기본 데이터 타입이 아니라 하둡 내부에서 작성된 인터페이스(Writable)를 상속하는 특별한 클래스타입이어야 한다. int - IntWritable long - LongWritable String - Text 2. 기본작업 1) Mapper - Mapper를 상속 Mapper KEYIN : mapper에 input되는 데이터의 key타입 (byte offset이나 라인넘버로 생각 - LongWritable타입) VALUEIN : mapper에 input되는 데이터의 value타입 KEYOUT : mapper에서 output되는 데이터의 key타입 VALUEOUT : mapper에..
java project 생성 Ant를 통해서 jar 파일과 zip파일을 생성하는 코드 hadoop01에서 하둡을 실행하기 위한 jar 파일 가져오기 라이브러리 추가 HDFSTest01 : 사용자가 정의한 경로에 텍스트 파일을 생성하는 클래스 package hdfs.exam; import java.io.IOException; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.FSDataOutputStream; import org.apache.hadoop.fs.FileSystem; import org.apache.hadoop.fs.Path; /* * hdfs(하둡의 분산 파일 시스템)를 제어 - hado..
java 설치 hadoop은 java로 만들어져 있으므로 java를 설치 해야한다 https://www.oracle.com/java/ rpm -> 설치 버전 tar.gz -> 압축 버전 sts 에서 윈도우 -> hadoop01 머신 파일 전송 local에 있는 파일을 hadoop01로 전송할 수 있다. 윈도우에서 받은 jdk를 hadoop폴더로 전송 파일 전송 확인 rpm 파일 설치 rpm 으로 설치하는 프로그램은 usr폴더에 설치된다. hadoop02, hadoop03, hadoop04로 jdk 파일 복사 hadoop02, hadoop03, hadoop04로 jdk 파일 설치 root계정의 home디렉토리는 root폴더이므로 경로를 지정하지 앟아도 rpm명령어를 바로 실행 할 수 있다. Hadoop 설..
- Total
- Today
- Yesterday
- Variable allocation
- vmware
- gradle
- Flume
- 빅데이터 플랫폼
- hadoop
- springboot
- RAID Architecture
- Disk Scheduling
- SPARK
- JSON
- HDFS
- aop
- I/O Mechanisms
- File Protection
- Java
- 빅데이터
- Replacement Strategies
- I/O Services of OS
- mapreduce
- Free space management
- oracle
- linux
- maven
- 하둡
- Disk System
- Allocation methods
- Spring
- jdbc
- SQL
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |