설치 http://spark.apach.org 버전에 맞도록 다운 압축 해제 스파크 실행(scala) document http://spark.apache.org/documentation.html 환경변수 설정(.hashrc) 임시적용 설정 sbin : 실행할 수 있는 shell파일들 master실행 hadoop이 실행 중 이어야 함 spark master 관리 페이지 slave실행 (설정 전) worker는 1개가 기본값 master, slave 종료 세팅 파일 생성 master , slave 재실행 확인 프로젝트 생성 spark dependency (spring버전 4.2.4) org.apache.spark spark-core_2.10 1.4.1 테스트 데이터 생성 < SparkTestStep1.jav..
Shuffle단을 수정 map과 reduce사이에 shuffle이라 부르는 처리가 프레임워크에 의해 자동을 처리된다. 리듀스의 전처리 작업으로 사용자가 직접 정의하지 않지만 필요에 의해서 (복잡한 input데이터 활용해서 조인하거나 사용자 정의 기준으로 정렬하거나..) 커스터마이징 할 수 있어야 한다. map작업 ---------> shuffle작업 -----------> reduce작업 map처리 후 데이터를 정렬해서 같은 키를 가진 데이터를 같은 장소에 모은다. 이때 슬레이브 서버 간에 네트워크를 통한 전송이 발생 shuffle단에서 발생하는 이러한 작업을 프레임워크 내부에서 자동으로 처리 shuffle단에서 네트워크를 통한 전송이 발생 정렬 정렬의 종류 보조정렬 부분정렬 전체정렬 보조정렬 기존의 맵..
Combiner를 활용 셔플할 데이터의 크기를 줄이기 위해서 사용 맵 태스크와 리듀스 태스크 사이에 데이터를 전달하는 과정을 Shuffle이라 한다. 맵 태스크의 출력데이터는 네트워크를 통해서 리듀스 태스크에 전달된다. 네트워크를 통해서 데이터가 전달되므로 데이터의 크기를 줄일 수 있어야 한다. 리듀서가 처리할 데이터들이 줄어든다. Combiner 사용 전 분석데이터 다운로드 https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/HG7NV7 hdfs 폴더 생성 분석 데이터 hdfs에 넣기 AirMapper.java 수정 package mapred.exam.air; import java.io.IOException; import o..
Flume > Apach의 오픈소스 프로젝트로 대용량의 로그를 수집할 수 있도록 여러가지 기능을 제공하는 프로그램 개요 로그 수집을 위한 프로그램 flume, chukwa, scribe, fluentd, splunk 등이 같은 종류의 프로그램 여러 곳에 위치하는 로그를 하나로 모을 수 있다. 로그를 배치로 한꺼번에 보내는 것이 아니라 스트리밍하게 지속적으로 보낸다. 메모리가 확보 비동기 방식 로그수집 Thread와 로그를 전송하는 Thread가 별도로 실행한다. flume의 구성요소 Agent가 관리 flume은 여러가지 유형으로 Agent를 구성할 수 있다. source와 sink, channel등의 구성요소는 반드시 설정 작업을 해야 한다. source : 데이터가 유입되는 지점, 다양한 시스템의 데..
Sqoop sqoop은 Apache Hadoop과 RDBMS사이에 data를 효율적으로 이동할 수 있도록 지원되는 도구 sql to hadoop의 약자 Sqoop 사용하기 다운로드 압축풀기 .bashrc에 환경설정정보 등록 오라클 연동을 위해서 ojdbc6.jar를 sqoop_home/lib에 복사 다운로드 sqoop.apache.org 설치 Shell(bash)설정 /etc/profile - 부팅시 적용되는 파일 (root) /home/사용자계정/.bash_profile : 각 계정에 로그인할 때 로드 /home/사용자계정/.bashrc : 로그인 한 상태에서 터미널을 열면 실행 sqoop을 사용하기 위해 path 설정 db사용을 위해 JDBC 라이브러리 복사 /home/사용자계정/sqoop폴더/lib..
다중 출력 > - 다중출력 - 구분값에 따라서 여러 개의 결과 파일을 출력할 때 사용 - GenericOptionParser의 -D옵션에 정의한 구분속성에 따라서 각각의 output파일이 생성될 수 있도록 작업 1. Mapper - GenericOptionParser테스트할 때와 동일하게 구현 단, 각각의 작업을 구분할 수 있도록 outputkey에 구분 문자열을 추가한다. 2. Reducer - mapper가 보내오는 출력 데이터에서 구분자 별로 개별 output파일이 생성될 수 있도록 처리 - setup메소드 : 리듀서가 처음 실행될 때 한번 실행되는 메소드 MultipleOutputs를 선언하고 생성할 수 있도록 처리 - reduce메소드 : MultipleOutputs객체의 write를 호출해서 ..
하둡 설정 변경 core-site.xml : 도메인 -> ip 로 변경 hdfs-site.xml : 도메인 -> ip로 변경 , permissions 처리 추가 mapred-site.xml : 도메인 -> ip로 변경 staging.root.dir -> 외부에서 접근하는 디렉토리 설정 hadoop02, hadoop03, hadoop04 머신에 설정파일 복사 확인 (03,04 반복) hadoop 실행 확인 이클립스에 연결하기 hadoop01 머신의 하둡 폴더의 라이브러리와 설정파일을 복사 프로젝트에 라이브러리 등록 (java 프로젝트 이므로 등록해줘야 한다.) 설정파일 등록 추가한 라이브러리중 jar 가 아닌 파일때문에 오류발생 오류해결 Driver 파일 선택 적용 후 실행 명령형 매개변수 입력 경로는 항..
> 1. GenericOptionParser 활용 - hadoop을 실행할 때 -D옵션과 함께 속성=속성값을 입력하면 Mapper에서 이 정보를 사용할 수 있도록 정의 - commons-cli-xxx.jar 라이브러리를 추가(하둡 설치폴더 안 lib에 있음) 1) Mapper작성 - setup메소드 : Mapper가 실행될 때 한 번만 실행되는 메소드 - 하둡을 실행할 때 -D옵션과 함께 입력한 속성명을 지정하면 입력했던 속성값을 추출할 수 있다. - Configuration객체를 이용해서 작업 2) Reducer - 동일 3) Driver - 실행할 때 사용자가 입력한 옵션을 이용할 수 있도록 설정해야 하므로 기존 방식을 모두 변경 - 사용자정의 옵션을 사용하기 위한 작업(command line에 사용..
- Total
- Today
- Yesterday
- 빅데이터
- Variable allocation
- hadoop
- jdbc
- Spring
- Free space management
- oracle
- 빅데이터 플랫폼
- Disk Scheduling
- gradle
- mapreduce
- aop
- springboot
- File Protection
- I/O Services of OS
- HDFS
- vmware
- linux
- Allocation methods
- SQL
- JSON
- Flume
- I/O Mechanisms
- RAID Architecture
- 하둡
- SPARK
- Disk System
- Java
- Replacement Strategies
- maven
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |