Spark 분석엔진 하둡보다 100배이상 빠름 spark를 개발할 수 있는 언어는 scala, java, python, R spark라이브러리는 spark core, spark sql, spark streaming, MLlib(머신러닝), GraphX spark는 대규모 데이터의 처리를 위한 통합 분석 엔진 spark의 구성요소 SparkContext( JavaSparkContext ) : spark가 동작하기 위해서 필요한 기본 정보를 가지고 있는 객체로 spark가 제공하는 다양한 서비스와 기능을 직접 사용할 수 있는 기본 클래스 RDD(Resilient Distributed DataSet) 스파크에서 사용하는 기본 데이터 구조 스파크에서는 내부적으로 사용하고 처리하는 모든 데이터를 RDD타입으로 처..
설치 http://spark.apach.org 버전에 맞도록 다운 압축 해제 스파크 실행(scala) document http://spark.apache.org/documentation.html 환경변수 설정(.hashrc) 임시적용 설정 sbin : 실행할 수 있는 shell파일들 master실행 hadoop이 실행 중 이어야 함 spark master 관리 페이지 slave실행 (설정 전) worker는 1개가 기본값 master, slave 종료 세팅 파일 생성 master , slave 재실행 확인 프로젝트 생성 spark dependency (spring버전 4.2.4) org.apache.spark spark-core_2.10 1.4.1 테스트 데이터 생성 < SparkTestStep1.jav..
Lambda표현식 개요 및 특징 익명 inner클래스의 표현 함수를 간결하게 표현한 방법 함수나 메소드를 정의하지 않고 한 줄로 표현 람다 표현식을 적용할 수 있는 인터페이스는 추상 메소드가 1개인 인터페이스만 가능(추상메소드가 1개인 인터페이스를 modern자바(8버전 이후)에서는 함수형 인터페이스라 한다.) 사용방법 (매개변수1, 매개변수2, ... ) -> {실행명령문} 매개변수가 1이거나 실행명령문이 1줄이면 ()나 {}는 생략가능 익명 inner 클래스 사용 package bigdata.modernjava.test; import java.awt.FlowLayout; import java.awt.event.ActionEvent; import java.awt.event.ActionListener; ..
Shuffle단을 수정 map과 reduce사이에 shuffle이라 부르는 처리가 프레임워크에 의해 자동을 처리된다. 리듀스의 전처리 작업으로 사용자가 직접 정의하지 않지만 필요에 의해서 (복잡한 input데이터 활용해서 조인하거나 사용자 정의 기준으로 정렬하거나..) 커스터마이징 할 수 있어야 한다. map작업 ---------> shuffle작업 -----------> reduce작업 map처리 후 데이터를 정렬해서 같은 키를 가진 데이터를 같은 장소에 모은다. 이때 슬레이브 서버 간에 네트워크를 통한 전송이 발생 shuffle단에서 발생하는 이러한 작업을 프레임워크 내부에서 자동으로 처리 shuffle단에서 네트워크를 통한 전송이 발생 정렬 정렬의 종류 보조정렬 부분정렬 전체정렬 보조정렬 기존의 맵..
로그기록(logback이용) log4j를 기반으로 사용하는 로그프레임워크 Logger, Appender, Encoder Logger : 로깅담당 Appender : 로그가 출력될 대상관리 Encore : 특정 형식으로 로그 메시지를 변환하는 역할 로그레벨 ERROR : 일반적인 에러가 발생하는 상황 WARN : 경고(에러는 아니지만 주의 필요) INFO : 일반 정보 DEBUG : 일반정보를 좀 더 상세히 표현 TRACE : 경로추적 작성방법 API추가 설정파일작성(logback.xml) 적절한 곳에서 로그를 기록할 수 있도록 추가 dependency 등록 ch.qos.logback logback-classic 1.1.3 ch.qos.logback logback-core 1.1.3 src/main/res..
Controller가 실행 되기 전, 실행 될때, 실행 후에 실행되도록 하는 클래스 컨트롤러가 실행되는 시간 측정 package kr.encore.bigdataShop.interceptor; import javax.servlet.http.HttpServletRequest; import javax.servlet.http.HttpServletResponse; import org.springframework.web.servlet.ModelAndView; import org.springframework.web.servlet.handler.HandlerInterceptorAdapter; // 컨트롤러가 실행되는 시간을 측정(접속자 ip) public class..
Combiner를 활용 셔플할 데이터의 크기를 줄이기 위해서 사용 맵 태스크와 리듀스 태스크 사이에 데이터를 전달하는 과정을 Shuffle이라 한다. 맵 태스크의 출력데이터는 네트워크를 통해서 리듀스 태스크에 전달된다. 네트워크를 통해서 데이터가 전달되므로 데이터의 크기를 줄일 수 있어야 한다. 리듀서가 처리할 데이터들이 줄어든다. Combiner 사용 전 분석데이터 다운로드 https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/HG7NV7 hdfs 폴더 생성 분석 데이터 hdfs에 넣기 AirMapper.java 수정 package mapred.exam.air; import java.io.IOException; import o..
Linux의 반복 예약 내가 정의한 특정 시간에 예약된(미리 등록한) 명령어가 실행되도록 ex ) 매주 금요일 새벽 1시에 백업을 하는 경우, 일요일 새벽 4시에 was를 재부팅, 매일 3시간 마다 각 업무 담당자들에게 메일 보내기 Cron 크론 실행 확인 크론이 없을 시 설치 사용방법 crontab 명령어 crontab -e : crontab의 편집할 수 있는 에디터가 실행(vi 편집기) crontab -r : crontab에 등록된 모든 예약 작업을 삭제 [ 명령어 ] sh파일의 형태로 명령어를 등록햇 cron 설정파일에서 sh파일만 정해진 시간 마다 반복해서 실행되도록 설정 \* * * * * 반복해서 실행하고 싶은 명령어 정의 1 2 3 4 5 분(0-59) 시(0-23) 일(1-31) 월(1-1..
- Total
- Today
- Yesterday
- I/O Services of OS
- JSON
- RAID Architecture
- jdbc
- Free space management
- gradle
- SPARK
- 빅데이터 플랫폼
- aop
- I/O Mechanisms
- oracle
- HDFS
- maven
- Allocation methods
- SQL
- springboot
- Java
- 하둡
- 빅데이터
- Variable allocation
- File Protection
- vmware
- Disk System
- Flume
- Disk Scheduling
- hadoop
- mapreduce
- Replacement Strategies
- linux
- Spring
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |