hdfs의 데이터를 spark로 실행해서 hdfs에 적재 테스트 데이터 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 package bigdata.spark.basic; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; publ..
Simple WordCount Scala의 Tuple자료형을 사용 테스트 데이터 cat dog .org cat cat && tiger dog 100 tiger cat package bigdata.spark.basic; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import scala.Tuple2; public class JavaPairRDDTest { public static void main(String[] args) { SparkConf sparkConf = new Spar..
Spark 분석엔진 하둡보다 100배이상 빠름 spark를 개발할 수 있는 언어는 scala, java, python, R spark라이브러리는 spark core, spark sql, spark streaming, MLlib(머신러닝), GraphX spark는 대규모 데이터의 처리를 위한 통합 분석 엔진 spark의 구성요소 SparkContext( JavaSparkContext ) : spark가 동작하기 위해서 필요한 기본 정보를 가지고 있는 객체로 spark가 제공하는 다양한 서비스와 기능을 직접 사용할 수 있는 기본 클래스 RDD(Resilient Distributed DataSet) 스파크에서 사용하는 기본 데이터 구조 스파크에서는 내부적으로 사용하고 처리하는 모든 데이터를 RDD타입으로 처..
설치 http://spark.apach.org 버전에 맞도록 다운 압축 해제 스파크 실행(scala) document http://spark.apache.org/documentation.html 환경변수 설정(.hashrc) 임시적용 설정 sbin : 실행할 수 있는 shell파일들 master실행 hadoop이 실행 중 이어야 함 spark master 관리 페이지 slave실행 (설정 전) worker는 1개가 기본값 master, slave 종료 세팅 파일 생성 master , slave 재실행 확인 프로젝트 생성 spark dependency (spring버전 4.2.4) org.apache.spark spark-core_2.10 1.4.1 테스트 데이터 생성 < SparkTestStep1.jav..
Shuffle단을 수정 map과 reduce사이에 shuffle이라 부르는 처리가 프레임워크에 의해 자동을 처리된다. 리듀스의 전처리 작업으로 사용자가 직접 정의하지 않지만 필요에 의해서 (복잡한 input데이터 활용해서 조인하거나 사용자 정의 기준으로 정렬하거나..) 커스터마이징 할 수 있어야 한다. map작업 ---------> shuffle작업 -----------> reduce작업 map처리 후 데이터를 정렬해서 같은 키를 가진 데이터를 같은 장소에 모은다. 이때 슬레이브 서버 간에 네트워크를 통한 전송이 발생 shuffle단에서 발생하는 이러한 작업을 프레임워크 내부에서 자동으로 처리 shuffle단에서 네트워크를 통한 전송이 발생 정렬 정렬의 종류 보조정렬 부분정렬 전체정렬 보조정렬 기존의 맵..
Combiner를 활용 셔플할 데이터의 크기를 줄이기 위해서 사용 맵 태스크와 리듀스 태스크 사이에 데이터를 전달하는 과정을 Shuffle이라 한다. 맵 태스크의 출력데이터는 네트워크를 통해서 리듀스 태스크에 전달된다. 네트워크를 통해서 데이터가 전달되므로 데이터의 크기를 줄일 수 있어야 한다. 리듀서가 처리할 데이터들이 줄어든다. Combiner 사용 전 분석데이터 다운로드 https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/HG7NV7 hdfs 폴더 생성 분석 데이터 hdfs에 넣기 AirMapper.java 수정 package mapred.exam.air; import java.io.IOException; import o..
폴더에서 hdfs로 이동 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 로컬폴더 -> hdfs 설정파일 생성 설정 flume 실행 input 데이터 추가 확인 결과 로컬폴더 -> hdfs (세부 설정 추가) 설정파일 생성 설정 flume 실행 input 데이터 추가 확인 결과 shell 실행 명령어를 이용해서 hdfs에 적재 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 설정 파일 생성 설정 command -> flume_input 안의 README.txt 파일 읽기 flume 실행 input 데이터 추가 확인 shell명령어를 통해 실행하면 COMPLETED..
Flume > Apach의 오픈소스 프로젝트로 대용량의 로그를 수집할 수 있도록 여러가지 기능을 제공하는 프로그램 개요 로그 수집을 위한 프로그램 flume, chukwa, scribe, fluentd, splunk 등이 같은 종류의 프로그램 여러 곳에 위치하는 로그를 하나로 모을 수 있다. 로그를 배치로 한꺼번에 보내는 것이 아니라 스트리밍하게 지속적으로 보낸다. 메모리가 확보 비동기 방식 로그수집 Thread와 로그를 전송하는 Thread가 별도로 실행한다. flume의 구성요소 Agent가 관리 flume은 여러가지 유형으로 Agent를 구성할 수 있다. source와 sink, channel등의 구성요소는 반드시 설정 작업을 해야 한다. source : 데이터가 유입되는 지점, 다양한 시스템의 데..
- Total
- Today
- Yesterday
- linux
- Replacement Strategies
- SQL
- 하둡
- Allocation methods
- RAID Architecture
- JSON
- oracle
- mapreduce
- vmware
- SPARK
- Flume
- I/O Mechanisms
- hadoop
- File Protection
- Free space management
- gradle
- Disk Scheduling
- HDFS
- springboot
- maven
- Variable allocation
- jdbc
- aop
- Spring
- Java
- 빅데이터
- I/O Services of OS
- 빅데이터 플랫폼
- Disk System
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |