hdfs의 데이터를 spark로 실행해서 hdfs에 적재 테스트 데이터 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 안녕하세요!! 스파크 입니다 package bigdata.spark.basic; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; publ..
Simple WordCount Scala의 Tuple자료형을 사용 테스트 데이터 cat dog .org cat cat && tiger dog 100 tiger cat package bigdata.spark.basic; import org.apache.spark.SparkConf; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; import scala.Tuple2; public class JavaPairRDDTest { public static void main(String[] args) { SparkConf sparkConf = new Spar..
Spark 분석엔진 하둡보다 100배이상 빠름 spark를 개발할 수 있는 언어는 scala, java, python, R spark라이브러리는 spark core, spark sql, spark streaming, MLlib(머신러닝), GraphX spark는 대규모 데이터의 처리를 위한 통합 분석 엔진 spark의 구성요소 SparkContext( JavaSparkContext ) : spark가 동작하기 위해서 필요한 기본 정보를 가지고 있는 객체로 spark가 제공하는 다양한 서비스와 기능을 직접 사용할 수 있는 기본 클래스 RDD(Resilient Distributed DataSet) 스파크에서 사용하는 기본 데이터 구조 스파크에서는 내부적으로 사용하고 처리하는 모든 데이터를 RDD타입으로 처..
설치 http://spark.apach.org 버전에 맞도록 다운 압축 해제 스파크 실행(scala) document http://spark.apache.org/documentation.html 환경변수 설정(.hashrc) 임시적용 설정 sbin : 실행할 수 있는 shell파일들 master실행 hadoop이 실행 중 이어야 함 spark master 관리 페이지 slave실행 (설정 전) worker는 1개가 기본값 master, slave 종료 세팅 파일 생성 master , slave 재실행 확인 프로젝트 생성 spark dependency (spring버전 4.2.4) org.apache.spark spark-core_2.10 1.4.1 테스트 데이터 생성 < SparkTestStep1.jav..
Combiner를 활용 셔플할 데이터의 크기를 줄이기 위해서 사용 맵 태스크와 리듀스 태스크 사이에 데이터를 전달하는 과정을 Shuffle이라 한다. 맵 태스크의 출력데이터는 네트워크를 통해서 리듀스 태스크에 전달된다. 네트워크를 통해서 데이터가 전달되므로 데이터의 크기를 줄일 수 있어야 한다. 리듀서가 처리할 데이터들이 줄어든다. Combiner 사용 전 분석데이터 다운로드 https://dataverse.harvard.edu/dataset.xhtml?persistentId=doi:10.7910/DVN/HG7NV7 hdfs 폴더 생성 분석 데이터 hdfs에 넣기 AirMapper.java 수정 package mapred.exam.air; import java.io.IOException; import o..
폴더에서 hdfs로 이동 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 로컬폴더 -> hdfs 설정파일 생성 설정 flume 실행 input 데이터 추가 확인 결과 로컬폴더 -> hdfs (세부 설정 추가) 설정파일 생성 설정 flume 실행 input 데이터 추가 확인 결과 shell 실행 명령어를 이용해서 hdfs에 적재 http://flume.apache.org/releases/content/1.9.0/FlumeUserGuide.html 설정 파일 생성 설정 command -> flume_input 안의 README.txt 파일 읽기 flume 실행 input 데이터 추가 확인 shell명령어를 통해 실행하면 COMPLETED..
Flume > Apach의 오픈소스 프로젝트로 대용량의 로그를 수집할 수 있도록 여러가지 기능을 제공하는 프로그램 개요 로그 수집을 위한 프로그램 flume, chukwa, scribe, fluentd, splunk 등이 같은 종류의 프로그램 여러 곳에 위치하는 로그를 하나로 모을 수 있다. 로그를 배치로 한꺼번에 보내는 것이 아니라 스트리밍하게 지속적으로 보낸다. 메모리가 확보 비동기 방식 로그수집 Thread와 로그를 전송하는 Thread가 별도로 실행한다. flume의 구성요소 Agent가 관리 flume은 여러가지 유형으로 Agent를 구성할 수 있다. source와 sink, channel등의 구성요소는 반드시 설정 작업을 해야 한다. source : 데이터가 유입되는 지점, 다양한 시스템의 데..
Sqoop sqoop은 Apache Hadoop과 RDBMS사이에 data를 효율적으로 이동할 수 있도록 지원되는 도구 sql to hadoop의 약자 Sqoop 사용하기 다운로드 압축풀기 .bashrc에 환경설정정보 등록 오라클 연동을 위해서 ojdbc6.jar를 sqoop_home/lib에 복사 다운로드 sqoop.apache.org 설치 Shell(bash)설정 /etc/profile - 부팅시 적용되는 파일 (root) /home/사용자계정/.bash_profile : 각 계정에 로그인할 때 로드 /home/사용자계정/.bashrc : 로그인 한 상태에서 터미널을 열면 실행 sqoop을 사용하기 위해 path 설정 db사용을 위해 JDBC 라이브러리 복사 /home/사용자계정/sqoop폴더/lib..
- Total
- Today
- Yesterday
- HDFS
- JSON
- Spring
- mapreduce
- 하둡
- oracle
- Free space management
- File Protection
- Disk System
- jdbc
- aop
- I/O Mechanisms
- springboot
- linux
- hadoop
- Disk Scheduling
- 빅데이터 플랫폼
- Variable allocation
- gradle
- Allocation methods
- Java
- maven
- SPARK
- I/O Services of OS
- SQL
- Flume
- Replacement Strategies
- vmware
- 빅데이터
- RAID Architecture
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |