Flume

본문 바로가기 메뉴 바로가기

티스토리 뷰

Hadoop

Flume

˙ᵕ˙ 2020. 8. 14. 11:25

로그 데이터 수집 툴 (전처리 된 데이터)

Source : 외부 이벤트가 생성되어 수집되는 영역
Sink : 수집된 로그/이벤트를 목적지에 전달
Channel : Source 와 Sink 간의 버퍼구간

채널별로 1개 Sink 지정
다른 컴퓨터의 데이터도 수집 가능
다운로드
- http://flume.apache.org/download.html
압축풀기, 폴더이름 변경

환경변수 설정

설정변경시 재부팅을 해야함
현재 터미널 임시 적용

설치확인

설정

agent1 : 최상위 에이전트 명. 단일 에이전트
source1 : 에이전트에서 실행된 소스의 이름을 나열. 단일소스
spooldir : 새로운 파일의 전송을 위해 스풀링 디렉터리를 검사하는 스플링 디렉터리 소스
spoolDir : 스풀링 디렉터리 소스를 지정
logger : 콘솔에 이벤트를 기록하는 로거 싱커
channel1 : 싱크는 반드시 채널과 연결해야 한다. 파일 채널을 사용하면 파일로 저장

스풀링 디렉터리 생성

실행

새터미널 실행
flume 실행 중 스풀링 디렉터리에 파일을 넣으면 자동으로 이벤트 목적지로 이동
실행 확인
작업이 완료되면 파일이름뒤에 COMPLETED가 붙음

HDFS Sink
설정 추가 (수집된 로그/이벤트를 지정한 하둡폴더로 이동)

하둡 폴더 생성

실행

결과 확인

분기
하나의 소스에서 발생한 이벤트를 여러 개의 채널로 전송

폴더 생성

server 실행 (agent2)

새 터미널에서 client 실행 (agent1)

새 터미널에서 실행

worker 에서 실행
Flume 설치
환경변수 설정

변경 임시 적용

권한 설정

설정

폴더 생성 , 권한 설정

실행

실행 확인

'Hadoop' 카테고리의 다른 글

Pig (0)	2020.08.19
Sqoop (0)	2020.08.15
Hadoop - Multi Node Cluster (0)	2020.08.13
Hadoop - Single Node, Single Node Cluster (0)	2020.08.13
Oracle 설치 (0)	2020.08.11

댓글

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

글 보관함

티스토리툴바