'Hadoop' 카테고리의 글 목록 (3 Page)

3. 가상머신 복제하기 - 가상머신이 네 대 있다 가정하고 네 개의 가상머신을 만들어준다. : ip확인 머신 복제하기 문서\Virtual Machines - 폴더를 복사 VMware에서 머신 열기 머신 이름 변경 hadoop01 실행 root계정 로그인 터미널 열기 인터넷 연결 확인 VMWare 실행 hadoop02 실행 root 계정 로그인 머신 ip 다른지 확인 hadoop03 , hadoop04 머신 실행 ip 다른지 확인 머신 간 연결 확인하기 hadoop01 머신에서 hadoop02 머신 연결 hostname 변경하기 각 머신 이름으로 변경 변경 확인 4. 하둡 서버를 구축하기 위한 클러스터링 설정하기 방화벽이 설정되어 있으면 하둡 실행이 안된다. 현재 실행중인 서비스 리스트 방화벽 상태정보 방..

Hadoop 2020. 10. 3. 18:07

빅데이터 플랫폼 구축 #2 - CentOS 설치

2. vmware 가상머신 설치하기 - CentOS 7버전을 설치한다. CentOS 설치 영어 키보드 추가 ROOT 암호 설정, 사용자 계정 설정 라이센스 동의 설정완료 루트계정 로그인 기본설정 -> 다음 인터넷 연결 확인 네트워크 -> 유선연결됨 확인 프로그램 -> 파이어폭스 머신 종료

Hadoop 2020. 10. 2. 19:53

빅데이터 플랫폼 구축 #1 - VMware 설치, 네트워크 설정

플렛폼을 구축하기 위한 준비과정 vmware 설치 vmware 가상머신 설치하기 - CentOS 7버전을 설치한다. 가상머신 복제하기 - 가상머신이 네 대 있다 가정하고 네 개의 가상머신을 만들어준다. : ip확인 하둡 서버를 구축하기 위한 클러스터링 설정하기 - 방화벽해제 - 네트워크 설정 - DNS설정 각종 프로그램 설치 - SSH 프로토콜 설정 - hadoop을 테스트하기 위해서는 자바가 반드시 필요하므로 - java, hadoop을 설치하고 설정을 한 후 테스트한다. hadoop의 EchoSystem을 살펴보고 EchoSystem을 설치하여 테스트한다. CentOS 다운로드 https://www.centos.org/ vmware 설치 VMware 설치 https://www.vmware.com/kr..

Hadoop 2020. 10. 2. 19:47

Pig

대용량 데이터 집합을 분석 컴파일을 하기 때문에 속도가 느리다 하둡이 있어야 함 설치 http://pig.apache.org pig-0.17.0.tar.gz 다운 압축풀기 폴더이름 변경 환경변수 변경 후 재부팅 HADOOP_HOME 이 반드시 있어야함 작업 히스토리 서버 시작 확인 pig 실행 정형 데이터 분석 하둡에 pig 폴더 생성 데이터 확인 Pig에서 실행 하둡 pig폴더에 있는 passwd.txt 를 : 을 구분자로 하여 불러옴 맵리듀스로 작업하여 화면에 출력 튜플 중 맨 처음 값의 이름을 id로 가져와 B에 저장 하둡 폴더에 결과를 출력할 폴더 생성 B의 값을 /output/pig 폴더에 저장 같은 이름의 폴더가 있으면 안된다. 결과 확인 비정형 데이터 분석 pig에 데이터 불러오기 (구분자 ..

Hadoop 2020. 8. 19. 01:21

Sqoop

RDBMS 와 Hadoop간의 데이터 이동을 지원 mysql 하둡 설정을 해야 하므로 하둡을 끄고 설치 Mysql 설치 설치 확인 비밀번호 설정 바로 로그인 사용자 생성 권한 설정 사용자 로그인 데이터 베이스 생성 생성 후 use 를 해야 사용 가능 테이블 생성 테이블 생성 확인 데이터 삽입 데이터 확인 오라클 실행 sqoop 설치 http://sqoop.apache.org 압축 해제 폴더 이름 변경 환경변수 설정 후 재부팅 zookeeper 설치 https://zookeeper.apache.org/releases.html 압축 해제 폴더 이름 변경 환경변수 설정 후 재부팅 설치 확인 설정변경 폴더 생성 환경변수 변경 jar 파일 복사 환경변수 변경 jar 파일 추가 하둡 실행 import sqoop 실..

Hadoop 2020. 8. 15. 11:35

Flume

로그 데이터 수집 툴 (전처리 된 데이터) Source : 외부 이벤트가 생성되어 수집되는 영역 Sink : 수집된 로그/이벤트를 목적지에 전달 Channel : Source 와 Sink 간의 버퍼구간 채널별로 1개 Sink 지정 다른 컴퓨터의 데이터도 수집 가능 다운로드 http://flume.apache.org/download.html 압축풀기, 폴더이름 변경 환경변수 설정 설정변경시 재부팅을 해야함 현재 터미널 임시 적용 설치확인 설정 agent1 : 최상위 에이전트 명. 단일 에이전트 source1 : 에이전트에서 실행된 소스의 이름을 나열. 단일소스 spooldir : 새로운 파일의 전송을 위해 스풀링 디렉터리를 검사하는 스플링 디렉터리 소스 spoolDir : 스풀링 디렉터리 소스를 지정 lo..

Hadoop 2020. 8. 14. 11:25

Hadoop - Multi Node Cluster

Multi Node Cluster( 완전 분산 모드) master, worker1, worker2 실행 도메인 설정( master, worker1, worker2 모두 설정) hostname으로 ping 확인 NFS 설정 추가(master) nfs서버 재시작 nfs서버 mount(worker1, worker2) ssh 설정 ( master, worker1, worker2) ssh restart 공개키 생성 worker1 ssh 서버 설치 master 와 같이 설정 worker2 ssh 서버 설치 master 와 같이 설정 key 복사 하둡은 각 노드에서 데이터를 처리한 후 재조합 하여 다시 분석을 한다. 노드간 데이터 이동 시 보안을 위해 ssh 를 사용. 노드 이동을 위해 키 값들을 각 노드에 복사한다..

Hadoop 2020. 8. 13. 10:12

Hadoop - Single Node, Single Node Cluster

Hadoop 하둡에 붙여서 쓰는 것 : 에코 시스템 Single Node : Hadoop Single Node Cluster : NameNode, DataNode를 1대로 Multi Node Cluster : NameNode 1대, DataNode 3대 짝수로 써야함 Hadoop 설치 https://hadoop.apache.org/releases.html 세팅 추가 설치 확인 Single Node 단독모드 mapreduce wordcount 사용하기 단어 횟수 분석 성공하면 _SUCCESS가 뜸 결과 결과 디렉터리가 있으면 에러가 나므로 같은 디렉토리를 쓰려면 삭제해야한다 Single Node Cluster 의사 분산 모드 openssh 패키지 설치 key 생성 공개키를 ssh 인증키로 등록 접속 로그아..

Hadoop 2020. 8. 13. 09:33

이전 1 2 3 4 다음

이전 다음

공지사항

최근에 올라온 글

최근에 달린 댓글

Total

Today

Yesterday

링크

TAG more

« 2025/01 »
일	월	화	수	목	금	토
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

글 보관함

물흐르듯 개발하다 대박나기

티스토리툴바