붓꽃 데이터 https://github.com/pandas-dev/pandas/blob/master/doc/data/iris.data Raw 클릭 -> 우클릭 -> 다른이름으로 저장 -> iris.csv 저장 붓꽃 품종 분류하기 이터 150 개 중 100개는 학습데이터, 50개는 테스트 데이터로 사용 scikit-learn의 메소드를 이용해서 간단하게 작성하기 pandas 를 통해 csv 파일을 읽어들인다. pandas의 DataFrame 타입 csv[['열 이름', '열 이름', ...]] 으로 필요한 열을 DataFrame 타입으로 불러올 수 있다. 이미지 내부의 문자 인식 MNIST - 손글씨 숫자 데이터 http://yann.lecun.com/exdb/mnist/ 데이터 다운로드 CSV파일로 변환..
머신러닝 샘플데이터를 입력하여 분석하여 일정한 규칙을 찾아내고, 찾아낸 규칙을 기반으로 다른 데이터를 분류하거나 미래를 예측 하는 것 머신러닝 종류 종류 설명 지도 학습(교사 학습) 데이터와 함께 답을 입력 다른 데이터의 답을 예측 비지도 학습(비교사 학습) 데이터는 입력하지만 답은 입력하지 않는다. 다른 데이터의 규칙성을 찾는다. 강화학습 부분적으로 답을 입력한다. 데이터를 기반으로 최적의 답을 찾는다. 지도 학습 훈련 데이터와 그에 상응하는 레이블 또는 타겟 포함 분류(classfication) 스팸 필터 회귀(regression) 특징(feature)을 사용해 타겟 수치를 예측 대표적 지도학습 알고리즘 k-최근접 이웃(k-Nearest Neighborhood) 선형 회귀(linear regressi..
https://scrapy.org 설치 Scrapy 를 이용해 데이터 추출하기 https://wikibook.co.kr/list scrapy 명령어를 사용해 프로젝트 만들기 Scrapy 프로젝트 만들기 구조 Spider 클래스를 작성해서 크롤링과 데이터 추출 코드 작성 spiders 폴더 내부에 파일 생성 import scrapy class Book1Spider(scrapy.Spider): name = 'book' start_urls = [ 'https://wikibook.co.kr/list/' ] def parse(self, response): # 도서 목록 추출 title = response.css('title') print(title.extract()) 명령줄에서 scrapy 명령어 실행 --nol..
환율 정보 저장하기 https://finance.naver.com/marketindex/ from bs4 import BeautifulSoup import urllib.request as req import datetime # HTML 가져오기 url = "https://finance.naver.com/marketindex/" res = req.urlopen(url) # HTML 분석하기 soup = BeautifulSoup(res, "html.parser") # 원하는 데이터 추출하기 price = soup.select_one("div.head_info > span.value").string print("usd/krw", price) # 저장할 파일 이름 구하기 t = datetime.date.toda..
웹 API 웹 API는 어떤 사이트가 가지고 있는 기능을 외부에서도 쉽게 사용할 수 있게 공개한 것 서로 다른 프로그램이 기능을 공유할 수 있게 절차와 규약을 정의한 것 일반적으로 http 통신을 사용. 클라이언트가 api서버에 http 요청을 보내면 서버는 xml 또는 json 형식으로 응답 단점 웹 API가 없어지거나 사양변경이 일어날 수 있다 OpenWeatherMap의 날씨정보 API https://openweathermap.org/ 회원 가입 후 api_key 확인 api document https://openweathermap.org/current 도시 이름으로 api 사용하기 API가 리턴하는 데이터(서울) import requests import json # API 키를 지정 apikey ..
Selenium 자바스크립트를 많이 사용하는 웹 사이트(동적요소가 많은 웹사이트)는 웹 브라우저를 사용하지 않으면 동작을 제대로 확인할 수 없다. selenium은 웹 브라우저를 원격 조작할 때 사용한다. 웹 브라우저를 조작하는 것과 같으므로 모든 웹 페이지에서 데이터를 스크레이핑 할 수 있다. 헤드리스 파이어폭스 화면이 없는 웹 브라우저 명령줄에서 웹 브라우저를 조작할 수 있다. 브라우저 내부에 출력되는 데이터를 추출하거나 스크린샷을 찍을 수 있다. 스크레이핑, UI테스트 자동화 등에 활용 Selenium + 파이어폭스 실행 환경 파이어폭스 설치 selenium 설치 파이어폭스 조작을 위한 Geckodriver 설치 https://github.com/mozilla/geckodriver/releases ..
HTTP 통신 웹 브라우저와 웹 서버는 HTTP 프로토콜을 사용해서 통신 HTTP 통신은 브라우저 에서 서버로 요청(request), 서버에서 브라우저로 응답(response)할 때 어떻게 할 것인가를 나타내는 규약 무상태(stateless) 통신 : 같은 url에 여러번 접근해도 같은 데이터를 돌려주는 통신 HTTP 통신은 무상태 통신 이지만 세션을 이용하여 쿠키에 기록되어 있는 고유 ID를 키로 사용해 상태를 변수로 확인 -> 통신을 계속해서 진행하는 것 같은 상태 유지(stateful) 통신 구현 쿠키 - 클라이언트의 컴퓨터에 일시적으로 데이터를 저장하는 기능 - 1개의 쿠키에 4096 바이트까지 데이터를 저장할 수 있다. - HTTP 통신 헤더를 통해 읽고 쓸 수 있으므로 방문자 또는 확인자 측에..
상대경로 전개 from urllib.parse import urljoin base = 'http://example.com/html/a.html' print(urljoin(base, 'b.html')) print(urljoin(base, 'sub/c.html')) print(urljoin(base, '../index.html')) print(urljoin(base, '../img/hoge.png')) print(urljoin(base, '../css/hoge.css')) print(urljoin(base, './doc/car.html')) print(urljoin(base, '../../../index.html')) print(urljoin(base, '/hoge.html')) print(urljoin(b..
- Total
- Today
- Yesterday
- Replacement Strategies
- hadoop
- 빅데이터 플랫폼
- I/O Mechanisms
- vmware
- Free space management
- Spring
- mapreduce
- gradle
- JSON
- aop
- 빅데이터
- SPARK
- Flume
- linux
- springboot
- Disk System
- Variable allocation
- Disk Scheduling
- I/O Services of OS
- maven
- jdbc
- Java
- File Protection
- SQL
- oracle
- 하둡
- RAID Architecture
- HDFS
- Allocation methods
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |