본문 바로가기

전체 글184

[모델 선택하기] 머신러닝(지도학습,비지도학습,강화학습)/딥러닝 데이터 분석을 할 때, 가장 먼저 생각해야 하는 것이 분석의 목적과 목표, 그리고 그를 위한 변수와 모델을 설정하는 것이다. 여기서 모델을 정한다는 것은 목표를 도출하기 위해 머신러닝을 할지 딥러닝을 적용할지 그리고 머신러닝을 한다면 지도학습/비지도학습/강화학습 중 어떤 방식 선택할 것인지를 고민해 봐야 한다. 목표가 같다고 해도 적용하는 방법에 따라 결과들이 다르게 나올 수 있기 때문이다. 1. 머신러닝 데이터의 양이 적고 주로 정형데이터이며, 분석 목적과 목표 도출을 위해 파생변수를 도출해야 하며다양한 파라미터를 조정하여 성능평가를 할 수 있다. 1) 지도학습 조건) 지도학습은 입력데이터(이하 'x'데이터)와 출력데이터(y, 이하 라벨)가 있다. 목표) 라벨이 없는 신규 'x'데이터에 대하여 라벨값을.. 2018. 7. 19.
[xgboost] 설치 오류 해결 및 예제 실행_좋은 참고 링크 xgboost는 성능이 좋아서 케글에서 분석 상위권인 사람들이 많이 사용한다고 한다~ 근데 내꺼에서는 바로 설치가 안되서 설치하는 방법을 따로~ 정리 이건 xgboost 뿐만 아니라 다른 설치 안되는 pip 파일도 아래와 같이 하면된다. 혹시 오픈소스 라이브러리의 업데이트로 기존 코드가 분석이 안된다면, 이전 버전의 pip 파일을 따로 보관하는 것도 방법이다.하지만 pip 파일 업데이트에 맞춰 코드 변경하는 것이 가장 좋다. 아무튼 아래의 설치 방법 따라해보기~ 파이썬 3.6 xgboost 설치하기 1. xgboost 다운로드 하기 1) https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost 링크가기 2) python 3.6인 경우, 'xgboost-0.6-cp36-.. 2018. 7. 16.
[이론] 확률과 통계_알고리즘 기본 개념 사건과 경우의 수 - '사건'이란 실험이나 관찰에 의하여 일어나는 결과 - '경우의 수'란 어떤 사건이 일어날 수 있는 모든 가지의 수 합의 법칙 1.두 사건 A, B가 동시에 일어나지 않을 때, 2.사건 A와 사건 B가 일어나는 경우의 수를 각각 M,N이라 하면 3.사건 A OR 사건 B가 일어나는 경우의 수 => M+N 곱의 법칙 1.두 사건 A, B가 동시에 일어날 때, 2.사건 A와 사건 B가 일어나는 경우의 수를 각각 M,N이라 하면 3.사건 A OR 사건 B가 일어나는 경우의 수 => M*N 순열과 조합 순열: 서로다른 n개 중, r개를 뽑아 ‘나열'하는 경우의 수 나열: 순서가 있다. /다른자리이다. n(n-1)(n-2) … (n-r+1) = nPr 순열의 성질n! (n facto.. 2018. 7. 1.
[mssql] Excel, csv 파일 쉽게 넣기_발생 가능한 오류도 정리 데이터 분석하는 경우에는 파이썬으로 전처리를 하는 것도 좋지만 시간이 오래걸린다.그래서 데이터 베이스에 넣어서 데이터 전처리를 하는 것이 편한 것 같다.일반적인 변수 선택, 파생변수 생성해서 저장하는 것도 파이썬 pandas를 사용하는 것보다는 sql에서 직접하는 것이 효율적인것 같다. 그렇다면 우선 데이터를 넣고 분석하는 방법을 숙지하자!! 예시는 mssql 1. 선행과정 mssql에 데이터를 넣기 위해서는 1) 내 컴퓨터에 서버가 있거나 혹은 2) 다른 사람과 공유하는 서버에 데이터베이스와 테이블 생성, 데이터 업로드의 권한을 갖고 있어야 한다. 나의 경우에는 이미 내 컴퓨터에 서버를 만들어 놓아서 해당 서버에 데이터를 넣을 예정이다. 2. 파일 변경 mssql에서는 csv 파일을 넣는 것을 지원하지.. 2018. 6. 29.
알고리즘이란-컴퓨터 알고리즘 알고리즘이란? 알고리즘은 문제를 효율적으로 해결하는 과정이다 참고 https://terms.naver.com/entry.nhn?docId=2270445&cid=51173&categoryId=51173 컴퓨터 알고리즘이란? 컴퓨터를 이용하여 주어진 문제를 풀기 위한 방법이나 정차- 컴퓨터에게 할 일을 하나씩 차례대로 알려줘야 함 예) 그리드 알고리즘, 해쉬 알고리즘 등 컴퓨터 언어란? 컴퓨터와 대화하기 위해서 사용하는 언어 예) C, C++, JAVA, PYTHON... 컴퓨터 프로그램이란? 컴퓨터가 특정 작업을 수행하기 위해 짜여진 명령의 순서 컴퓨터 알고리즘의 분석 단계 1) 문제 정의- 해결하려는 문제가 컴퓨터가 수행할 수 있도록 입력과 출력의 형태로 해결할 수 있도록 문제 정의 2) 알고리즘 설명-.. 2018. 6. 19.
데이터 컬럼/필드 삭제 mssql 기준 컬럼 데이터만 삭제하기 use DBNamegoalter table Table_name drop column column_name; 2018. 6. 15.
[기초개념] 데이터 분석 관점에서 한줄로 정리한 '머신러닝 딥러닝 데이터 분석을 하기 위해 꼭 알아야할 기본 개념' * 데이터 웨어하우스 : 각 데이터베이스의 자료들을 시계열로 축적한 데이터 창고로 데이터 웨어하우스의 데이터 분석을 통해 의사결정에 활용함상세설명 링크 : https://blog.naver.com/vae3085/220686438394 * 데이터 마트 : 데이터 웨어하우스에서 특정 목적에 따라서 데이터를 추출한 데이터 셋상세설명 링크 : https://terms.naver.com/entry.nhn?docId=819906&cid=42344&categoryId=42344 * 메타데이터 : 데이터를 설명해주기 위해 만들어진 데이터 예를 들면 영화는 기본 이미지와 소리가 축적된 데이터이고 영화줄거리,감독정보등은 영화를 설명해주는 메타데이터상세설명 링크 : https://blog.naver.com/daae0609/.. 2018. 5. 28.
[통계 + 엑셀] 엑셀을 통한 통계 분석 및 해설 기초 엑셀로 분석 간단하게 하기(데이터 이해하기) 1. 엑셀에 데이터 분석 옵션 등록하기1-1. 옵션 -> 추가기능(분석도구 클릭 및 관리(A)에서 이동(G) 클릭) 분석도구 체크 및 확인)1-2. 엑셀에서 '데이터' 형성 2. 히스토그램 분석2-1. 데이터분석 클릭2-2. 히스토그램 선택2-3. 입력법위(데이터) / 계급구간(새로 만들어줘서 넣기) => 출력옵션 체크 후 확인 완료 : 표와 히스토그램 완성계급구간 별로 빈도수와 누적 % 테이블 형성 및 그래프 보여줌 3. 기술 통계법 3-1. 데이터 분석 클릭3-2. 기술통계량 클릭3-3. 입력범위(데이터) 입력 및 출력 옵션 선택 완료~해석: 1: 표준오차 특히 표준편차가 매우 크기 때문에 데이터 정규화가 향후 필요할 것임해석 2: 범위(최대값-최소값)가 .. 2018. 5. 28.
[sql] mssql 데이터 삽입 방법 모음 1. 플랫파일(txt, 텍스트 파일 삽입) mssql management tool 활용 - 데이터 베이스에 접속 > 데이터베이스 우클릭 > 새 데이터베이스 만들기 - 데이터베이스 이름 (이름 작성) > 확인하기 - 데이터베이스 생성 완료- 생성한 데이터 베이스 우클릭 > 태스크 > 플랫파일 가져오기 - 입력할 파일 루트 지정 및 이름 설정 - 데이터 미리보기 (깨진 글씨 등등 확인하기) - 데이터 타입 설정 - 오류 발생 가능성 -> 데이터 타입에 맞지 않는 데이터가 들어간 경우 => 타입 일치후 다시 실행 -> 한 번 실패한 경우 이미 테이블이 만들어져서 안 들어가는 경우 => 테이블 삭제 후 다시 실행 2. 플랫파일(txt, 텍스트 파일 삽입) 쿼리_bulk insert use table1create.. 2018. 5. 23.
[sql ] 기초 쿼리 모음_STATEMENT sql 기초 모음 0. 기초 용어 - FIELD : COLUMN - RECORD : ROW - as(alis) : 별명, 테이블 혹은 field에 임시이름을 지정 SELECT column_name AS alias_nameFROM table_name;SELECT column_name(s)FROM table_name AS alias_name;1. 데이터 조작어(DML:data Manipulation language) - select: 데이터베이스에 들어 있는 데이터를 조회하거나 검색하기 위한 명령어SELECT column1, column2, ...FROM table_name; -- FIELD에 해당하는 RECORD를 불러옴SELECT * FROM table_name; -- 모든 FIELD의 RECORD를 불.. 2018. 5. 23.
[데이터 분석] 의미있는 피처(컬럼) 선택 데이터의 피처(컬럼)이 많다고 해서 예측이 잘 되는 것은 아니다. y = ax + b 일 때, x값으로 y를 예측한다고 가정하면 a라는 가중치를 찾아내어 향후 X의 값이 들어오면 y를 예측할 수 있다. 하지만 y = aX1 + bX2 + cX3 + dX4 ..... + z 라고 할 때, x변수가 많다고 해서 y를 잘 예측하는 것도 아니다. 따라서 y를 예측하는데 필요한 x를 뽑는 것도 중요하다. 예를 들면 여름에 아이스크림 판매량(y)를 예측하는데 여름의 기온(x1), 아이스크림의 가격(x2), 겨울의 기온(x3)이 있다면, x3이 y를 예측하는데 영향력이 적을 것이다. 하지만 X3를 y값을 예측하기 위한 데이터에 포함하거나 비포함할 때의 차이는 클 수 있다. * 과대적합(overfitting)을 줄이고.. 2018. 5. 17.
[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기 범주형 데이터는 숫자의 차이가 의미가 없기 때문에 원핫인코딩/더미화 하여 데이터 처리를 해줘야 한다. 즉, 색상이 1. 빨강2. 노랑3. 파랑 인 경우를 본다면, 1,2,3의 순서나 크기가 데이터 분석에 영향을 줄 수 있기 때문이다. 따라서 빨강인이 아닌지에 대한 여부로 변수를 변경해야 한다. 이렇게 되면 색상 컬럼/변수 하나가 3개의 컬럼으로 증가하여 빨강인지 아닌지, 노랑인지 아닌지, 파랑인지 아닌지로 변경하게 된다. 이런 데이터 변경을 쉽게 해주는 코드들은 아래와 같다. 1. 기본 데이터 셋 만들기 import pandas as pddf = pd.DataFrame([['green', 'M', '10.1', 'class1'], ['red', 'L', '13.5', 'class2'], ['blue', .. 2018. 5. 17.
반응형