반응형
데이터 분석을 할 때, 가장 먼저 생각해야 하는 것이
분석의 목적과 목표, 그리고 그를 위한 변수와 모델을 설정하는 것이다.
여기서 모델을 정한다는 것은 목표를 도출하기 위해 머신러닝을 할지 딥러닝을 적용할지
그리고 머신러닝을 한다면 지도학습/비지도학습/강화학습 중 어떤 방식 선택할 것인지를 고민해 봐야 한다.
목표가 같다고 해도 적용하는 방법에 따라 결과들이 다르게 나올 수 있기 때문이다.
1. 머신러닝
데이터의 양이 적고 주로 정형데이터이며,
분석 목적과 목표 도출을 위해 파생변수를 도출해야 하며
다양한 파라미터를 조정하여 성능평가를 할 수 있다.
1) 지도학습
조건) 지도학습은 입력데이터(이하 'x'데이터)와 출력데이터(y, 이하 라벨)가 있다.
목표) 라벨이 없는 신규 'x'데이터에 대하여 라벨값을 예측하여 출력한다.
2) 비지도학습
조건) 'x'데이터가 있고, 이 데이터들이 유의미한 차이(패턴)가 있다.
라벨은 없어도 되지만, 군집이 잘 되었는지 라벨을 통해 확인할 수 있다.
목표) 'x'데이터 간 유사도를 반영하여 군집한다.
3) 강화학습
조건) 'x'데이터, 라벨, 라벨에 대한 평가 점수가 있다.
목표)
2. 딥러닝
데이터의 양이 많고 파라미터 조정을 머신러닝보다 덜 하여도 결과가 잘 나온다.
반응형
'데이터분석 > 머신러닝' 카테고리의 다른 글
[회귀분석] 회귀분석 모델 한 번에 돌려서 가장 좋은 성능 모델 값 뽑기 (0) | 2020.02.24 |
---|---|
머신러닝/딥러닝 데이터셋 얻을 수 있는 링크 모음 (0) | 2019.05.07 |
[기초개념] 데이터 분석 관점에서 한줄로 정리한 '머신러닝 딥러닝 데이터 분석을 하기 위해 꼭 알아야할 기본 개념' (0) | 2018.05.28 |
[데이터 분석] 의미있는 피처(컬럼) 선택 (0) | 2018.05.17 |
[데이터 분석-전처리] 범주형 데이터_원핫인코딩 쉽게하기 (0) | 2018.05.17 |