1. 탐색적 자료 분석 (EDA, EXPLORATORY DATA ANALYSIS)
시각화와 기술통계를 통해서 데이터를 이해하는 단계
2. 전처리 (PROCESSING)
데이터를 정제하고 가공해서 머신러닝모델의 입력에 적합한 형태로 바꿔주는 단계
Data Cleaning |
For Model |
Deduplication (중복제거) |
Feature extraction |
outlier detection |
Feature scailing |
Other cleaning techiques |
Dummification |
|
Dimensionality reduction |
- 탐색적 자료 분석과 전처리는 반복적인 관계
- 탐색적 자료 분석을 통해 어떤 전처리가 필요한지 알 수 있고, 전처리를 통해 탐색적 자료 분석을 수월하게 할 수 있음
3. Model selection (모델 선택)
- 적절한 머신 러닝 모델을 선택하는 단계
무엇을 선택할 것인가? |
어떻게 선택할 것인가? |
Model |
Metrics |
Features |
Validation |
Hyperparameters |
Cross Validation(CV) |
4. 평가 및 예측 (Evaluation & Prediction)
- 만들어진 머신러닝 모델의 성능을 평가하고 모델을 활용하여 새로운 데이터에 대한 예측을 하는 단계
- 만들어진 모델이 얼마나 새롱누 데이터에 대해 얼마나 일반화(generalization) 가능한지 측정 가능
- 평가용 데이터셋(test set)은 모델 선택과 학습 과정에서 쓰이지 않아야 함
- 평가용 데이터셋(test set)은 학습용 데이터셋(train set)과 동일한 전처리 과정을 거쳐야 함
예제) Boston houses prices
추후정리예정
'Machine Learning & Deep Learning' 카테고리의 다른 글
03. 초기화 (0) | 2017.08.03 |
---|---|
01. 활성함수(activation function) - Sigmoid, ReLU (0) | 2017.08.03 |
00. 뉴럴 네트워크 (0) | 2017.08.03 |
클러스터링 평가하기 (Clustering Evaluation) (0) | 2017.07.17 |
군집화(Clustering) (0) | 2017.07.16 |