본문 바로가기

Machine Learning & Deep Learning

02. 머신러닝 프로젝트

 

1. 탐색적 자료 분석 (EDA, EXPLORATORY DATA ANALYSIS)

시각화와 기술통계를 통해서 데이터를 이해하는 단계

 

2. 전처리 (PROCESSING)

데이터를 정제하고 가공해서 머신러닝모델의 입력에 적합한 형태로 바꿔주는 단계

 

Data Cleaning 

For Model

Deduplication (중복제거)

Feature extraction 

outlier detection

 Feature scailing

 Other cleaning techiques

 Dummification

 

 Dimensionality reduction

 

- 탐색적 자료 분석과 전처리는 반복적인 관계

- 탐색적 자료 분석을 통해 어떤 전처리가 필요한지 알 수 있고, 전처리를 통해 탐색적 자료 분석을 수월하게 할 수 있음

 

3. Model selection (모델 선택)

- 적절한 머신 러닝 모델을 선택하는 단계

 무엇을 선택할 것인가?

어떻게 선택할 것인가? 

Model 

 Metrics

 Features

 Validation

 Hyperparameters

 Cross Validation(CV)

 

4. 평가 및 예측 (Evaluation & Prediction)

- 만들어진 머신러닝 모델의 성능을 평가하고 모델을 활용하여 새로운 데이터에 대한 예측을 하는 단계

- 만들어진 모델이 얼마나 새롱누 데이터에 대해 얼마나 일반화(generalization) 가능한지 측정 가능

- 평가용 데이터셋(test set)은 모델 선택과 학습 과정에서 쓰이지 않아야 함

- 평가용 데이터셋(test set)은 학습용 데이터셋(train set)과 동일한 전처리 과정을 거쳐야 함

 

 

예제) Boston houses prices

추후정리예정

 

 

반응형