::: 모델을 학습할 때 영향을 주는 것
- y = ax+b라는 식이 주어졌을때, 주어진 값 x는 독립변수, 주어진 값 y는 종속변수. 여기서 a와 b는 알고리즘을 통해 최적값을 찾는다.
- 하나의 data instance (실제 데이터)는 feature vector로 표현
- 차원의 저주 (curse of dimensionality): 데이터의 차원이 증가할 수록 (즉, feature가 증가할 수록) 데이터를 표현하는 공간이 증가
* 희박한 벡터가 증가 (값이 없는 feature가 늘어남)
* 샘플데이터가 급속도로 늘어남
* 데이터 분포나 모델 추정의 어려움이 생김
::: Feature별로 data의 유형이 다름
- continuous VS discrete
- Numeric Types (integer, real-number)
* 정량적으로 측정 가능한 data type
* 온도, 자동차 속도, 날짜의 차이와 같이 scale이 있는 interval-scaled type
* 비율이 있는 ratio-scaled type
- Nominal Types
* 범주(category)로 분류 가능한 data type
* 명목 척도라는 표현으로 사용되기도 함
* 색깔, 학교명, ID, 전공명 등
* 두 개의 category만 분류할 때는 binary type로 구별
- Ordinal Types
* 범주(category)로 분류가 가능하나 범주간의 순서가 있음
* 명목 척도라는 표현으로 사용되기도 함
* 음료수 병의 크기(상중하), 5점 척도 설문조가
* 측정되는 scale 또는 unit이 사람마다 다를수 있음
예를들면, 5점 척도 설문조사에서 어떤 사람은 1~2점을 많이 줄수도 있고, 어떤 사람은 4~5점을 많이 줄 수 있다.
::: 생길 수 있는 문제점들
- 데이터의 최대/최수가 다름 -> scale에 따른 y값에 영향
예를들면, A feature는 100~200사이의 값을 가지고, B feature는 0~1사이의 값을 가진다 할때, A feature가 y에 더 큰 영향을 준다.
- 잘 못 기입된 값들에 대한 처리
- 값이 없는 경우. 즉, nan값 처리
- 극단적으로 큰값 또는 작은 값들을 그대로 나둬야 할까?
'Machine Learning & Deep Learning' 카테고리의 다른 글
[Chapter1] Types of Machine Learning (0) | 2018.09.17 |
---|---|
04. 배치정규화 (Batch Normalization) (0) | 2017.08.03 |
03. 정규화 (Regularization) (0) | 2017.08.03 |
03. 초기화 (0) | 2017.08.03 |
01. 활성함수(activation function) - Sigmoid, ReLU (0) | 2017.08.03 |