본문 바로가기

Machine Learning & Deep Learning

[Chapter2] An understanding of data

::: 모델을 학습할 때 영향을 주는 것

- y = ax+b라는 식이 주어졌을때, 주어진 값 x는 독립변수, 주어진 값 y는 종속변수. 여기서 a와 b는 알고리즘을 통해 최적값을 찾는다.

- 하나의 data instance (실제 데이터)는 feature vector로 표현

- 차원의 저주 (curse of dimensionality): 데이터의 차원이 증가할 수록 (즉, feature가 증가할 수록) 데이터를 표현하는 공간이 증가

* 희박한 벡터가 증가 (값이 없는 feature가 늘어남)

* 샘플데이터가 급속도로 늘어남

* 데이터 분포나 모델 추정의 어려움이 생김


::: Feature별로 data의 유형이 다름

- continuous VS discrete

- Numeric Types (integer, real-number)

* 정량적으로 측정 가능한 data type

* 온도, 자동차 속도, 날짜의 차이와 같이 scale이 있는 interval-scaled type

* 비율이 있는 ratio-scaled type

- Nominal Types

* 범주(category)로 분류 가능한 data type

* 명목 척도라는 표현으로 사용되기도 함

* 색깔, 학교명, ID, 전공명 등

* 두 개의 category만 분류할 때는 binary type로 구별

- Ordinal Types

* 범주(category)로 분류가 가능하나 범주간의 순서가 있음

* 명목 척도라는 표현으로 사용되기도 함

* 음료수 병의 크기(상중하), 5점 척도 설문조가

* 측정되는 scale 또는 unit이 사람마다 다를수 있음

예를들면, 5점 척도 설문조사에서 어떤 사람은 1~2점을 많이 줄수도 있고, 어떤 사람은 4~5점을 많이 줄 수 있다.


::: 생길 수 있는 문제점들

- 데이터의 최대/최수가 다름 -> scale에 따른 y값에 영향

예를들면, A feature는 100~200사이의 값을 가지고, B feature는 0~1사이의 값을 가진다 할때, A feature가 y에 더 큰 영향을 준다.

- 잘 못 기입된 값들에 대한 처리

- 값이 없는 경우. 즉, nan값 처리

- 극단적으로 큰값 또는 작은 값들을 그대로 나둬야 할까?

반응형