본문 바로가기

반응형

Study-넘버웍스 (2017)

(7)
4주차_#2. 최적화 기법중 Newton's Method와 Gradient Descent 방법을 설명하세요. Newton's Method - 방정식 f(x) = 0의 해를 근사적으로 찾을 때 사용되는 방법. 현재 x값에서 접선을 그리고 접선이 x축과 만나는 지점으로 x를 이동시켜 가면서 점진적으로 해를 찾아가는 방법 - 초기값을 잘 주면 금방 해를 찾을 수 있지만 잘못 주면 시간이 오래 걸리거나 아예 해를 찾지 못할 수 있다. Gradient Method - f'(x)가 0이 되는 점을 찾는 방법 - 미분하여 극소점을 찾아가는 방법 (local minimum에 빠질수도 있다는 것이 문제점) - 모든 차원과 모든 공간에서 적용이 가능 정리 - 뉴턴법은 해를 찾는 수렴속도가 빠르고 해 근처에서 수렴속도가 급격히 느려지는 문제점이 없다. 반면 gradient descent는 해에 근접할수록 기울기가 0에 가까워 지기..
4주차_#1. 머신러닝과 통계의 차이 머신러닝 - 머신러닝은 '예측'에 집중한다. - 모형복잡성 보다는 overfitting을 고려한다. 통계학 - 모형복잡성 보다 단순성을 추구 - 인자(parameter)의 해석 가능성과 모델링과 샘플링의 가정(assumption)에 강조 예제 : 넷플릭스 사례 - 넷플릭스틑 유저의 영화 평가를 다량으로 수집하여 영화를 예측하여 추천해준다. - 머신러닝 : 결과 데이터, 영화 감상 내역 등 예측에 필요한 데이터를 이미 가지고 있는 상태에서 영화추천시스템이 작동. 하지만 해석가능성이 부족 - 통계학 : 유저가 왜 특정 영화를 선택하게 되는지를 이해할 수 있게 하는 모형을 만들려고 할것이다. [참고] https://medium.com/@hyunseok/%EB%A8%B8%EC%8B%A0%EB%9F%AC%EB%8..
3주차_#5. K-means의 대표적인 의미론적 단점은 무엇인가? (계산량이 많다는 것 말고) K-means Algorithm - 비지도 학습 모델, clustering 모델 1. 중심값을 선정하고, 중심값과 다른 데이터간의 거리를 이용하여 분류를 수행한다. 2. 다음 수행헤서 좀 더 중심에 위치한 중심값을 선정하고, 분류하는 과정을 반복한다. 3. 더 이상 분류가 되지 않을 경우 해당 작업을 종료한다. - K-means는 같은 클러스터에 속한 데이터는 서로 '가깝다'라고 가정하고, 각각의 클러스터마다 '중심'이 하나씩 존재한다. 각각의 데이터가 그 중심과 '얼마나 가까운가'를 cost로 정의하고, K-means는 이렇게 정의된 cost를 가장 최소화 하는 클러스터를 찾는 알고리즘이다. - 장점 1. 간단한 알고리즘으로 대규모에도 적용이 가능하다. (계산시간이 짧다) 2. 주어진 자료에 대한 사전..
3주차_#4. 서버를 100대 가지고 있는 경우, 인공신경망보다 Random Forest를 써야하는 이유는? Answer. 접근 할때 '딥러닝'과 '앙상블 모델'이라는 특징으로 접근을 해보았다. Random Forest는 tree 기반의 앙상블 모델이다. 문제를 여러 개의 파트로 쪼갠후 각각에 대한 답을 구하고 그 결과를 합치는 방법이기 때문에 서버가 여러개인 경우 사용하기에 용이 하다. 반면 뉴럴네트워크는 end-to-end learning이다. 즉, 뉴럴네트워크는 한쪽 끝에서 입력을 받아들이고 다른 쪽 끝에서 출력을 생성하는데, 입력 및 출력을 직접 고려하여 네트워크 가중치를 최적화 한다. * end-to-end leaning : 전체를 모델로 한번에 학습 [참고] http://perso.univ-st-etienne.fr/fod07375/Workshop/assets/slides/Presentation_Wol..
3주차_#3. 오래된 머신러닝 기법인 나이브베이즈(naïve bayes)의 장점 나이브베이즈 - 스팸필터나 키워드 검색을 활용한 문서 분류에 사용되는 지도학습분류기 - 베이즈정리를 적용하여 데이터를 구성하는 각각의 요소들이 독립이라는 가정하에 입력 벡터를 분류하는 확률 모형 - 장점 1. 계산복잡성이 낮아 시간 소요가 짧다. 2. 메모리 용량을 크게 차지 하지 않는다. 3. 그럼에도 상당히 좋은 성능을 낸다. (SVM과도 경쟁할 만큼 우수한 분류 성능) [참고] https://brunch.co.kr/@crescent702/16 https://ratsgo.github.io/machine%20learning/2017/05/18/naive/ http://untitledtblog.tistory.com/31
3주차_#2. 베이지안(Bayesian)과 프리퀀티스트(Frequentist) 간의 입장 차이 조건부확률 - B라는 사건이 일어 났을때 A사건이 일어날 확률. 여기서 B라는 사건이 이미 일어난 상황에서 A가 일어 났다는 것은 결국 A와 B가 동시에 일어났다는 것이다. - P(A|B) = P(A∩B)/P(B) (단, P(B) != 0) 예제1] 1~20까지의 숫자가 적혀있는 카드가 있다고 할때, A: 2의 배수가 나오는 사건 B: 3의 배수가 나오는 사건 이라 하자. 이때, 2의 배수가 나왔을 때 그것이 3의 배수였을 확률은 얼마인가? Answer) P(B|A) = P(B∩A)/P(A) = 6의 배수가 나올 확률 / (10/20) = (3/20) / (10/20) = 3/10 = (6의 배수인 카드) / (2의 배수인 카드) 예제2] 안경 맨눈 남학생 5 7 여학생 6 4 A: 남학생일 사건 B: ..
3주차_#1. 어떨 때 모수적 방법론을 쓸 수 있고, 어떨 때 비모수적 방법론을 쓸 수 있나요? 통계적 추론 적절한 표본집단을 지정하여 이 표본집단에서 평균, 표준편차와 같은 통계량을 구한 뒤 이를 통해 모수를 추정한다. * 통계량(statistics) : 추출된 표본의 평균, 표준편차, 분산 등 * 모수(parameter) : 모집단의 모평균, 모표준편차, 모분산 등 모수적 방법 정규성을 갖는다는 모수적 특성을 이용하는 통계적 방법 * 중심극한정리 : 본래의 분포에 상관없이 무작위로 복원추출된 연속형 자료의 평균의 분포는 정규분포를 따른다. 군당 30명 이상으로 구성된 표본의 경우 정규분포를 따른다고 가정한다. 비모수적 방법 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나 군 당 10명 미만의 소규모 실험에서는 정규분포임을 가정할 수 없다. 이 경우 비모수적 방법을 이용한다. 비모수적 방법에..