본문 바로가기

Study-넘버웍스 (2017)

3주차_#2. 베이지안(Bayesian)과 프리퀀티스트(Frequentist) 간의 입장 차이

조건부확률

- B라는 사건이 일어 났을때 A사건이 일어날 확률. 여기서 B라는 사건이 이미 일어난 상황에서 A가 일어 났다는 것은 결국 A와 B가 동시에 일어났다는 것이다.

- P(A|B) = P(AB)/P(B) (단, P(B) != 0)

 

예제1]

1~20까지의 숫자가 적혀있는 카드가 있다고 할때,

A: 2의 배수가 나오는 사건

B: 3의 배수가 나오는 사건

이라 하자. 이때, 2의 배수가 나왔을 때 그것이 3의 배수였을 확률은 얼마인가?

Answer) P(B|A) = P(BA)/P(A) = 6의 배수가 나올 확률 / (10/20) = (3/20) / (10/20) = 3/10 = (6의 배수인 카드) / (2의 배수인 카드)

 

예제2]

 

안경    맨눈

남학생    5        7

여학생    6        4

 

A: 남학생일 사건

B: 안경을 끼고 있는 사건

이라 하자. 학생을 뽑았는데, 그 학생일 남학생이 었을때, 그 남학생이 안경을 끼고 있을 확률은?

Answer) P(B|A) = P(B교A) / P(A) = (5/22) / (12/22) = 5/12 = (안경을 끼는 남학생의 수) / (전체 남학생의 수)

 

*** 여기서 표본 공간이 주어진 조건으로 바뀌는 것을 볼 수 있다.

 

 

 

베이즈 정리

- 베이즈 정리는 이전의 경험과 현재의 증거를 토대로 어떤 사건의 확률을 추론하는 알고리즘이다. 즉, 사건이 일어날 확률을 토대로 의사결정을 할 경우 그와 관련된 사전 정보를 얼마나 알고 있고 제대로 적용할 수 있는가에 크게 좌우된다.

- 양성반응일때 유방암일 확률 = P(암|양성) = P(암양성)/P(양성) => P(암양성) = P(암|양성)P(양성)

  유방암일때 양성반응일 확률 = P(양성|암) = P(양성암)/P(암) => P(양성암) = P(양성|암)P(암)

  따라서, P(암양성) = P(암|양성)P(양성) = P(양성|암)P(암) = P(양성암)

  이 식은 다음과 같은 식으로 변형이 될 수 있다.

  P(암|양성) = P(양성|암)P(암)/P(양성)

 

  여기서 P(양성|암) 즉, '유방암일 때 양성반응일 확률'(사전확률)이 90%라 하자. (여기서 P(암|양성)과 착각하지 않도록 하자)

  이 뜻은 암일 경우 양성으로 판단될 확률이 90%라는 것이다. 즉, 90프로의 확률로 암을 가진 환자가 양성판정을 받는 다는 것이다.

  P(암) 즉, 유방암에 걸린 사람의 비율이 0.01이라 하자.

  P(양성)은 (암에 걸린 여성이 양성반응인 확률 즉, P(양성|암)P(암)) + (유방암에 안걸린 여성이 양성반응인 확률 즉, P(양성|N)P(N)) 이므로, 0.9*0.01 + 0.1*0.99 = 0.108

  따라서 P(암|양성) = 0.9*0.01/0.108 = 0.083으로 검사에서 양성일 경우 유방암일 확률은 8.3%가 된다.

 

  정확도가 99%로 높아졌다고 하자. 그러면 P(양성|암) = 0.99이고, P(양성) = 0.0198 (0.99*0.01 + 0.01*0.99)이므로, P(암|양성) = 0.99*0.01/0.0198 = 0.5로 50%가 된다. 

 

 

 

베이지안과 프리퀀티스트 간의 입장 차이

- 확률을 객관적으로 발생하는 현상의 빈도수에 대한 기술로 보느냐 VS 현상에 대한 관찰자의 주관적인 믿음의 체계로 보느냐

- fair한 6면 주사위가 하나 있을때, 이 주사위를 던져서 1의 눈이 나올 확률은?

frequentist : 1/6 (∵ 주사위는 fair하므로 6개의 경우들은 모두 같은 빈도로 발생할 것이다.)

bayesian

1. 1의 눈이 나올 확률은 0과 1사이의 임의의 값이다. 임의로 1/10이라 간주한다. (사전확률)

2. 이 주사위를 실제로 6000번 던졌더니 그 중 992번이 1이 나왔다. (데이터)

3. 데이터가 있으므로 새로운 데이터를 이용해서 사전확률을 수정한다. 새로운 확률(사후확률)은 992/6000이다.

- frequentist들은 992/6000이 1/6에 매우 근접하므로 이 데이터는 1의 눈이 나올 확률이 1/6이라는 '가설'을 confirm한다고 생각한다. 즉, frequentist들에게는 '참된 확률값'이라는 것이 존재하는 것이다. (여게서 992/6000은 가설을 검증을 통해 얻은 추정치로 간주한다.)

  반면 bayesian은 1의 눈이 나올 확률이 어떤 확률분포를 가지고 있다고 생각한다. (6000번중에 1이 한번도 나오지 않을 확률, 1번 나올 확률, ... , 6000번 나올 확률 하는 식오로) 즉, 확률값의 참된 분포 (데이터를 만들어내는 내재적 과정)는 있지만 '참된 확률값'이란 것은 없는 것이다.

  따라서 bayesian은 데이터를 얻기 전에 분포에 대한 믿음, 즉, 사전확률분포를 가지고 있다. 그리고 데이터를 얻게 되면 자신들의 과거의 견해를 갱신(update)해서 새로운 믿음(사후확률분포)를 만든다. bayesian들은 갱신과정을 거쳐 믿음을 참된 분포에 근접시킨다.

- 병원에 배가 아픈 환자가 왔다고 하자

frequentist : 그 환자를 직접 검사 하여 source of pain을 찾는다.

bayesian : 비슷한 증상의 이전 환자의 증상과 결합하여 source of pain을 찾는다.

- 결론 : frequentist는 현재의 객관적인 사건으로 판단, bayesian은 과거의 사건이 현재 사건에 영향을 미침

 

 

[참고]

베이즈정리 http://math4ucanada.com/%EB%B2%A0%EC%9D%B4%EC%A6%88-%EC%A0%95%EB%A6%AC/

    http://j1w2k3.tistory.com/1009

Frequentist and Bayesian http://www.ibric.org/myboard/read.php?id=19818&Page=&Board=SORI&FindIt=&FindText=

 https://www.youtube.com/watch?v=r76oDIvwETI

 

 

반응형