본문 바로가기

B.C/[1-Sprint2] 통계(Statistics)

[ section1 - 2 / 통계(Statistics) ] 10 - (1) 베이지안 통계 개론 (Bayesian Inference)

베이지안은, 여태까지 접했던 통계적 내용과는 사뭇 다른 접근을 필요하다.

이 베이지안의 방식의 아름다운 점은, 내용도 매우 간단하지만, 다양한 분야에 적용이 가능하다는 것이다.

※ 베이즈 정리를 이해를 돕기위한 관점의 변화

- '확률'에 대한 관점의 변화가 필요

- 전통적 관점 : 빈도주의 (frequentism)

- 새로운 관점 : 베이지안 주의 (Bayesianism)

   '확률'을 '주장에 대한 신뢰도'로 해석하는 관점

 

ex) 동전의 앞면이 나올 확률이 50%다

 - 빈도주의 : 100번 동전을 던졌을 때, 50번은 앞면이 나온다.

 - 베이지안 주의 : 동전의 앞면이 나왔다는 주장의 신뢰도가 50%이다.

 

 

 

※ 베이지안의 핵심 유도과정

아래는 베이지안의 핵심공식과 유도과정이다:

Since

Therefore

이는 B가 주어진 상황에서 A의 확률은  A가 주어진 상황에서의 B의 확률 곱하기 

A의 확률, 나누기 B의 확률로 표현된다.

P(A|B) -> 사후 확률. (B라는 정보가 업데이트 된 이후의 사(이벤트)후 확률) 

P(A)    -> 사전 확률. B라는 정보가 업데이트 되기 전의 사전확률

P(B|A)  -> likelihood

여기서 조건이 붙지 않은 확률은 사전확률("Prior"), 조건이 붙은 부분은 사후확률("Updated")로 다시 표현 할 수 있다.

 

 

 

 

 수식의 용어정리 

위의 공식에서 E와 H가 구체적으로 의미하는 것은?

- H : Hypothesis. 가설 혹은 '어떤 사건이 발생했다는 주장'

- E : Evidence. '새로운 정보'

 

- P(H) : 어떤 사건이 발생했다는 주장에 관한 신뢰도

- P(H|E) : 새로운 정보를 받은 후 갱신된 신뢰도 (= 사후확률 = 구하고자 하는 값)

 

 

 

※ 확률론 패러다임의 전환 : 연역적 추론 -> 귀납적 추론

  • 베이즈 정리는 통계학의 패러다임을 전환시킴.
  • 기존의 통계학 : 빈도주의 (frequentism)
    - 연역적 사고에 기반
    - 확률 계산, 유의성 검정
    - 엄격한 확률 공간 정의하거나 집단의 분포를 정의하고 파생 결과물을 수용
  • 새로운 관점 : 베이지안 주의 (Bayesianism)
    - 경험에 기반한 선험적인, 혹은 불확실성을 내포하는 수치를 기반으로 함
    - 추가되는 정보를 바탕으로 사전 확률을 갱신함.
    - 귀납적 추론 방법.
    - 추가 근거 확보를 통해 진리로 더 다가갈 수 있다는 철학을 내포.

 

 

 

※ 이론을 적용한 예제

<예제 1>

  • 질병 A의 발병률은 0.1%로 알려져있다. 이 질병이 실제로 있을 때, 질병이 있다고 검진할 확률(민감도)은 99%,
    질병이 없을때 실제로 없다고 검진할 확률(특이도)는 98%라고 하자.
  • 만약 어떤ㅇ 사람이 질병에 걸렸다고 검진을 받았을때, 이사람이 정말로 질병에 걸렸을 확률은?

- H : True / 실제로 병이 있음. 

- E : Positive / 병이 있는 것으로 진단됨.

 

- P(H)     = 0.001

- P(E|H)   = 0.99

- P(Ec|Hc) = 0.98

그림1. 주어진 확률값들의 값을 사각형의 상대적 넓이로 시각화 한 것

식을 좀더 정리해서 쓰면 아래의 식 (1)과 같다.

따라서, 우리가 구하고자 하는 P(H|E)를 계산하면 결과값은 다음과 같다.

 

<예제 2>

  • 예제 1에서 한번 양성 판정을 받았던 사람이 두번째 검진을 받고 또 양성판정을 받았을때, 이 사람이 실제로 질병에 걸린 확률은? 

예제2와 같은 문제를 굳이 내는 이유는 베이즈 정리는 신뢰도를 갱신해 나가는 방법이라고 했는데,

예제 2와같은 상황이 되면, Hypothesis는 다음과 같이 바꿔 생각할 수 있기 때문이다.

 

- Hypothesis :  병이 있다고 한 번 진단받았으며 이것이 사실이다.

( 즉, 예제 1에서 사후확률로 계산된 값이 예제 2에서는 사전확률로 이용되어서,

  다시 한번 더 갱신된 사후확률을 계산해주게 한다. )

그림2. 예제1의 결과값을 다시 사전확률P(H)로 하여, 한번 더 갱신된 사후확률을 계산할 수 있는 식을 사각형의 상대적 넓이로 시각화한 것

따라서, 우리가 구하고자 하는 P(H|E)를 계산하면 결과값은 다음과 같다.

즉, 예제1에서 계산하여 얻은 사전확률에 근거를 기반으로하여 한번 더 확률(즉, 병이 걸렸다는 사실에 대한 신뢰도)를 갱신하여주면 약 70%의 신뢰도로 이 사람은 병에 걸렸을 수 있다고 말할 수 있을 것이다.

 

 

 

 

 

 

 

참조 : 공돌이의 수학정리노트 / 베이즈 정리의 의미