베이지안은, 여태까지 접했던 통계적 내용과는 사뭇 다른 접근을 필요하다.
이 베이지안의 방식의 아름다운 점은, 내용도 매우 간단하지만, 다양한 분야에 적용이 가능하다는 것이다.
※ 베이즈 정리를 이해를 돕기위한 관점의 변화
- '확률'에 대한 관점의 변화가 필요
- 전통적 관점 : 빈도주의 (frequentism)
- 새로운 관점 : 베이지안 주의 (Bayesianism)
'확률'을 '주장에 대한 신뢰도'로 해석하는 관점
ex) 동전의 앞면이 나올 확률이 50%다
- 빈도주의 : 100번 동전을 던졌을 때, 50번은 앞면이 나온다.
- 베이지안 주의 : 동전의 앞면이 나왔다는 주장의 신뢰도가 50%이다.
※ 베이지안의 핵심 유도과정
아래는 베이지안의 핵심공식과 유도과정이다:
Since
Therefore
이는 B가 주어진 상황에서 A의 확률은 A가 주어진 상황에서의 B의 확률 곱하기
A의 확률, 나누기 B의 확률로 표현된다.
P(A|B) -> 사후 확률. (B라는 정보가 업데이트 된 이후의 사(이벤트)후 확률)
P(A) -> 사전 확률. B라는 정보가 업데이트 되기 전의 사전확률
P(B|A) -> likelihood
여기서 조건이 붙지 않은 확률은 사전확률("Prior"), 조건이 붙은 부분은 사후확률("Updated")로 다시 표현 할 수 있다.
※ 수식의 용어정리
위의 공식에서 E와 H가 구체적으로 의미하는 것은?
- H : Hypothesis. 가설 혹은 '어떤 사건이 발생했다는 주장'
- E : Evidence. '새로운 정보'
- P(H) : 어떤 사건이 발생했다는 주장에 관한 신뢰도
- P(H|E) : 새로운 정보를 받은 후 갱신된 신뢰도 (= 사후확률 = 구하고자 하는 값)
※ 확률론 패러다임의 전환 : 연역적 추론 -> 귀납적 추론
- 베이즈 정리는 통계학의 패러다임을 전환시킴.
- 기존의 통계학 : 빈도주의 (frequentism)
- 연역적 사고에 기반
- 확률 계산, 유의성 검정
- 엄격한 확률 공간 정의하거나 집단의 분포를 정의하고 파생 결과물을 수용 - 새로운 관점 : 베이지안 주의 (Bayesianism)
- 경험에 기반한 선험적인, 혹은 불확실성을 내포하는 수치를 기반으로 함
- 추가되는 정보를 바탕으로 사전 확률을 갱신함.
- 귀납적 추론 방법.
- 추가 근거 확보를 통해 진리로 더 다가갈 수 있다는 철학을 내포.
※ 이론을 적용한 예제
<예제 1>
- 질병 A의 발병률은 0.1%로 알려져있다. 이 질병이 실제로 있을 때, 질병이 있다고 검진할 확률(민감도)은 99%,
질병이 없을때 실제로 없다고 검진할 확률(특이도)는 98%라고 하자. - 만약 어떤ㅇ 사람이 질병에 걸렸다고 검진을 받았을때, 이사람이 정말로 질병에 걸렸을 확률은?
- H : True / 실제로 병이 있음.
- E : Positive / 병이 있는 것으로 진단됨.
- P(H) = 0.001
- P(E|H) = 0.99
- P(Ec|Hc) = 0.98
식을 좀더 정리해서 쓰면 아래의 식 (1)과 같다.
따라서, 우리가 구하고자 하는 P(H|E)를 계산하면 결과값은 다음과 같다.
<예제 2>
- 예제 1에서 한번 양성 판정을 받았던 사람이 두번째 검진을 받고 또 양성판정을 받았을때, 이 사람이 실제로 질병에 걸린 확률은?
예제2와 같은 문제를 굳이 내는 이유는 베이즈 정리는 신뢰도를 갱신해 나가는 방법이라고 했는데,
예제 2와같은 상황이 되면, Hypothesis는 다음과 같이 바꿔 생각할 수 있기 때문이다.
- Hypothesis : 병이 있다고 한 번 진단받았으며 이것이 사실이다.
( 즉, 예제 1에서 사후확률로 계산된 값이 예제 2에서는 사전확률로 이용되어서,
다시 한번 더 갱신된 사후확률을 계산해주게 한다. )
따라서, 우리가 구하고자 하는 P(H|E)를 계산하면 결과값은 다음과 같다.
즉, 예제1에서 계산하여 얻은 사전확률에 근거를 기반으로하여 한번 더 확률(즉, 병이 걸렸다는 사실에 대한 신뢰도)를 갱신하여주면 약 70%의 신뢰도로 이 사람은 병에 걸렸을 수 있다고 말할 수 있을 것이다.
참조 : 공돌이의 수학정리노트 / 베이즈 정리의 의미