베타분포 - 직관, 유도, 예시 (Medium Post 번역)

본 포스트는 Medium의 Beta distribution에 대한 포스트를 번역한 것입니다. https://towardsdatascience.com/gamma-distribution-intuition-derivation-and-examples-55f407423840

베타 분포는 확률들에 대한 확률분포이다. 예를 들어, 이를 활용해 확률을 모델링 할 수 있다:

  • 광고 클릭률,
  • 웹사이트 상에서 구매 전환율
  • 블로그의 독자들의 “좋아요” 가능성
  • 트럼프가 재선에 성공할 확률 등

왜냐면 베타 분포가 확률 자체를 모델링하며, 그 영역은 0~1 사이에 존재하기 때문이다.

1. 왜 베타분포의 PDF가 그렇게 생겼는가?

PDFofBeta

What is the Intuition?

일단 계수인 $1/\Beta(,\alpha, \beta)$를 제쳐두고, 분자인 $x^{\alpha-1}(1-x)^{\beta-1}$을 집중적으로 보고자 한다. 계수는 정규화 상수로서 적분 값이 1이 될 수 있도록 해주는 기능만 하기 때문이다.

그럼 분자의 꼴인 “x에 자승, (1-x)에 자승”이 어디선가 본 것 같지 않나요??

이항분포

이항분포의 관점으로 바라볼때 베타 분포의 직관이 나타나기 시작한다. betabinomial

두 이항과 베타분포의 차이점은 전자는 성공의 횟수(x)를 모델링하고, 성공 확률(p)를 모델링한다.

다른 말로, 이항분포의 확률을 파라미터인 반면; 베타는 확률이 확률변수이다!

$\alpha$와 $\beta$의 해석

위의 식의 이항분포에서 n & n-x가 성공과 실패를 말하듯이, $\alpha-1$와 $\beta-1$를 성공과 실패의 횟수 관점으로 살펴보아도 좋다.

$\alpha$와 $\beta$를 어떤 숫자로 얼마든지 설정해도 된다. 만약 성공률이 높다고 생각하면 $\alpha$를 크게하고 아니라면 반대로 설정하면 된다.

$\alpha$가 커지면서(더 높은 성공 사건들), 확률 분포의 큰 부분들이 오른쪽으로 이동할 것이며, $\beta$의 증가는 분포를 왼쪽으로 이동시킬 것이다.

그리고 두 파라미터가 동시에 증가한다면 narrow해질 것이다.

2. 예시: 확률의 확률

당신이 데이트 신청을 했는데 받아줄 확률이 베타 분포를 따른다고 가정하고 $\alpha=2$, $\beta=8$이라 하자. 성공 rate가 50%보다 클 확률은 얼마일까요~~

P(X>0.5) = 1- CDF(0.5) = 0.01953

IOWA 대학의 Bognar 박사가 베타분포 계산기를 만들어놨는데 꽤 괜찮은 것 같다. 다른 $\alpha, \beta$를 통해 실험해보아라.

3. Beta 분포를 대체 왜 쓰는거여?

단지 확률을 위한 확률분포를 만들고자 한다면, 사실 그냥 (0,1)의 범위를 갖는 임의의 분포를 활용하면 될 것 같다. 그리고 이를 만드는 것은 어렵지 않다. 0~1사이에서 폭발하지 않고 양수를 유지하고 적분해서 1이 되도록 만들면 된다. 이렇게 쉬운 방법이 있는데 굳이 베타 분포를 사용하는 이유는 무엇일까?

뭐가 그렇게 특별해?

베타 분포는 베이지안 추론에서 베르누이, 이항, 음이항, 기하분포(성공과 실패를 담고 있는 분포)의 켤레 사전 분포(prior) 로서의 역할을 갖고있다.

사후 분포를 켤레 사전분포로 정의하는 것은 매우 편리하며, 베이지안 추론을 포함한 겁나게 비싼 계산 과정을 생략할 수 있기 때문이다.

베이지안과 켤레사전분포를 모른다면 아래의 글을 먼저 읽어라!(역주: 하나 하려면 하나 공부해야 하는 이 고통…누가 알아주리오까)

Bayesian Inference Conjugate Prior

데이터/ML 사이언티스트로서 당신의 모델은 항상 완벽할 수 없다. 지속적으로 데이터가 유입될때마다 모델을 업데이트 시켜줘야 하며 이때 베이지안 추론이 필요한 것이다.

베이지안 추론의 계산은 매우 무겁고 가끔은 다루기가 힘들다. 하지만 켤레 사전분포와 함께 닫힌 꼴의 공식을 활용한다면 계산이 아주 쉬워질 것이다.

데이트 수락/거절 예시에서, 베타 분포는 이항가능도의 켤레사전분포이다. 만약 베타를 사전분포로 활용한다면, 사후분포 역시 베타 분포일 것임을 알 수 있다. 따라서, 몇번의 실험을 더 한 뒤 $\alpha$ 와 $\beta$에 지속적으로 수락과 거절의 수를 각각 더해나가면 된다. 사전분포에 가능도를 곱하는 대신에 말이다.

4. 베타분포는 유연하다!