Introduction

$p(x)$는 데이터 $x$의 Representation distribution을 찾기 위함

$p(y	x)$: Conditional Model, $x$ 분포는 딱히 상관없다.

Latent Variable Models: Probabilistic Model 예시 중 하나

$p(x) / p(y

x)$의 표기가 있을 때, $y$ 는 Query라고 부르고 $x$는 Evidence라고 부른다.

$p(x) = \sum\limits_x p(x

z) p(z)$

$p(y

x) = \sum\limits_z p(y

x,z)p(z)$

$p(x)$는 일반적으로 복잡한 분포인데, $p(z)$는 꽤 간단한 분포로 설정함 > Gaussian

$p(x	z) = N(\mu(z), \sigma(z))$ 파라미터를 구하는 과정은 복잡할 수 있어도, 해당 분포도 매우 간단

$p(x) = \int p(x

z)p(z)dz$

두 분포는 쉽게 구할 수 있지만, Product는 간단하지 않을 수 있다.

Latent Variable Model을 어떻게 훈련시키는가?

$p_\theta(x) = \int p(x

z)p(z)dz$

$\theta \leftarrow arg max_\theta \frac{1}{N} \sum\limits_i log(\int p_\theta(x_i

z)p(z)dz)$

$\int p_\theta(x_i

z)p(z)dz$ 이 적분식이 Intractable

애초에 MLE는 Optimization으로 어떻게 구하지?

tractable하게는 expected log-likelihood

$\theta \leftarrow arg max_\theta \frac{1}{N} \sum\limits_i E_{z~p(z

x_i)}[log p_\theta(x_i, z)]$

guess the latent variable를 진행함에 있어 무수히 후보가 많을 것이므로, $p(z

x_i)$를 하나의 분포로 설정

Lower Bound를 생성하고 그 Lower Bound를 최대화 하는 것이 필요하다.

구하고자 하는 $log p(x_i)$의 Lower Bound를 Latent Variable Z로 구하자