본문 바로가기

딥러닝기초

딥러닝에서 사용하는 가우시안 분포 기초개념

Probability VS Likelihood

 

주사위의 경우의 수와 같은 이산확률분포에서는 probability = likelihood 이지만

연속확률분포에서는 probability != likelihood 이다.

 

 

연속확률분포에서는 면적이 확률이 된다. ex) 강수량이 100mm~ 150mm 일 확률

 

특정 사건오늘 비가 115mm 내릴 확률에 대해서는 0이겠다.

probability가 될 때 0이지만, likelihood는 y값이다. 

Likelihood란 지금 얻은 데이터가 이 분포로부터 나왔을 가능도를 뜻한다.

 

Maximum Likelihood Estimation에서 봤던 것처럼,

데이터 샘플에서 후보 분포에 대한 높이(likelihood 기여도)를 다 곱한 것을 이용할 수 있을 것이다.

 

 

가우시안분포

 

정규분포, normal distribution이라고 부르기도 한다.

많은 현상들이 정규 분포를 따르기에 가장 널리 사용되는 연속확률분포이다.

 

$$N(x|\mu, \sigma^2) = \dfrac{1}{\sigma \sqrt{2\pi}} \exp{\left[ - \dfrac{(x - \mu)^2}{2 \sigma ^2} \right]},~~~~~~-\infty<x<\infty$$

$x = \mu$일 때 제일 최고점으로, $\dfrac{1}{\sigma\sqrt{2\pi}}$을 갖겠다.

 

다변량 가우시안

특징의 개수가 D개인 D차원 벡터 x에 대해서

$$N(\mu, \Sigma)$$

$\mu$는 D차원의 평균 벡터,

$\sigma$는 D x D 크기를 갖는 공분산행렬

이들이 $\mu$와 $\Sigma$ 주어진 것이 아닌,

파라미터로 주어진 확률밀도함수에서의 평균과 공분산이 $\mu$$와\Sigma$라는 것이다.

 

공분산이 대칭행렬이므로, 대칭행렬 성질에 따라서

$$\sigma=U^TDU$$

D는 고유치가 대각행렬을 이루는 행렬

 

가우시안에서는 다른 때와 달리 uncorrelated이면 independent하는 것이 성립한다.

$$\textrm{uncorrelated}\Leftrightarrow \textrm{independant}$$

 

그래서 이변량 가우시안에 대해서는

 

$$f_{XY}(x, y) = \dfrac{1}{2\pi\sigma_X\sigma_Y}\exp{\left[-\dfrac{(x - \mu_X)^2}{2 \sigma_X ^2}-\dfrac{(y - \mu_Y)^2}{2 \sigma_Y ^2} \right]}=f_X(x)f_Y(y)$$

 

각각의 가우시안의 곱으로 표현된다.