본문 바로가기

딥러닝기초

분산부터 공분산행렬까지

분산, 공분산, 상관계수, 공분산행렬까지 개념을 살펴보자.

 

 

Variance 분산

확률변수 X가 평균으로부터 얼마나 퍼져있는가?

 

$$Var(X) = E[(X-\mu)^2]$$

 

Covariance 공분산

1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정한다.

$$Cov(X, Y) = \sigma_{XY} = E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y)$$

 

여기서 알 수 있는 것은 단 세가지로,

  • $Cov(X, Y) > 0$ : X와 Y가 양의 선형관계이다
  • $Cov(X, Y) < 0$ : X와 Y가 음의 선형관계이다
  • $Cov(X, Y) = 0$ : X와 Y가 아무런 선형 상관관계를 갖지 않는다.

이때 확률 변수 X, Y가 독립이면 $Cov(X, Y) = 0$이라는 특성이 있다.

Independence -> Uncorrelatedness, 이 역은 성립하지 않는다!!

(Cov(X, Y) = 0인데 X, Y가 종속적인 경우도 존재한다는 것이다)

 

 

이때 주의할 점은 값이 크다고 더 선형성을 갖는 것은 아니다.

그냥 Covariance 값이 양수냐, 음수냐, 그도 아니냐만 보는 것이다.

이는 크기 척도가 다 제각각이기 때문에 그러하다.

그렇다면 얼마나 더 양의 선형관계, 혹은 음의 선형관계인지를 알고 싶다면 Normalize해주면 되겠다.

 

Correlation Coefficient 상관계수

한마디로 Normalized Covariance이다.

$$\rho _{XY} = \frac{Cov(X, Y)}{\sigma_X\sigma_Y}, -1\leq \rho _{XY}\leq 1$$

 

얼마나 더 양의 선형관계, 혹은 음의 선형관계인지를 알 수 있게 된다.

아래 그림은 얼마나에 대해서 잘 보여준다.

아주 조금 기울어지더라도 흩뿌려져있지 않고 선과 같은 모양으로 되어있다면 1 혹은 -1과 가까운 값이 되겠다.

 

 

공분산행렬

 

Var(X), Var(Y)는 평균을 중심으로 얼마나 흩어져 있는지를 나타내고

Cov(X, Y)와 Cov(Y, X)는 X, Y의 흩어짐이 얼마나 서로 상관관계를 갖고 흩어졌는지를 나타내는데

Cov(X, Y) = Cov(Y, X)이므로 대칭행렬이 된다.

 

각 feature들의 퍼져있음이 얼마나 유사하냐(feature의 변동이 얼마나 닮았나)

 

데이터를 어떻게 linear transform하고 있는가

행렬은 선형변환으로 다른 벡터공간으로 매핑해주는데 이때

초기 상태로부터 연관성에 대한 정보가 담겨져 있는 covariance matrix로 각 데이터를 분산시켜준다고 볼 수 있다.

분산시키는 형태는 마치 특정 방향으로 잡아늘리는 모습을 하고 있다.

공분산행렬을 구할 때 $x_i$를 i번째 데이터로 보거나 i번째 feature로 보는 관점이 있다.

 

5명의 학생에 대해서 키와 몸무게의 관계를 살핀다고 하자.

 

 

1) $x_i$를 모든 특징을 갖고 있는 i번째 데이터로 볼 때

{키, 몸무게} 데이터가 5개 있다.

 

그렇다면 $x_i$의 평균벡터는 $\mu = \begin{bmatrix} 166\\ 62\end{bmatrix} $

 

첫번째 샘플 $x_1$에 대해서 관계성을 구하면 다음과 같다.

 

 

다음의 과정으로 관계성에 대해서 이야기 할 수 있다. 내적은 닮은 정도를 뜻하기에

1번째 데이터의 {키 and 키, 키 and 몸무게,  몸무게 and 키, 몸무게 and 몸무게}

관계를 나타낸 것이다.

 

 

위와 같은 과정을 샘플마다 모두 계산해서 더하고 샘플 개수로 나누어준다.

 

일반화해서 본다면 공분산행렬을 구하는 방법은 다음과 같다.

 

 

 

 

2) $x_i$를 모든 데이터에 대한 i번째 특징벡터로 볼 때

 

특징들의 편차가 얼마나 닮았나 라고 해석할 수 있겠다.

위 역시 데이터 개수로 나누어준다.

 

 

평균을 뺀 X를 $\hat{X}$라고 하면 공분산행렬을 구하는 두번째 방법은 다음과 같다.

$$\frac{1}{n}\hat{X}^T\hat{X}$$