분산부터 공분산행렬까지

분산, 공분산, 상관계수, 공분산행렬까지 개념을 살펴보자.

Variance 분산

확률변수 X가 평균으로부터 얼마나 퍼져있는가?

$$Var(X) = E[(X-\mu)^2]$$

Covariance 공분산

1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정한다.

$$Cov(X, Y) = \sigma_{XY} = E[(X-E(X))(Y-E(Y))] = E(XY) - E(X)E(Y)$$

여기서 알 수 있는 것은 단 세가지로,

$Cov(X, Y) > 0$ : X와 Y가 양의 선형관계이다
$Cov(X, Y) < 0$ : X와 Y가 음의 선형관계이다
$Cov(X, Y) = 0$ : X와 Y가 아무런 선형 상관관계를 갖지 않는다.

이때 확률 변수 X, Y가 독립이면 $Cov(X, Y) = 0$이라는 특성이 있다.

Independence -> Uncorrelatedness, 이 역은 성립하지 않는다!!

(Cov(X, Y) = 0인데 X, Y가 종속적인 경우도 존재한다는 것이다)

이때 주의할 점은 값이 크다고 더 선형성을 갖는 것은 아니다.

그냥 Covariance 값이 양수냐, 음수냐, 그도 아니냐만 보는 것이다.

이는 크기 척도가 다 제각각이기 때문에 그러하다.

그렇다면 얼마나 더 양의 선형관계, 혹은 음의 선형관계인지를 알고 싶다면 Normalize해주면 되겠다.

Correlation Coefficient 상관계수

한마디로 Normalized Covariance이다.

$$\rho _{XY} = \frac{Cov(X, Y)}{\sigma_X\sigma_Y}, -1\leq \rho _{XY}\leq 1$$

얼마나 더 양의 선형관계, 혹은 음의 선형관계인지를 알 수 있게 된다.

아래 그림은 얼마나에 대해서 잘 보여준다.

아주 조금 기울어지더라도 흩뿌려져있지 않고 선과 같은 모양으로 되어있다면 1 혹은 -1과 가까운 값이 되겠다.

공분산행렬

Var(X), Var(Y)는 평균을 중심으로 얼마나 흩어져 있는지를 나타내고

Cov(X, Y)와 Cov(Y, X)는 X, Y의 흩어짐이 얼마나 서로 상관관계를 갖고 흩어졌는지를 나타내는데

Cov(X, Y) = Cov(Y, X)이므로 대칭행렬이 된다.

각 feature들의 퍼져있음이 얼마나 유사하냐(feature의 변동이 얼마나 닮았나)

데이터를 어떻게 linear transform하고 있는가

행렬은 선형변환으로 다른 벡터공간으로 매핑해주는데 이때

초기 상태로부터 연관성에 대한 정보가 담겨져 있는 covariance matrix로 각 데이터를 분산시켜준다고 볼 수 있다.

분산시키는 형태는 마치 특정 방향으로 잡아늘리는 모습을 하고 있다.

공분산행렬을 구할 때 $x_i$를 i번째 데이터로 보거나 i번째 feature로 보는 관점이 있다.

5명의 학생에 대해서 키와 몸무게의 관계를 살핀다고 하자.

1) $x_i$를 모든 특징을 갖고 있는 i번째 데이터로 볼 때

{키, 몸무게} 데이터가 5개 있다.

그렇다면 $x_i$의 평균벡터는 $\mu = \begin{bmatrix} 166\\ 62\end{bmatrix} $

첫번째 샘플 $x_1$에 대해서 관계성을 구하면 다음과 같다.

다음의 과정으로 관계성에 대해서 이야기 할 수 있다. 내적은 닮은 정도를 뜻하기에

1번째 데이터의 {키 and 키, 키 and 몸무게, 몸무게 and 키, 몸무게 and 몸무게}

관계를 나타낸 것이다.

위와 같은 과정을 샘플마다 모두 계산해서 더하고 샘플 개수로 나누어준다.

일반화해서 본다면 공분산행렬을 구하는 방법은 다음과 같다.

2) $x_i$를 모든 데이터에 대한 i번째 특징벡터로 볼 때

특징들의 편차가 얼마나 닮았나 라고 해석할 수 있겠다.

위 역시 데이터 개수로 나누어준다.

평균을 뺀 X를 $\hat{X}$라고 하면 공분산행렬을 구하는 두번째 방법은 다음과 같다.

$$\frac{1}{n}\hat{X}^T\hat{X}$$

'딥러닝기초' 카테고리의 다른 글

[확률]조건부 확률부터 Bayes Rule과 Bayes' Theorem 정리 (0)	2022.04.23
딥러닝에서 사용하는 가우시안 분포 기초개념 (0)	2022.04.22
커널함수와 함께하는 Non linear SVM (0)	2022.04.11
선형 SVM까지 끝장보기 (0)	2022.04.09
서포트 벡터 머신(SVM) 식까지 세워보기 (0)	2022.04.07

Graduhye

분산부터 공분산행렬까지

Variance 분산

Covariance 공분산

Correlation Coefficient 상관계수

공분산행렬

1) $x_i$를 모든 특징을 갖고 있는 i번째 데이터로 볼 때

2) $x_i$를 모든 데이터에 대한 i번째 특징벡터로 볼 때

'딥러닝기초' 카테고리의 다른 글

티스토리툴바

분산부터 공분산행렬까지

Variance 분산

Covariance 공분산

Correlation Coefficient 상관계수

공분산행렬

1) $x_i$를 모든 특징을 갖고 있는 i번째 데이터로 볼 때

2) $x_i$를 모든 데이터에 대한 i번째 특징벡터로 볼 때

'딥러닝기초' 카테고리의 다른 글

'딥러닝기초' Related Articles

티스토리툴바