본문 바로가기

딥러닝기초

(17)
Conv1D의 기본적인 input과 output
Logistic Regression과 비용함수 알아보기 명칭은 Logistic Regression이지만 사실은 Linear regression 문제를 확장하여 최종 목적은 Classification 하기 위함이다! Binary Classification 문제에서, 어떤 대학 과목이 Pass/Fail로 학점을 줄 때 Pass면 1, Fail이면 0으로 나타낼 수 있을 것이다. 출석, 과제 등과 같은 feature, (온라인 강의니까 널널하게 pass를 주겠다와 같은)교수님의 bias까지 모두 고려하여 합한다. ( $\theta^Tx$ ) 시그모이드 함수를 거쳐 $\theta^Tx$이 무엇이 나오던지 0과 1 사이 값으로 바꾼다. 다른 시각으로는 1이 될 확률로 볼 수 있겠다. ( $\sigma(\theta^Tx)$ ) 보통은 0.5 이상이면 P, 그 이하면 F..
[선형대수]역행렬, 행렬식, 고유벡터 역행렬부터 시작하자. $n \times n$ 행렬 A의 역행렬 $A^{-1}$을 정의하면 $$A^{-1}A = AA^{-1} = I$$ 역행렬은 언제 존재하는가? $A^{-1}$ exists $\Leftrightarrow Ax \neq 0$ for all $x \neq 0 \Leftrightarrow N(A) = 0$ Nullspace $N(A) = \left\{x|Ax = 0\right\}$ A에 x를 곱했을 때 0으로 보내는 x들의 집합 즉, 역행렬이 존재하는 조건은 A에 x를 곱했을 때 0으로 보내는 x vector가 영벡터 뿐일 때를 뜻한다. A의 역행렬이 존재한다는 말은 곧 A가 invertible하다, A가 non-singular하다와 동치이다. 반대로 A의 역행렬이 존재하지 않는다는 말은 곧..
[Density Estimation]GMM(Gaussian Mixture Model)과 EM 알고리즘 Parametic Methods(단순한 분포를 가정하고 유한한 파라미터를 구하자) ML(Maximum Likelihood) Estimation MAP(Maximum A Posteriori) Estimation Non-Parametic Methods(복잡한 분포를 가정하자) 파젠창(Parzen Window) K-Nearest Neighbor Estimation (Parametric Methods + Non Parametic Methods)단순한 분포를 여러개 사용하자! Mixture Models 두 개 이상의 서로 다른 확률 분포의 혼합으로 데이터의 확률 분포를 모델링하자. (b)와 같이 하나의 단순 분포로 나타내기에는 아무래도 무리가 있다. 그래서 (c)와 같이 두 개의 단순 분포를 혼합해서 사용하는 것..
[Density Estimation]K-Nearest Neighbors Estimation과 Classification Parametic Methods(단순한 분포를 가정하고 유한한 파라미터를 구하자) ML(Maximum Likelihood) Estimation MAP(Maximum A Posteriori) Estimation Non-Parametic Methods(복잡한 분포를 가정하자) 파젠창(Parzen Window) K-Nearest Neighbor Estimation K-Nearest Neighbors Estimation 파젠창에서는 h가 고정이고 그 안에 샘플 수 k는 가변적이었다. 이번에는 반대로 샘플 수 k가 고정, h가 변동되는 값이된다. 샘플의 위치 x를 중심으로 창을 씌우고 k개 샘플이 안에 들어올 때까지 h를 확장해나간다. $$P_k(x) = \frac{1}{h(x)^d}\frac{k}{n}$$ $k..
[Density Estimation]파젠창(KDE)으로 파라미터 추정 Parametic Methods(단순한 분포를 가정하고 유한한 파라미터를 구하자) ML(Maximum Likelihood) Estimation MAP(Maximum A Posteriori) Estimation Non-Parametic Methods(복잡한 분포를 가정하자) 파젠창(Parzen Window) K-Nearest Neighbor Estimation 데이터의 분포가 유한한 파라미터로 가정할 수 없는 경우를 다뤄본다. 어떠한 사전 정보나 지식 없이 순수하게 관측된 데이터만으로 확률밀도함수를 추정한다. Histogram 시험을 봐서 성적을 [0, 100]까지 나타낸다고 하자. 이때 점수 분포를 5점마다, 10점마다 나타낼 수 있겠다. 그러나 그렇게 되면 bin의 크기마다 데이터의 분포가 달라지게 된..
[Density Estimation]ML과 MAP로 파라미터 추정 Density Estimation 밀도추정이란, 어떤 점 x에서 데이터가 발생할 확률, 즉 확률분포 $P(x)$를 구하는 문제이다. 예를들어 현재와 같은 분포에서는 $P(x_1)>P(x_2)>P(x_3)$이겠다. $x_1$쪽에는 밀집된만큼, 발생할만하고 $x_3$쪽에는 전혀 없어 발생가능성이 현저히 적다. 분포를 어떻게 구하냐에 따라서 다음과 같이 나뉜다. Parametic Methods(단순한 분포를 가정하고 유한한 파라미터를 구하자) ML(Maximum Likelihood) Estimation MAP(Maximum A Posteriori) Estimation Non-Parametic Methods(복잡한 분포를 가정하자) Parametic Methods 우리는 평균과 분산값 이렇게 두 가지만 있으면 ..
[확률]조건부 확률부터 Bayes Rule과 Bayes' Theorem 정리 조건부확률 A라는 사건이 일어났을 때 B가 일어날 확률 $$P(B|A) = \frac{P(A\cap B)}{P(A)}$$ Bayes' Rule $P(A\cap B) = P(A|B)P(B) = P(B|A)P(A)$ 이므로 $$P(A|B) = \frac{P(B|A)P(A)}{P(B)}$$ Bayes' Theorem $A_1$ ~ $A_n$사건이 $S$의 partition이라고 한다면 모든 i, j에 대해서 $A_i \cap A_j = \varnothing$ : mutually exclusive(disjoint) $A_1 \cup \cdots \cup A_n = S$를 만족한다. B 사건을 S에서 일어난 사건이라고 하자. 그렇다면 P(B)를 다음을 통해 구할 수 있겠다. $P(B) = \sum_{i=1}^n ..