Article Image
Article Image
read
Definitions
- sample: 자연의 동일한 조건 내에서 관측한 것
- sample 1 = 1, sample 2 = 0, sample 3 = 1
- data: sample 의 집합
- data = {1,0,1}
- event: sample 의 종류
- event 1 = 1, event 2 = 0
- event space: event 의 집합
- event space = {1,0}
- ~ state space
- random variable(확률변수): 자연에서 일어나는 것들을 수학적으로 설명하기 위한 수단
- variable: 확률변수는 각 사건을 값으로 가진다
- function: 각 사건에 그 사건이 발생할 확률이 매핑되어 있다
- P(X=x): X is random variable, x is an event
- discrete random variable(이산확률변수): event 의 type 이 countable 한 경우
- countable: finite (동전, 주사위) or countably infinite (integers)
- continuous random variable(연속확률변수): event 의 type 이 uncountable 한 경우
- uncountable: uncountably infinite (real number)
- probability mass function: for discrete X, input: x, output: P(X=x)
- $\sum_{x \in X} P(X=x) = 1$
- P(X=x) in (0,1)
- probability density function: for continuous X, input: x, output: P(X=x)
- $\int_{x \in X} P(X=x) = 1$
- P(X=x) might be > 1 if size(event space/interval) < 1
- hypothesis: 변수 or 확률변수의 값을 가정
- h=p
- hypothesis testing: 가설이 참인지 검증
- distribution(분포): 해당 확률변수의 모든 event와 그에 해당하는 확률값을 정의/요약
- pmf, pdf 와 동일
- parameter: distribution 의 식을 결정하는 값들
- expectation(기댓값):
- if X == variable, X 의 값을 이미 알고 있음
- if X == random variable, X 의 값을 모르고 있음
- 이때 대신에 X 의 기댓값을 알수있음
- X 가 가지는 모든 event x * event x 가 발생할 확률
- $E_{X\sim P} (X)$: random variable X 는 probability distribution P 를 따른다
- mean: 해당 확률변수의 기댓값
- $E(X) = \sum_{x \in X}{x * P(X=x)}$
- variance: 해당 확률변수가 얼마나 퍼져있는지
- $Var(X) = \sum_{x \in X}{(x-E(X))^2} * P(X=x)$
- bias: 해당 확률변수의 sample mean 과 real/latent mean 이 얼마나 차이나는지 (?)
- probabilistic == stochastic == uncertain
- frequentist probability: p = 특정 사건의 빈도 / 모든 사건들의 빈도
- 이미 발생한 과거의 사건들을 설명
- bayesian probability: p = 특정 사건의 확실성 (level of certainty)
- 앞으로 발생할 미래의 사건들을 설명
- p=1 은 확실히 맞다, p=0 은 확실히 아니다
Properties of random variables
- Definitions
- A, B: random variables
- a, b: events
- Joint probability: P(A,B) = P(A$\cap$B) = P(A|B) * P(B) = P(B|A) * P(A)
- B 가 발생하고 A 가 발생할 확률
- A 가 발생하고 B 가 발생할 확률
- event space = {A,B} (cartesian of two random variables)
- Bayes’ Rule
- Conditional probability: P(A|B) = P(B|A) * P(A) / P(B)
- B 가 발생한 상황이 자연에서 새로운 조건으로 주어졌을때, A 가 발생할 확률
- event space = {A}
- Marginal probability: P(A) = $\sum_{b \in B} P(A, B=b) = \sum_{b\in B}P(A \vert b) * P(b)$
- 어떤 확률변수 A 의 prior 을 모를때, 또 다른 확률변수 B 의 각 사건의 prior * 각 사건이 주어졌을때 A 가 발생할 likelihood 로 구할수 있다
- 어떤 확률변수 A 의 prior 은 모르고 likelihood 만 아는 경우
- independence: A and B are independent iff P(A|B) = P(A) and P(B|A) = P(B)
- 어떤 확률변수의 분포가, 다른 확률변수/event 가 조건으로 주어진 상황에서의 분포와 동일하면 두 확률변수는 독립이다
Distributions of random variables
- Definitions
- p: parameter of the distribution == 가설 == 분포의 모양을 결정
- discrete random variables: bernoulli, binomial, categorical, multinomial
- bernoulli distribution (베르누이분포):
- X has bernoulli distribution iff:
- $P(X=x) = p^x * (1-p)^{1-x}$
- $P(X=1) = p$
- $P(X=0) = 1-p$
- $P(X=x) = p^x * (1-p)^{1-x}$
- Definitions:
- 확률변수 X: {0,1} 중에 1 이 발생할 확률 = p 인 실험을 1 번 실험 했을때, 1 이 발생하는 횟수
- 사건 x: 1 이 발생하는 횟수
- x $\in$ {0,1} (discrete)
- 가설 p: {0,1} 중에 1 이 발생할 확률
- p 이기 때문에 parameter 1개
- Example:
- 확률변수 X: {뒷면, 앞면} 중에 앞면이 발생할 확률 = p 인 실험을 1번 실험 했을때, 앞면이 발생하는 횟수
- 사건 x: 앞면이 발생하는 횟수
- 가설 p: {뒷면, 앞면} 중에 앞면이 발생할 확률
- 특징:
- mean = E(X) = p
- variance = Var(X) = p(1-p)
- special case of binomial distribution when n=1
- X has bernoulli distribution iff:
- binomial distribution (이항분포):
- X has binomial distribution iff:
- $P(X=x) = \binom{n}{x} p^x (1-p)^{n-x}$
- Definitions:
- 확률변수 X: {0,1} 중에 1 이 발생할 확률 = p 인 실험을 n 번 실험 했을때, 1 이 발생하는 횟수
- 사건 x: 1 이 발생하는 횟수
- x $\in$ {0,1,…,n} (discrete)
- 가설 p: {0,1} 중에 1 이 발생할 확률
- p 이기 때문에 parameter 1개
- 특징:
- mean = E(X) = np
- variance = Var(X) = np(1-p)
- X has binomial distribution iff:
- categorial distribution (카테고리분포):
- X has categorical distribution iff:
- $P(X=x_i) = p_1^{x_1} p_2^{x_2} … p_k^{x_V}$
- $P(X=x_i) = p_i$
- $P(X=x_i) = p_1^{x_1} p_2^{x_2} … p_k^{x_V}$
- Definitions:
- 확률변수 X: {0,…,V} 중에 i 가 발생할 확률 = p_i 인 실험을 1 번 실험 했을때, i 가 발생하는 횟수
- 사건 x_i: i 가 발생하는 횟수
- x_i $\in$ {0,1} (discrete)
- 가설 p_i: {0,…,V} 중에 i 가 발생할 확률
- p_1, … , p_V 이기 때문에 parameter 은 V개
- 특징:
- NN 마지막 레이어의 softmax 값 [y1, …, yV] == [p1, …, pV]
- x_i 가 categorical variable 이므로 mean, variance 계산하지 않는다
- X has categorical distribution iff:
- multinomial distribution (다항분포):
- X has multinomial distribution iff:
- $P(X=x_i) = \frac{n!}{x_1!x_2!…x_V!} p_1^{x_1} p_2^{x_2} … p_V^{x_V}$
- Definitions:
- 확률변수 X: {0,…,V} 중에 i 가 발생할 확률 = p_i 인 실험을 n 번 실험 했을때, i 가 발생하는 횟수
- 사건 x_i: i 가 발생하는 횟수
- x_i $\in$ {0,1,…,n} (discrete)
- 가설 p_i: {0,…,V} 중에 i 가 발생할 확률
- p_1, … , p_V 이기 때문에 parameter 은 V개
- 특징:
- x_i 가 categorical variable 이므로 mean, variance 계산하지 않는다
- X has multinomial distribution iff:
- bernoulli distribution (베르누이분포):
- continuous random variables: gaussian, beta, dirichlet
- gaussian/normal distribution (가우시안분포/정규분포):
- X has gaussian distribution iff:
- $P(X=x) = N(\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2})$
- Definitions:
- 확률변수 X: 평균 = $\mu$, 표준편차 = $\sigma$ 인 실험을 1번 했을때, 발생하는 값
- 사건 x: 발생하는 값
- 가설 $\mu, \sigma$
- 특징:
- standard gaussian distribution:
- Z has standard gaussian distribution iff:
- $P(Z=z) = N(0, 1^2) = \frac{1}{\sqrt{2\pi}}\text{exp}(-\frac{z^2}{2})$
- $X \sim N(\mu, \sigma^2)$ 를 정규화하면 $Z = \frac{X - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1^2)$
- $P(a < X < b) = P(\frac{a - \mu}{\frac{\sigma}{\sqrt{n}}} < Z < \frac{b - \mu}{\frac{\sigma}{\sqrt{n}}}) = \phi(Z=\frac{b - \mu}{\frac{\sigma}{\sqrt{n}}}) - \phi(Z=\frac{a - \mu}{\frac{\sigma}{\sqrt{n}}})$
- $\phi(Z=z)$: CDF($N(0, 1^2)$)
- Z has standard gaussian distribution iff:
- 동일한 분산을 가진 분포들 중, 정규분포는 maximum entropy 를 가짐
- 가설 $\theta$ 를 정규분포로 설정하면, minimum prior knowledge 를 가짐
- standard gaussian distribution:
- X has gaussian distribution iff:
- gaussian/normal distribution (가우시안분포/정규분포):
Statistics
- Notations:
- $X$: 모집단을 나타내는 확률변수
- $E(X) = \mu, Var(X) = \sigma^2$ 인 “any” 분포를 따름
- $\bar X$: 샘플의 평균을 나타내는 확률변수
- $\frac{1}{n}\sum_{i=1}^n x_i$
- $X$ 에서 뽑힌 n 개의 샘플의 평균
- $X$: 모집단을 나타내는 확률변수
- 1) Law of large numbers (큰 수의 법칙)
- 정의:
- If n » 30, then $E(\bar X) \approx E(X)$
- 의미:
- 모집단에서 n개의 샘플을 한번 뽑는다
- 이때 샘플의 수가 크면, 샘플의 평균은 모집단의 평균과 비슷하다
- 정의:
- 2) Central limit theorem (중심극한정리)
- 정의:
- if n » 30, then $\bar X \sim N(\mu, \frac{\sigma^2}{n})$
- 의미:
- 모집단에서 n개의 샘플을 뽑는 실험을 무한히 반복한다고 가정
- 그러면 각 실험에서 뽑힌 n개의 샘플의 평균을 어떤 확률변수로 설정할수 있음
- 이때 샘플의 수가 크면, 모집단이 실제로 어떤 분포를 따르냐에 상관없이, 샘플의 평균은 정규분포를 따른다
- 결국 실제로 실험을 여러번 하지 않아도 샘플의 평균의 기댓값과 표준편차를 구할수 있다
- 또한, 하나의 확률변수에서 n개의 샘플을 뽑는 경우 뿐만 아니라, 동일한 분포를 따르는 n개의 독립 확률변수에서 각각 샘플을 뽑는 경우에도 적용된다
- 정의:
- p-value
- 의미:
- p: significance probability
- null hypothesis 와 현재 hypothesis 의 겹치는 정도
- a: significance level
- a $\in$ (0,1)
- p: significance probability
- p < a: null hypothesis 기각
- p > a: null hypothesis 기각 불가
- 의미:
MLE vs MAP
- Definitions:
- h: hypothesis
- D: evidence, data, samples
- P(D|h): likelihood (가설이 주어졌을 때 데이터의 분포)
- P(h): prior (데이터를 관측하기 전 가설의 분포)
- P(h|D): posterior (데이터를 관측한 후 가설의 분포)
- conjugate prior:
- 정의: given P(D|h), conjugate prior = P(h) s.t. P(h) $\sim$ P(h|D)
- P(D|h) 의 분포가 주어졌을때, P(h) 의 분포와 P(h|D) 의 분포가 같은 종류가 되도록 만들어주는 P(h) 의 분포
- 의미: MAP 에서 P(h|D) 를 구할수 있도록 함
- uninformative prior: 가설에 대한 사전지식을 최대한 배제하기 위해 prior 을 uniform distribution 으로 만들어주는 것
- 종류:
- given P(D|h) ~ binomial:
- prior P(h) ~ Beta($\alpha, \beta$)
- $\alpha, \beta \in R$
- 1의 횟수에 대한 사전지식: $\alpha-1$
- 0의 횟수에 대한 사전지식: $\beta-1$
- uninformative prior: $\alpha=1, \beta=1$
- 1의 횟수, 0의 횟수에 대한 사전지식을 0 으로 설정
- E(h) = $\frac{\alpha}{\alpha+\beta}$
- $\alpha, \beta \in R$
- posterior P(h|D) ~ Beta($\alpha+x, \beta+n-x$)
- x: {0,1} 중 1이 발생한 실험 횟수
- n: 전체 실험 횟수
- E(h|D) = $\frac{\alpha + x}{\alpha + x + \beta + n - x} = \frac{\alpha + x}{\alpha + \beta + n}$
- h = E(h|D)
- prior P(h) ~ Beta($\alpha, \beta$)
- given P(D|h) ~ multinomial:
- prior P(h) ~ Dirichlet($\alpha$)
- $\alpha \in R^V$
- class i 에 대한 사전지식: $\alpha_{i}-1$
- uninformative prior: $\alpha = [1]^V$
- 각 class 에 대한 사전지식을 0 으로 설정
- E(h_i) = $\frac{\alpha_i}{\sum_{k=1}^{V} a_k}$
- $\alpha \in R^V$
- posterior P(h|D) ~ Dirichlet($\alpha + x$)
- $x = [x_1, …, x_V]$
- E(h_i | D) = $\frac{\alpha_{i} + x_i}{\sum_{k=1}^{V} a_k + x_k}$
- h_i = E(h_i|D)
- prior P(h) ~ Dirichlet($\alpha$)
- given P(D|h) ~ binomial:
- 정의: given P(D|h), conjugate prior = P(h) s.t. P(h) $\sim$ P(h|D)
- MLE / MAP: 가설을 찾는/검증하는 방법
- MLE(maximum likelihood estimate):
- 정의:
- $\arg \max_{h}P(D \vert h)$
- 데이터의 likelihood 를 maximize 하는 가설 찾기
- 의미:
- 가설을 찾으려고 할때 주어진 데이터에서만 정보를 얻음
- 가설을 확률변수로 보지 않고 deterministic 한 일반변수로 봄
- 즉, P(h) 라는 것은 존재하지 않는다고 가정
- 장점:
- 가설에 대한 사전지식(일종의 선입견) 을 배제하고 오로지 데이터에서만 정보를 얻기 때문에 객관적이라고 할수 있음
- 단점:
- 가설에 대한 obvious 사전지식이 있는 경우, 정보를 다 활용하지 못하는 것임
- 데이터가 엄청 적은 경우, 말이 안되는(?) 가설을 얻을수 있음
- ex. 동전을 1번 던져서 앞면이 나온걸 보고 앞면이 나올 확률 = 1 인 가설을 선택하는것
- in ML:
- 각 iteration 의 $\theta$ 가 주어졌을 때, 여기서 데이터 (X,Y) 가 나왔을 확률 (X 를 각 iteration 의 $\theta$ 의 입력으로 넣었을 때 Y 가 출력될 확률)을 maximize 하는 $\theta$ 를 찾는것
- 정의:
- MAP(maximum a posteriori):
- 정의:
- $\arg \max_{h} P(h \vert D) \propto P(D \vert h) * P(h)$
- 가설의 posterior 을 maximize 하는 가설 찾기
- 의미:
- 가설을 찾으려고 할때 주어진 데이터와 가설에 대한 사전지식에서 정보를 얻음
- 가설을 확률변수로 보는 것
- 즉, P(h) 가 존재한다고 가정 (h 를 컨트롤 하는 $\alpha, \beta$ 가 또 있다)
- 장점:
- 가설에 대한 obvious 사전지식이 있는 경우, 이 정보를 활용할수 있음
- 데이터가 엄청 적은 경우, 사전지식을 활용해 적은 데이터의 영향력을 mitigate 할수 있음
- ex. $\alpha=10, \beta=10$ 으로 설정하면, 동전을 1번 던져서 앞면이 나온걸 보고 앞면이 나올 확률 = ($\alpha + 1$이 나온 실험 횟수) / ($\alpha+\beta+$ 총 실험 횟수) = $(10 + 1)/(10+10+1) = 11/21$
- 단점:
- 가설에 대한 사전지식(일종의 선입견) 이 잘못되면 잘못된 가설을 찾게될 수 있음
- in ML:
- 데이터 (X,Y) 가 주어졌을때, 여기서 가설 $\theta$ 이 맞을 확률을 maximize 하는 $\theta$ 를 찾는 것 ~ 각 가설 $\theta$ 가 발생할 확률 * 각 가설 $\theta$ 가 주어졌을 때 여기서 데이터 (X,Y) 가 나왔을 확률
- weight regularization
- 정의:
- example: 동전 던지기
- “앞면이 나올 확률이 p 인 동전을 100번 던졌는데 60번 앞면이 나왔다. 이때 p 를 구하시오.”
- 1) D, h 설정
- D: 동전을 n 번 던졌을 때 x 번 앞면이 나오는 횟수
- n: 100
- x: 60
- h: p
- P(D|h) ~ binomial = $\binom{100}{60}h^{60} * (1-h)^{40}$
- D: 동전을 n 번 던졌을 때 x 번 앞면이 나오는 횟수
- 2) MLE: $\arg \max_{h} P(D \vert h)$
- $\frac{d}{dh}P(D \vert h) = 0$ 이 되는 $h$
- 식을 풀면 $h = \frac{x}{n} = \frac{60}{100}$
- 3) MAP: $\arg \max_{h}P(h|D) \propto P(D|h) * P(h)$
- uninformative prior: $\alpha=1, \beta=1$
- $P(h)\sim beta(1,1)$
- 식을 풀면 $h = E(h \vert D) = \frac{\alpha+x}{\alpha+\beta+n} = \frac{1+60}{1+1+100} = \frac{61}{102}$