Article Image
Article Image
read

Definitions

  • sample: 자연의 동일한 조건 내에서 관측한 것
    • sample 1 = 1, sample 2 = 0, sample 3 = 1
  • data: sample 의 집합
    • data = {1,0,1}
  • event: sample 의 종류
    • event 1 = 1, event 2 = 0
  • event space: event 의 집합
    • event space = {1,0}
    • ~ state space
  • random variable(확률변수): 자연에서 일어나는 것들을 수학적으로 설명하기 위한 수단
    • variable: 확률변수는 각 사건을 값으로 가진다
    • function: 각 사건에 그 사건이 발생할 확률이 매핑되어 있다
    • P(X=x): X is random variable, x is an event
    • discrete random variable(이산확률변수): event 의 type 이 countable 한 경우
      • countable: finite (동전, 주사위) or countably infinite (integers)
    • continuous random variable(연속확률변수): event 의 type 이 uncountable 한 경우
      • uncountable: uncountably infinite (real number)
  • probability mass function: for discrete X, input: x, output: P(X=x)
    • $\sum_{x \in X} P(X=x) = 1$
    • P(X=x) in (0,1)
  • probability density function: for continuous X, input: x, output: P(X=x)
    • $\int_{x \in X} P(X=x) = 1$
    • P(X=x) might be > 1 if size(event space/interval) < 1
  • hypothesis: 변수 or 확률변수의 값을 가정
    • h=p
  • hypothesis testing: 가설이 참인지 검증
  • distribution(분포): 해당 확률변수의 모든 event와 그에 해당하는 확률값을 정의/요약
    • pmf, pdf 와 동일
  • parameter: distribution 의 식을 결정하는 값들
  • expectation(기댓값):
    • if X == variable, X 의 값을 이미 알고 있음
    • if X == random variable, X 의 값을 모르고 있음
      • 이때 대신에 X 의 기댓값을 알수있음
      • X 가 가지는 모든 event x * event x 가 발생할 확률
    • $E_{X\sim P} (X)$: random variable X 는 probability distribution P 를 따른다
  • mean: 해당 확률변수의 기댓값
    • $E(X) = \sum_{x \in X}{x * P(X=x)}$
  • variance: 해당 확률변수가 얼마나 퍼져있는지
    • $Var(X) = \sum_{x \in X}{(x-E(X))^2} * P(X=x)$
  • bias: 해당 확률변수의 sample mean 과 real/latent mean 이 얼마나 차이나는지 (?)
  • probabilistic == stochastic == uncertain
  • frequentist probability: p = 특정 사건의 빈도 / 모든 사건들의 빈도
    • 이미 발생한 과거의 사건들을 설명
  • bayesian probability: p = 특정 사건의 확실성 (level of certainty)
    • 앞으로 발생할 미래의 사건들을 설명
    • p=1 은 확실히 맞다, p=0 은 확실히 아니다

Properties of random variables

  • Definitions
    • A, B: random variables
    • a, b: events
  • Joint probability: P(A,B) = P(A$\cap$B) = P(A|B) * P(B) = P(B|A) * P(A)
    • B 가 발생하고 A 가 발생할 확률
    • A 가 발생하고 B 가 발생할 확률
    • event space = {A,B} (cartesian of two random variables)
    • Bayes’ Rule
  • Conditional probability: P(A|B) = P(B|A) * P(A) / P(B)
    • B 가 발생한 상황이 자연에서 새로운 조건으로 주어졌을때, A 가 발생할 확률
    • event space = {A}
  • Marginal probability: P(A) = $\sum_{b \in B} P(A, B=b) = \sum_{b\in B}P(A \vert b) * P(b)$
    • 어떤 확률변수 A 의 prior 을 모를때, 또 다른 확률변수 B 의 각 사건의 prior * 각 사건이 주어졌을때 A 가 발생할 likelihood 로 구할수 있다
    • 어떤 확률변수 A 의 prior 은 모르고 likelihood 만 아는 경우
  • independence: A and B are independent iff P(A|B) = P(A) and P(B|A) = P(B)
    • 어떤 확률변수의 분포가, 다른 확률변수/event 가 조건으로 주어진 상황에서의 분포와 동일하면 두 확률변수는 독립이다

Distributions of random variables

  • Definitions
    • p: parameter of the distribution == 가설 == 분포의 모양을 결정
  • discrete random variables: bernoulli, binomial, categorical, multinomial
    • bernoulli distribution (베르누이분포):
      • X has bernoulli distribution iff:
        • $P(X=x) = p^x * (1-p)^{1-x}$
          • $P(X=1) = p$
          • $P(X=0) = 1-p$
      • Definitions:
        • 확률변수 X: {0,1} 중에 1 이 발생할 확률 = p 인 실험을 1 번 실험 했을때, 1 이 발생하는 횟수
        • 사건 x: 1 이 발생하는 횟수
          • x $\in$ {0,1} (discrete)
        • 가설 p: {0,1} 중에 1 이 발생할 확률
          • p 이기 때문에 parameter 1개
      • Example:
        • 확률변수 X: {뒷면, 앞면} 중에 앞면이 발생할 확률 = p 인 실험을 1번 실험 했을때, 앞면이 발생하는 횟수
        • 사건 x: 앞면이 발생하는 횟수
        • 가설 p: {뒷면, 앞면} 중에 앞면이 발생할 확률
      • 특징:
        • mean = E(X) = p
        • variance = Var(X) = p(1-p)
        • special case of binomial distribution when n=1
    • binomial distribution (이항분포):
      • X has binomial distribution iff:
        • $P(X=x) = \binom{n}{x} p^x (1-p)^{n-x}$
      • Definitions:
        • 확률변수 X: {0,1} 중에 1 이 발생할 확률 = p 인 실험을 n 번 실험 했을때, 1 이 발생하는 횟수
        • 사건 x: 1 이 발생하는 횟수
          • x $\in$ {0,1,…,n} (discrete)
        • 가설 p: {0,1} 중에 1 이 발생할 확률
          • p 이기 때문에 parameter 1개
      • 특징:
        • mean = E(X) = np
        • variance = Var(X) = np(1-p)
    • categorial distribution (카테고리분포):
      • X has categorical distribution iff:
        • $P(X=x_i) = p_1^{x_1} p_2^{x_2} … p_k^{x_V}$
          • $P(X=x_i) = p_i$
      • Definitions:
        • 확률변수 X: {0,…,V} 중에 i 가 발생할 확률 = p_i 인 실험을 1 번 실험 했을때, i 가 발생하는 횟수
        • 사건 x_i: i 가 발생하는 횟수
          • x_i $\in$ {0,1} (discrete)
        • 가설 p_i: {0,…,V} 중에 i 가 발생할 확률
          • p_1, … , p_V 이기 때문에 parameter 은 V개
      • 특징:
        • NN 마지막 레이어의 softmax 값 [y1, …, yV] == [p1, …, pV]
        • x_i 가 categorical variable 이므로 mean, variance 계산하지 않는다
    • multinomial distribution (다항분포):
      • X has multinomial distribution iff:
        • $P(X=x_i) = \frac{n!}{x_1!x_2!…x_V!} p_1^{x_1} p_2^{x_2} … p_V^{x_V}$
      • Definitions:
        • 확률변수 X: {0,…,V} 중에 i 가 발생할 확률 = p_i 인 실험을 n 번 실험 했을때, i 가 발생하는 횟수
        • 사건 x_i: i 가 발생하는 횟수
          • x_i $\in$ {0,1,…,n} (discrete)
        • 가설 p_i: {0,…,V} 중에 i 가 발생할 확률
          • p_1, … , p_V 이기 때문에 parameter 은 V개
      • 특징:
        • x_i 가 categorical variable 이므로 mean, variance 계산하지 않는다
  • continuous random variables: gaussian, beta, dirichlet
    • gaussian/normal distribution (가우시안분포/정규분포):
      • X has gaussian distribution iff:
        • $P(X=x) = N(\mu, \sigma^2) = \frac{1}{\sqrt{2\pi}\sigma} \exp(-\frac{(x-\mu)^2}{2\sigma^2})$
      • Definitions:
        • 확률변수 X: 평균 = $\mu$, 표준편차 = $\sigma$ 인 실험을 1번 했을때, 발생하는 값
        • 사건 x: 발생하는 값
        • 가설 $\mu, \sigma$
      • 특징:
        • standard gaussian distribution:
          • Z has standard gaussian distribution iff:
            • $P(Z=z) = N(0, 1^2) = \frac{1}{\sqrt{2\pi}}\text{exp}(-\frac{z^2}{2})$
          • $X \sim N(\mu, \sigma^2)$ 를 정규화하면 $Z = \frac{X - \mu}{\frac{\sigma}{\sqrt{n}}} \sim N(0, 1^2)$
          • $P(a < X < b) = P(\frac{a - \mu}{\frac{\sigma}{\sqrt{n}}} < Z < \frac{b - \mu}{\frac{\sigma}{\sqrt{n}}}) = \phi(Z=\frac{b - \mu}{\frac{\sigma}{\sqrt{n}}}) - \phi(Z=\frac{a - \mu}{\frac{\sigma}{\sqrt{n}}})$
          • $\phi(Z=z)$: CDF($N(0, 1^2)$)
        • 동일한 분산을 가진 분포들 중, 정규분포는 maximum entropy 를 가짐
          • 가설 $\theta$ 를 정규분포로 설정하면, minimum prior knowledge 를 가짐

Statistics

  • Notations:
    • $X$: 모집단을 나타내는 확률변수
      • $E(X) = \mu, Var(X) = \sigma^2$ 인 “any” 분포를 따름
    • $\bar X$: 샘플의 평균을 나타내는 확률변수
      • $\frac{1}{n}\sum_{i=1}^n x_i$
      • $X$ 에서 뽑힌 n 개의 샘플의 평균
  • 1) Law of large numbers (큰 수의 법칙)
    • 정의:
      • If n » 30, then $E(\bar X) \approx E(X)$
    • 의미:
      • 모집단에서 n개의 샘플을 한번 뽑는다
      • 이때 샘플의 수가 크면, 샘플의 평균은 모집단의 평균과 비슷하다
  • 2) Central limit theorem (중심극한정리)
    • 정의:
      • if n » 30, then $\bar X \sim N(\mu, \frac{\sigma^2}{n})$
    • 의미:
      • 모집단에서 n개의 샘플을 뽑는 실험을 무한히 반복한다고 가정
      • 그러면 각 실험에서 뽑힌 n개의 샘플의 평균을 어떤 확률변수로 설정할수 있음
      • 이때 샘플의 수가 크면, 모집단이 실제로 어떤 분포를 따르냐에 상관없이, 샘플의 평균은 정규분포를 따른다
      • 결국 실제로 실험을 여러번 하지 않아도 샘플의 평균의 기댓값과 표준편차를 구할수 있다
      • 또한, 하나의 확률변수에서 n개의 샘플을 뽑는 경우 뿐만 아니라, 동일한 분포를 따르는 n개의 독립 확률변수에서 각각 샘플을 뽑는 경우에도 적용된다
  • p-value
    • 의미:
      • p: significance probability
        • null hypothesis 와 현재 hypothesis 의 겹치는 정도
      • a: significance level
        • a $\in$ (0,1)
    • p < a: null hypothesis 기각
    • p > a: null hypothesis 기각 불가

MLE vs MAP

  • Definitions:
    • h: hypothesis
    • D: evidence, data, samples
    • P(D|h): likelihood (가설이 주어졌을 때 데이터의 분포)
    • P(h): prior (데이터를 관측하기 전 가설의 분포)
    • P(h|D): posterior (데이터를 관측한 후 가설의 분포)
    • conjugate prior:
      • 정의: given P(D|h), conjugate prior = P(h) s.t. P(h) $\sim$ P(h|D)
        • P(D|h) 의 분포가 주어졌을때, P(h) 의 분포와 P(h|D) 의 분포가 같은 종류가 되도록 만들어주는 P(h) 의 분포
      • 의미: MAP 에서 P(h|D) 를 구할수 있도록 함
      • uninformative prior: 가설에 대한 사전지식을 최대한 배제하기 위해 prior 을 uniform distribution 으로 만들어주는 것
      • 종류:
        • given P(D|h) ~ binomial:
          • prior P(h) ~ Beta($\alpha, \beta$)
            • $\alpha, \beta \in R$
              • 1의 횟수에 대한 사전지식: $\alpha-1$
              • 0의 횟수에 대한 사전지식: $\beta-1$
            • uninformative prior: $\alpha=1, \beta=1$
              • 1의 횟수, 0의 횟수에 대한 사전지식을 0 으로 설정
            • E(h) = $\frac{\alpha}{\alpha+\beta}$
          • posterior P(h|D) ~ Beta($\alpha+x, \beta+n-x$)
          • x: {0,1} 중 1이 발생한 실험 횟수
            • n: 전체 실험 횟수
            • E(h|D) = $\frac{\alpha + x}{\alpha + x + \beta + n - x} = \frac{\alpha + x}{\alpha + \beta + n}$
          • h = E(h|D)
        • given P(D|h) ~ multinomial:
          • prior P(h) ~ Dirichlet($\alpha$)
            • $\alpha \in R^V$
              • class i 에 대한 사전지식: $\alpha_{i}-1$
            • uninformative prior: $\alpha = [1]^V$
              • 각 class 에 대한 사전지식을 0 으로 설정
            • E(h_i) = $\frac{\alpha_i}{\sum_{k=1}^{V} a_k}$
          • posterior P(h|D) ~ Dirichlet($\alpha + x$)
            • $x = [x_1, …, x_V]$
            • E(h_i | D) = $\frac{\alpha_{i} + x_i}{\sum_{k=1}^{V} a_k + x_k}$
          • h_i = E(h_i|D)
  • MLE / MAP: 가설을 찾는/검증하는 방법
  • MLE(maximum likelihood estimate):
    • 정의:
      • $\arg \max_{h}P(D \vert h)$
      • 데이터의 likelihood 를 maximize 하는 가설 찾기
    • 의미:
      • 가설을 찾으려고 할때 주어진 데이터에서만 정보를 얻음
      • 가설을 확률변수로 보지 않고 deterministic 한 일반변수로 봄
      • 즉, P(h) 라는 것은 존재하지 않는다고 가정
    • 장점:
      • 가설에 대한 사전지식(일종의 선입견) 을 배제하고 오로지 데이터에서만 정보를 얻기 때문에 객관적이라고 할수 있음
    • 단점:
      • 가설에 대한 obvious 사전지식이 있는 경우, 정보를 다 활용하지 못하는 것임
      • 데이터가 엄청 적은 경우, 말이 안되는(?) 가설을 얻을수 있음
        • ex. 동전을 1번 던져서 앞면이 나온걸 보고 앞면이 나올 확률 = 1 인 가설을 선택하는것
    • in ML:
      • 각 iteration 의 $\theta$ 가 주어졌을 때, 여기서 데이터 (X,Y) 가 나왔을 확률 (X 를 각 iteration 의 $\theta$ 의 입력으로 넣었을 때 Y 가 출력될 확률)을 maximize 하는 $\theta$ 를 찾는것
  • MAP(maximum a posteriori):
    • 정의:
      • $\arg \max_{h} P(h \vert D) \propto P(D \vert h) * P(h)$
      • 가설의 posterior 을 maximize 하는 가설 찾기
    • 의미:
      • 가설을 찾으려고 할때 주어진 데이터와 가설에 대한 사전지식에서 정보를 얻음
      • 가설을 확률변수로 보는 것
      • 즉, P(h) 가 존재한다고 가정 (h 를 컨트롤 하는 $\alpha, \beta$ 가 또 있다)
    • 장점:
      • 가설에 대한 obvious 사전지식이 있는 경우, 이 정보를 활용할수 있음
      • 데이터가 엄청 적은 경우, 사전지식을 활용해 적은 데이터의 영향력을 mitigate 할수 있음
        • ex. $\alpha=10, \beta=10$ 으로 설정하면, 동전을 1번 던져서 앞면이 나온걸 보고 앞면이 나올 확률 = ($\alpha + 1$이 나온 실험 횟수) / ($\alpha+\beta+$ 총 실험 횟수) = $(10 + 1)/(10+10+1) = 11/21$
    • 단점:
      • 가설에 대한 사전지식(일종의 선입견) 이 잘못되면 잘못된 가설을 찾게될 수 있음
    • in ML:
      • 데이터 (X,Y) 가 주어졌을때, 여기서 가설 $\theta$ 이 맞을 확률을 maximize 하는 $\theta$ 를 찾는 것 ~ 각 가설 $\theta$ 가 발생할 확률 * 각 가설 $\theta$ 가 주어졌을 때 여기서 데이터 (X,Y) 가 나왔을 확률
      • weight regularization
  • example: 동전 던지기
    • “앞면이 나올 확률이 p 인 동전을 100번 던졌는데 60번 앞면이 나왔다. 이때 p 를 구하시오.”
    • 1) D, h 설정
      • D: 동전을 n 번 던졌을 때 x 번 앞면이 나오는 횟수
        • n: 100
        • x: 60
      • h: p
      • P(D|h) ~ binomial = $\binom{100}{60}h^{60} * (1-h)^{40}$
    • 2) MLE: $\arg \max_{h} P(D \vert h)$
      • $\frac{d}{dh}P(D \vert h) = 0$ 이 되는 $h$
      • 식을 풀면 $h = \frac{x}{n} = \frac{60}{100}$
    • 3) MAP: $\arg \max_{h}P(h|D) \propto P(D|h) * P(h)$
      • uninformative prior: $\alpha=1, \beta=1$
      • $P(h)\sim beta(1,1)$
      • 식을 풀면 $h = E(h \vert D) = \frac{\alpha+x}{\alpha+\beta+n} = \frac{1+60}{1+1+100} = \frac{61}{102}$
Blog Logo

Min Lee


Published

Image

Min's

thoughts, notes

Back to Overview