Article Image
Article Image
read

최근 몇달간 확률이론을 공부하면서 MLE(maximum likelihood estimation) 와 MAP(maximum a posteriori) 의 개념을 접했다. 이 두 개념을 아는 것이 ML 연구자가 되기 위해 필수적이라는 것을 네이버 인턴십을 진행하면서 처음 알았다. 용인외고 국제반에는 “확률과 통계” 수업이 없었고, 대학교에서도 Bayes’ Rule 을 외우고 중간고사에서 한 문제 풀어본 정도였다. 이때까지 나에게 확률이란 “주사위를 던져서 6이 나올 확률”을 알아내는 정도의, 이미 일어난 각 사건들을 tallying 하는 행위 밖에 의미하지 않았다. 확률이 이렇게 과거를 설명하는 것이 아닌, 미래를 예측하는 것이라는 관점은 받아들이기 힘들었다.

MLE 와 MAP 를 설명하는 글을 대략 20개 버전으로 읽어본것 같은데, 하도 읽어서 정의를 거의 외우다시피 했지만 본질적으로 그 둘이 무엇인지는 마음에 와닿지 않았다. 그 달달 외운 정의라 하면, MLE 는 “가설을 검증할 때 데이터만 사용하는 것“, MAP 는 “가설을 검증할 때 데이터와 가설 자체에 대한 사전지식을 사용하는 것” 이다. 정의를 이렇게 정리하고 나면 생각보다 간단해 보이지만, 이것이 실제로 어떤 의미를 갖는지를 이해하게 된 순간은 예상치 못한 곳에 있었다. 바로 MBTI 이다.

작년 정도부터 한국에 MBTI 열풍이 불었다. MBTI 의 4가지 성격요소 중 하나는 {P,J} 이다. P 는 Perceiving, J 는 Judging 의 줄임말이라 한다. 사실 나머지 성격요소들인 {I,E} (내향과 외향), {S,N} (감각과 직관), {T,F} (이성과 감성) 은 대충 그 차이가 와닿지만, 유일하게 P와 J가 정확히 무슨 말인지를 제대로 이해 못하고 있었다. 곰곰히 생각해보니 P 유형은 MLE 로 세상을 바라보는 사람, J 유형은 MAP 로 세상을 바라보는 사람이라는 나만의 결론이 만들어졌다.

인간에게 외부 세상은 “데이터” 이고, 내부의 생각은 일종의 “가설” 이다. 우리는 매일 살아가면서 세상에서 새로운 정보를 입력받고, 그 정보들에게 어떤 식으로든 영향을 받아 머릿속에 개인의 생각과 가치관들을 채워나간다. 그 “데이터”가 개인의 “가설”에 정확히 어떤 절차로 영향을 주는지의 차이가, 수학적으로는 MLE 와 MAP 로 설명되고 심리적으로는 P 와 J 로 설명되는 듯 하다.

P 성향의 사람은 세상을 perceiving 한다. 눈앞에 어떤 상황이 발생했을때 그것을 “인식” 한다, 즉 있는 그대로 인지하고 받아들인다는 것이다. 예를 들어, 나는 남자친구가 나를 얼마나 사랑하는지 알고싶다. 이때 가설(h) 는 다음과 같은 형태를 가질 수 있다.

\[h : = \text{남자친구가 나를 사랑할 확률} \in (0,1)\]

이때 나의 남자친구는 사랑의 표현으로 꽃을 선물하는 사람이라고 가정하자. 이러한 남자친구와 사귄지 3일째, 그는 첫째날 꽃을 선물하고, 둘째날과 셋째날에는 꽃을 선물하지 않았다. 그렇다면 내가 P 유형의 사람일 경우, 각 날에 남자친구가 나를 사랑할 확률을 다음과 같이 MLE 로 구할수 있다. (증명은 확률이론의 이항분포 참조)

\[h_1 = \frac{\text{현재까지 꽃을 선물한 날}}{\text{현재까지 모든 날}} = \frac{1}{1} = 1\] \[h_2 = \frac{\text{현재까지 꽃을 선물한 날}}{\text{현재까지 모든 날}} = \frac{1}{2} = 0.5\] \[h_3 = \frac{\text{현재까지 꽃을 선물한 날}}{\text{현재까지 모든 날}} = \frac{1}{3} = 0.33\]

결국 P 유형은 사흘에 걸쳐 “남자친구가 나를 얼마나 사랑하는지” 의 정도가 $1 \rightarrow 0.5 \rightarrow 0.33$ 으로 줄어들었다. 처음에 나를 사랑한다는 확신에 찼던 사람이, 사흘만에 날 사랑하지 않는다고 친구들에게 툴툴거리는 경우이다. 이러한 이유로 P 유형의 사람들은 작은 일에 민감하고 변덕적인 사람처럼 보일 것이다.

반면 J 성향의 사람은 세상을 judging 한다. 눈앞에 어떤 상황이 발생했을 때 그것을 “판단” 한다, 즉 내가 이미 알고있는 것에 빗대어 이 상황이 얼마나 말이 되는지를 계산해보는 것이다. 위의 P 와 달라진 유일한 점은 내가 이미 가설에 대해 알고있는 것 (혹은 알고 있다고 믿는 것) 을 사용하는 것이다.

위의 남자친구 예시에 MAP 를 적용하려면 $\alpha$ 와 $\beta$ 를 정해야 한다. 이는 가설에 대해 사전에 믿고 있는 것을 나타낸다. $\alpha$ 는 남자친구가 나를 사랑한다고 사전에 믿는 정도, $\beta$ 는 남자친구가 나를 안 사랑한다고 사전에 믿는 정도로 해석될수 있다. 내가 콩깍지가 씌여 있어서 $\alpha = 10$, $\beta = 4$ 정도라고 생각했다고 하자. 그렇다면 내가 J 유형의 사람일 경우, 각 날에 남자친구가 나를 사랑할 확률을 다음과 같이 MAP 로 구할수 있다. (증명은 확률이론의 이항분포, 베타분포 참조)

\[h_1 = \frac{(\alpha + \text{현재까지 꽃을 선물한 날})}{(\alpha + \beta + \text{현재까지 모든 날})} = \frac{(10 + 1)}{(10+4+1)} = \frac{11}{15} = 0.73\] \[h_2 = \frac{(\alpha + \text{현재까지 꽃을 선물한 날})}{(\alpha + \beta + \text{현재까지 모든 날})}= \frac{(10 + 1)}{(10+4+2)} = \frac{11}{16} = 0.69\] \[h_3 = \frac{(\alpha + \text{현재까지 꽃을 선물한 날})}{(\alpha + \beta + \text{현재까지 모든 날})} = \frac{(10 + 1)}{(10+4+3)} = \frac{11}{17} = 0.65\]

결국 J 유형은 사흘에 걸쳐 “남자친구가 나를 얼마나 사랑하는지” 의 정도가 $0.73 \rightarrow 0.69 \rightarrow 0.65$ 가 되었다. P 유형의 사람과 정확히 같은 데이터를 보았음에도 불구하고, 남자친구의 사랑을 아직 강하게 믿고 있다. 콩깍지가 단단히 씌인 것이다. 이러한 이유로 J 유형의 사람들은 한번 머릿속에 꽂힌 생각을 잘 바꾸지 않는 사람처럼 보일 것이다.

인터넷에는 보통 MBTI 의 P와 J를 구분짓는 여러 속성들을 설명한다. 하지만 이 속성들은 surface level 에서 서로 엄청난 관련이 있어 보이진 않는데, 이것이 P와 J가 나머지 3분류 ({I,E}, {S,N}, {T,F}) 보다 직관적으로 이해하기 힘든 이유인듯 하다. 이를 위의 MLE 와 MAP 로 해석하면 모든 속성을 관통하는 설명을 제시할수 있다.

  • “즉흥” 과 “계획”

    P 유형이 남자친구의 사랑에 대한 믿음을 사흘만에 $1$ 에서 $0.33$ 까지 떨어트린것을 보면, 외부에서 P 유형은 다소 즉흥적으로 생각이 변하는 사람으로 보일 것이다.

    반면 J 유형은 본인의 사전 믿음을 사용하여, 데이터만으로 생각이 바뀌는 것을 내버려 두지 않고 $\alpha$, $\beta$ 를 계획하여 본인의 가설에 영향이 가도록 하였다.

  • “결정 미루기” 와 “결정 빨리하기”

    사흘에 걸쳐 남자친구의 마음을 추정하려고 했을 때, P 유형은 첫째날에는 $1$이라 생각했지만 마지막 날의 결정은 $0.33$ 이었다. 이는 데이터를 많이 볼수록 새로운 결정을 하고, 이것은 남이 보기에 최종 결정을 미루는 것처럼 보인다.

    반면 J 유형은 첫째날의 데이터에 입각하여 결정한 $0.73$ 에서 마지막 날까지 상대적으로 “비슷한“ 결정을 지속하고 있어 보인다.

  • “변화 수용” 과 “변화 거부”

    동일한 데이터가 주어졌을 때 P 유형은 첫째날부터 마지막 날 까지 남자친구에 대한 믿음이 $1 - 0.33 = 0.67$ 만큼 변화했다.

    반면 J 유형은 첫째날부터 마지막 날 까지 $0.73 - 0.65 = 0.08$ 만큼밖에 변화하지 않았다.

머신러닝에서 MAP 를 사용하는 것이, 처음에는 일종의 cheating 처럼 느껴졌다. 가장 좋은 가설을 찾으려고 하는 와중에 가설에 대한 가정을 한다는 것이 순환논리 같아 보였기 때문이다. 하지만 MBTI 의 P 와 J 에 대입해보니, 일상생활에서 오히려 J 유형 같은 MAP 식 사고를 훨씬 많이 하는듯 하다. 우리는 사실 매 순간 세상에 대한 가정을 하고 살기 때문이다. obvious 한 가정들을 무시하면 우리는 평생 확실히 안다고 하는 것이 없을 것이다. (근데 실제로 나는 완전 P 이다?!)

결국 MLE 와 MAP 의 본질적인 차이는, 모델이 새로운 데이터를 보았을 때 가설에 그대로 영향을 주는 것이 MLE, 가설에 대한 일종의 믿음으로 데이터의 영향을 우회하는것이 MAP 인듯 하다. 그리고 이 관점에서 자기 자신의 MBTI를 새롭게 해석할수 있다. 예상치 못한 새로운 것을 접했을 때, 자신의 생각이 크게 요동친다면 P 유형의 사람, 기존 생각이 크게 바뀌지 않으면 J 유형의 사람일 가능성이 높을 것이다.

Blog Logo

Min Lee


Published

Image

Min's

thoughts, notes

Back to Overview