베이즈 추정으로 알아보는 등급컷
시험이 끝난 직후, 자신이 어느 정도에 위치해 있는지 궁금해 할 학생들이 많은 것으로 안다. 하지만, 이를 가늠하는 것은 쉽지 않은 일이다. 이것이 어려운 가장 큰 이유 중에 하나는 표본이 적다는 것이다. 물론, 모의고사나 학교 중간 / 기말 고사가 끝난 후 얼마 정도의 시간이 지나면, 자신이 어느 정도에 위치해 있는지 각 기관이 알려주지만, 이 정보를 받기까지는 상당히 오랜 시간이 걸린다.
이런 경우 베이즈 추정을 사용해 봄 직하다. 베이즈 추정은 표본이 적은 경우에도 예측할 수 있으며, 표본이 늘어나면 늘어날수록 신뢰도가 높아지기 때문이다. 본문에서는 베이즈 추정 기법을 간략하게 설명하고, 이 기법을 활용하여 등급컷을 계산하는 방법에 대해 서술 해 보려고 한다.
주관 확률
확률에 대한 해석은 여러가지가 있는데, 여기서는 빈도주의적 관점과 베이지안 관점을 설명하려고 한다. 많은 독자들에게는 빈도주의적 관점이 더 친숙할 것이라 본다. 이름은 친숙하지 않을지 몰라도, 설명을 들으면 이해할 것이라고 생각한다. 그래서, 본문에서는 빈도주의적 관점을 먼저 설명하고, 베이지안의 관점을 설명하려고 한다.
확률에 대한 빈도주의적 해석은 이렇다.
어떤 사건 \(A \)가 일어날 확률이 \(p \)라는 것은, 시행을 무한히 많이 했을 때, 사건 \(A \)가 발생하는 상대 빈도수가 \(p \)라는 것이다.
예를 들어, 빈도주의적 관점에서 주사위를 굴려 1이 나올 확률을 구하려고 한다면, 다음과 같은 방법을 따른다.
- 주사위를 굴려 나올 수 있는 총 경우의 수는 {1, 2, 3, 4, 5, 6}으로 6이다.
- 주사위는 공평하기 때문에, 12,000 번 주사위를 굴리면, 2,000 번 1이 나올 것으로 기대된다.
- 귀무가설을 참 된 확률값이 \(\dfrac{1}{6} \)이다라고 놓고, 실험을 통해, 귀무가설을 기각할지 아니면 받아들일지 결정한다.
- 실험을 했더니, 12,000 번 중에 1,998 번 1이 나왔다.
- 실험 결과, 귀무 가설을 기각할 수 없기 때문에, 귀무 가설을 채택, 확률을 \(\dfrac{1}{6} \)으로 결정짓는다.
다시 말해, 빈도론적 관점에서는 참 된 확률이라는 것이 존재하며, 이것은 변하지 않는다. 통계적인 관측을 통해 얻은 데이터는, 이 참값을 설명하는 값이며, 통계적인 관측이 틀릴 확률이 있더라도, 그 정도 확률은 감수하고, 귀무 가설 혹은 대립 가설을 결론으로 채택한다.
반면, 확률에 대한 베이즈주의적 관점은 이렇다.
어떤 사건 \(A \)가 일어날 확률이 \(p \)라는 것은, 그 사건 \(A \)가 일어났다라는 주장의 믿음의 정도가 \(p \)라는 것이다.
위처럼 똑같이 주사위 예시를 가져오려고 한다. 똑같이, 주사위를 12000번 굴렸는데 1998번 1이 나왔다고 하자. 베이지안이라면 이것으로 이 주사위에서 1이 나올 확률을 확정짓지 않는다.
베이지주의적 관점으로 문제를 바라보기 위해서는 사전 확률을 도입해야 한다. 여기서 말하는 사전 확률이란, "12000번 주사위를 굴리기 이전에, 주사위에서 1이 나올 확률이 어떻게 되었겠는가?"라는 질문과 같다.
처음에 주사위에서 1이 나올 확률이 \(\dfrac{1}{5} \)과 같다고 생각했다고 하자. 여기서 중요한 것은, 12000번의 관측을 한 후에는 이 사람의 믿음의 정도가 바뀌었을 것이라는 점이다. 이 말은, 이 사람이 생각했을 때 주사위에서 1이 나올 확률이 바뀌었다는 것을 의미한다.
하지만, 이렇게 설명한다면, 조금 부족한 감이 있다. 왜냐하면, 아무 조건 없이 믿음의 정도라고만 한다면, 확률에 의미가 없기 때문이다. 그래서, 이 믿음의 정도도 나름의 규칙이 있다. 이에 대해서는, 나중에 기회가 된다면, 다른 글에서 서술하기로 하겠다.
어쨌든, 베이지안의 관점에서는 정해진 확률값이 없다. 빈도주의적 관점에서와는 다르게 주사위 예시만을 보더라도, 베이즈주의적 관점에서는 확률의 값이 변할 수 있다. 즉, 빈도주의적 관점에서는 정해진 확률값을 설명하는 정보로 데이터를 활용한다면, 베이즈주의적 관점에서는 실제로 관측 데이터가 확률에 영향을 준다고 할 수 있다. 그리고, 빈도주의적 관점에서 내리는 결론은 어떠한 가설이 참이다!라는 것이지만, 베이즈주의적 관점에서 내리는 결론은 어떠한 가설이 참일 가능성이 어떠어떠하다!라는 것이다.
다시 보는 베이즈 정리
위에서 설명한 베이즈주의적 관점으로 베이즈 정리를 바라보자.
\[P(A|B) = \frac{P(B|A)P(A)}{P(B)} \]
좌변의 \(P(A|B) \)는 사건 \(B \)가 일어났음을 전제했을 때, 사건 \(A \)가 일어났을 확률이다. 반면, 우변의 \(P(A) \)는 아무 조건 없이 사건 \(A \)가 일어날 확률이다.
이것을 다시 서술 해 보겠다. \(P(A) \)라는 것은, 어떤 사람이 사건 \(A \)가 일어났다는 주장에 갖는 믿음의 정도이다. 이것을, 사전 확률이라고 한다. 그런데 이 사람이 \(B \)를 관측했다. 이후, 이 사람이 사건 \(A \)에 갖는 믿음의 정도는 \(P(A|B) \)이다. 이것을, 사후 확률이라고 한다. 즉, 위 식은, 사건 \(B \)를 관측했을 때, 믿음의 정도가 어떻게 변하는가를 서술한 식이다.
그런데, 실제로 베이즈 정리를 활용할 때에는 \(P(B) \)를 쓰는 대신,
\[P(A|B) \propto P(B|A)P(A) \]
라는 사실을 더 많이 활용한다. 어차피 \(P(B|A)P(A) \)가 총합 1이 되도록 계수를 조정하기만 하면 되기 때문에 굳이 \(P(B) \)가 필요하지는 않다.
본론 : 추정 등급 구하기
고등학교 수업에서는 위의 베이즈 정리를 이산적인 상황에서밖에 다루지 않지만, 베이즈 정리는 연속적인 분포에서도 사용할 수 있다. 여기서는 사전 확률 대신에 사전 분포라는 개념이, 사후 확률 대신에 사후 분포라는 개념을 논한다. 그리고 이를 확률로 접근하는 게 아니라 가능도로 접근한다. 가능도에 대한 얘기도 이후에 하려고 한다. 여기서는, 그냥 확률밀도함수의 y값 정도로만 생각해도 될 것이다.
또한, 몇 가지 가정이 필요하다.
- 성적의 분포는 정규 분포를 따른다.
- 성적의 분포의 표준 편차를 알고 있다.
1번은 쉽게 수긍할 수 있는 가정이지만, 2번은 그렇지 않다. 그래서, 본문에서는, 예전에 치룬 비슷한 시험(난이도, 치루는 학생, 과목 등이)에서의 성적의 표준 편차를 이번 시험 성적의 표준 편차로 채택하기로 했다. 물론, 그것이 이번 시험의 표준 편차와 완전히 같지는 않겠지만, 어느 정도 비슷할 것이라고 예측되기 때문이다.
성적 분포를 추정하기 위해 사전 분포를 선택한다. 사전 분포는 정규 분포여야 하며, 독자가 생각했을 때 그럴 듯한 평균(\(\mu_0 \))과 그 평균의 확신도에 준하는 표준 편차(\(\sigma_0 \))을 적용한다. 주의할 것은, 이 \(\mu_0 \)와 \(\sigma_0 \) 값은 모수 \(\mu \)의 분포 추정을 위해 존재하는 값들이라는 사실이다. 즉, 여기서 논하는 \(\mu_0 \)는 최초의 평균 추정값이고, \(\sigma_0 \)는 해당 추정값에 대해 어느 정도의 확신도가 있는지에 대한 얘기다.
본문에서 소개하는 베이즈 추정을 이용하면, 성적의 평균, \(\mu \)를 추정할 수 있다. 이렇게 찾은 \(\mu \)값을 정규 분포에 다시 적용해서, 등급을 추산하면 될 것이다.
먼저, 가능도의 관점에서 다음이 성립한다.
\[P(\mu | X) \propto P(X |\mu)P(\mu = \mu_0) \]
이때, \(X \)는 성적이라는 확률 변수이다. 이제부터 식을 전개할 텐데, 관계를 더 명확히 보기 위하여 관계를 한 번 더 서술한다.
\[X \sim N(\mu, \sigma^2) \\ \mu \sim N(\mu_0, \sigma_0^2) \]
이제 위 관계에서 오른쪽 식의 값을 계산 해 보자.
\[P(X |\mu)P(\mu = \mu_0) = \dfrac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^2}{2 \sigma ^ 2}} \dfrac{1}{\sqrt{2 \pi} \sigma_0} e^{-\frac{(\mu - \mu_0)^2}{2 \sigma_0^2}} \]
여기서, \(\dfrac{1}{\sqrt{2 \pi} \sigma} \)와 \(\dfrac{1}{\sqrt{2 \pi} \sigma_0} \)은 상수이기 때문에, 일단은 무시한다. 나중에, 확률 분포의 총 넓이 합이 1이 되게만 상수는 조정해 주면 된다. 이제, 지수 함수 부분을 정리하면,
\[e^{-\frac{(x-\mu)^2}{2 \sigma^2} -\frac{(\mu - \mu_o)^2}{2 \sigma_0^2}} = e^{-\frac{\sigma_0^2 (x-\mu)^2 + \sigma^2 (\mu-\mu_0)^2}{2 \sigma^2 \sigma_0^2}}\]
여기서 지수에 올라간 부분을 자세히 보자. 이를 \(\mu \)로 정리하면,
\[-\dfrac{(\sigma_0^2 + \sigma^2) \mu^2 - 2(\sigma_0^2 x + \sigma^2 \mu_0^2) \mu + \sigma_0^2 x^2 + \sigma^2 \mu_0^2}{2 \sigma^2 \sigma_0^2} \]
이때, 분수의 뒤에 붙는 상수의 경우에도, 상수일 뿐이므로, 나중에 조정해 줄 수 있다. 다시 말해, 상수를 임의로 수정할 수 있으므로 아래의 완전제곱식으로 바꾸어 줄 수 있다.
\[-\dfrac{\sigma_0^2 + \sigma^2}{2 \sigma^2 \sigma_0^2} (\mu - \dfrac{\sigma_0^2 + \sigma^2 \mu_0}{\sigma_0^2 + \sigma^2})^2 \]
이것을 다시 지수로 올리면,
\[e^{-\frac{\sigma_0^2 + \sigma^2}{2 \sigma^2 \sigma_0^2} (\mu - \frac{\sigma_0^2 + \sigma^2 \mu_0}{\sigma_0^2 + \sigma^2})^2} \]
위 식에서 \(\dfrac{1}{\frac{\sigma_0^2 + \sigma^2}{\sigma_0^2 \sigma^2}} = \dfrac{\sigma_0^2 \sigma^2}{\sigma_0^2 + \sigma^2} \)을 분산으로, \(\dfrac{\sigma_0^2 x + \sigma^2 \mu_0}{\sigma_0^2 + \sigma^2} \)을 평균으로 취급하면, 정규 분포의 꼴로 해석할 수 있다. 정규 분포의 확률 밀도 식의 형태를 적용하면, 원하는 결과를 얻는다.
\[P(\mu | X) = \dfrac{1}{\sqrt{2 \pi} \sqrt{\frac{\sigma_0^2 \sigma^2}{\sigma_0^2 + \sigma^2}}} e^{-\frac{(\mu - \frac{\sigma_0^2 x + \sigma^2 \mu_0}{\sigma_0^2 + \sigma^2})^2}{2 \frac{\sigma_0^2 \sigma^2}{\sigma_0^2 + \sigma^2}}}\]
보기 불편하지만, 이 식은 다음을 의미한다. 사후 분포의 \(\mu \)에 대해서,
\[\mu \sim N(\dfrac{\sigma_0^2 x + \sigma^2 \mu_0}{\sigma_0^2 + \sigma^2}, \dfrac{\sigma_0^2 \sigma^2}{\sigma_0^2 + \sigma^2}) \]
이게 의미하는 것이 무엇인가? 자신의 점수나 다른 사람의 점수를 알게 되었을 때, 추정하는 모수의 평균과 표준 편차가, 위처럼 변한다는 말이 된다. 나중에, 더 이상의 업데이트가 필요없을 때, 이 분포의 평균을 모집단의 평균에 대한 추정값으로 사용할 수 있다.
결론
위의 방식을 따르면, 모집단의 평균을 추정할 수 있고, 원래 알고 있던 모집단의 표준 편차를 활용하여 자신의 점수가 상위 몇 %에 위치할지 계산할 수 있을 것이다. 물론, 이는 오차가 꽤나 크게 나오겠지만, 어디까지나 추정일 뿐이다. 정확한 결과는, 성적을 집계하는 기관에서 발표하기를 기대할 수밖에는 없다.
참고문헌
[1] 세상에서 가장 쉬운 베이즈 통계학 (2017.03.31) 고지마 히로유키 지음 / 장은정 옮김
[2] 확률을 대하는 두 가지 관점 (2014.11.19) 홍석수 연구원