과제연구를 수행하는 하나인을 위한 통계안내서

통계학 2020년 12월 06일

하나고등학교에서 (필수과목을 제외하고) 가장 많은 학생들이 수강하는 과목은, 단연 과제연구일 것이다. 또한 분야도 다르고, 연구주제 또한 다 다르겠지만, 직접 수행한 실험을 통해서건 설문을 통해서건 아니면 다른 곳에서 구했건 간에 데이터를 얻어내고 그를 분석함으로써 원하는 결론을 도출하는 경우가 많을 것이다. 그런데 종종 여기서 문제가 발생하곤 한다. 내가 내고 싶은 결론 또는 하고 싶은 말은 이것인데, 이걸 어떻게 데이터를 통해 보여줄 수 있을까, 하는 문제다. 즉, 데이터 자체로만은 구구절절 설명하며 설득하기가 힘들기 때문에 이 데이터(의 추이)가 가진 의미를 분석법을 통해 보여줘야 한다는 것인데, 그렇다면 과연 어떤 분석법을 사용해야 할까? 이 글에서는, 과제연구에서 가장 많이 사용되는 세 가지의 통계기법에 대해 간단히 안내하고자 한다.

  1. X^2 검정 (카이제곱 검정)
    카이제곱 검정은, 이름처럼 카이제곱 분포에 기초하고 있으며. 관찰된 빈도가 기대 빈도와 통계적으로 다른지를 판단하는 검증방법향치, 분포도 등 변수의 개략적 특성을 살펴보는 분석방법이다. 이때, 동질성 검증과 독립성 검증의 두 가지 유형이 존재한다.
    독립성 검정은 모집단이 두 개의 볌수 A, B에 의해 범주화 되었을 때, 이 두 변수들 사이의 관계가 동립인지, 종속인지를 건정하는 유형이다. 동질성 검정은 모집단이 임의의 변수에 따라 R개의 속성으로 범주화되었을 때, R개의 부분 모집단에서 추출한 각 표본인 c개의 범주화된 집단의 분포가 서로 동일한지 아닌지를 검정하는 유형이다. 두 검정은 분할표를 만들 때와 가설설정을 때만 다르며, 검정 수행방법은 동일하다.
  2. 평균 차이 분석
    평균 차이 분석이란, 다른 잡단 사이의 평균치에 유의한 차이가 존재함을 검증할 때 쓰이는 검정 방법을 말한다. 평균 차이 분석에는 크게 t검정과 분산분석(ANOVA)가 있다고 말할 수 있다. 먼저 t검정은, 모집단의 표준편차를 모를 때, 그리고 30개 이하의 적은 수의 표본에 활용할 수 있는 것으로, t분포와 표본으로부터 추정된 분산을 이용해 두 모집단 간의 평균의 차이의 유무를 선택할 수 있도록 하는 통계적 검정 방법이다. t분포에는 세 가지 가정이 있는데, 첫째, 두 개의 모집단의 평균이 동일할 것, 둘째 변량이 같을 것, 셋째 두 집단이 독립적인 방법으로 표집될 것이다.

t검정에는, 귀무가설(원래의 가설)과 대립가설(귀무가설에 대립하는 가설)이 있는데, 검정통계량(t값) 이 기준값을 넘어가면 귀무가설을 기각해 대립가설이 유효하다고 할 수 있다. 이때 t값이 기준이 되는 값 이후의 범위를 기각역이라고 한다. 이 기각역의 면적은 α(유의수준)과 자유도에 의해 결정된다.

분산분석(ANOVA, Analysis of Variance)은 3개 이상의 다수의 집단을 비교할 때 사용하는 가설 검정 방법으로, 집단 간 또는 집단 내 분산 기반의 F 분포를 이용한다. F 분포란, 정규분포를 이루는 모집단에서 독립적으로 추출한 표본들의 분산 비율이 나타내는 분포이며, 주로 2개 이상의 포본 평균들이 동일한 모평균을 가진 집단에서 추출되었는지 확인하기 위해 이용된다. 분산분석은 독립변수와 종속변수의 개수에 따라 다시 여러 종류로 나뉜다.

3. 상관분석과 회귀분석
먼저 상관분석은, 두 변수 간 어떠한 선형적 또는 비선형적 관계를 가지고 있는지 분석하는 방법이다. 이때 두 변수 간의 관계의 강도를 상관관계라고 하며, 상관관계의 정도를 상관계수로 나타낸다. 상관계수는 숫자형 변수간의 강도를 수치로 표현하는 것인데, 이때 연관성이 인과성과는 다르다는 것을 주의해야 한다. 상관계수는 숫자형 변수 사이의 연관성 중 직선적인 경향을 나타내고, 직선의 기울기와는 관계 없이, 직선의 형태에 가까울수록 절댓값이 1에 근접한다. 가장 많이 쓰이는 상관계수는 Pearson 상관계수로, 모집단의 분포가 정규분포에 가깝고 두 변수가 양적 자료일 때 사용한다.

회귀분석은, 독립변수의 값에 의한 종속변수의 값을 예측할 때 사용한다. 이때, 종속변수와 독립변수가 각각 하나씩일 때는 단순회귀분석을, 종속변수는 하나지만 독립변수는 여러 개일때는 다중회귀분석을 사용한다. 회귀선의 해석에 있어서, 기울기가 같더라도 측정값의 분포 자체는 차이가 있을 수 있다는 점은 중요한 주의사항이다.

지금까지 안내한 통계기법들은, 하나인들이 과제연구와 학술제, 논총, 그 외의 여러 발표 등에서 가장 많이 사용하는 방법들이다. 이들의 특징은, 유료 통계 전문 프로그램을 이용하지 않고도 충분히 활용할 수 있다는 것이기도 하다. 우리에게 친숙한 Excel 등의 프로그램으로도 충분히 활용가능한 방법들이니, 이 글이 부족하나마 도움이 되었으면 한다.

마지막으로, 필자도 미숙한 통계 지식을 가지고 쓴 글이니, 너무 맹신하지 말고 본인의 목적에 맞게 꼭 더 공부해볼 것을 추천한다!

김소은

하나고등학교 10기

Great! You've successfully subscribed.
Great! Next, complete checkout for full access.
Welcome back! You've successfully signed in.
Success! Your account is fully activated, you now have access to all content.