통계 grab bag – 유의도와 유의수준

 
각종 통계기법을 동원하여 가설검정을 할 때 조사결과를 놓고 영가설을 기각할 것인지 기각하지 않을 것인지 결정하면서
유의수준을 고려하게 됩니다. 아래와 같은 표현을 쓸 수 있습니다.
 

ANOVA 를 실시한 결과 F 값이 11.456 이며, 유의수준 5% 로 영가설을 기각한다.
 

이 때 유의수준은 통계적 판단이 틀릴 수 있는 한계에 대해 언급하는 것입니다.
표본을 추출하여 설문조사를 하거나 일부 피험자를 대상으로 실험을 할 때 가장 근본적인 문제는 샘플의 대표성입니다. 과연 400 명을 조사한 결과를 놓고 의사결정을 할 수 있을 것인가? 전체 모집단 4백만명 중에서 고작 400 명을 조사하면 표본조사 결과는 전체 모집단조사 결과와 많이 다를 수도 있지 않을까? 이런 고민이 항상 따라다니게 됩니다. 즉, 내가 얻어낸 표본조사 결과를 근거로 통계적 판단을 할 경우 항상 판단이 틀릴 수 있다는 것을 염두에 두게 됩니다.

연구자가 남녀 모집단의 평균이 같다는 영가설을 세웠습니다. 그리고 남자 500명, 여자 500명의 표본조사를 했습니다. 5점척도 측정에서 남자는 평균 3.51 여자는 평균 3.89 이었습니다.

표본조사 결과만 놓고 보면 남녀 두 모집단의 평균이 같다는 영가설은 상당히 의심이 갑니다. 실제로 영가설이 참이라면, 표본조사에서의 남녀 평균도 서로 비슷할 것을 기대하기 때문입니다. 표본평균의 차이가 크면 클수록 영가설에 대한 의심도 커지게 되고 결국 표본평균의 차이가 통계적으로 유의하다고 결론을 내린다는 것은 영가설을 기각하겠다는 것이 됩니다.

하지만 일단은 의심하는 마음을 억누르고 영가설이 참이라는 생각을 붙잡습니다.
영가설이 참이라면 두 모집단의 평균이 같다는 얘기인데 어째서 표본을 추출하여 조사한 결과는 두 표본집단의 평균이 0.38 차이가 났을까요? 그것은 모집단을 구성하는 개개인이 서로 똑같은 모습, 똑같은 주관을 가진 것이 아니고 남자 중에서도 이런 사람, 저런 사람 다양하고 여자 중에서도 이런 사람, 저란 사람 다양하기 때문이라고 생각할 수 있습니다. 샘플링을 하다 보면 좋은 점수 주는 사람, 낮은 점수 주는 사람 중에서 어느 쪽이 더 많이 표본으로 추출되느냐에 따라 평균이 왔다갔다 할 수 있고, 실제로 전체 모집단의 평균은 남녀가 같을지라도 남자는 하필 낮은 점수 주는 사람이 표본으로 많이 추출되고 여자는 하필 높은 점수 주는 사람이 표본으로 많이 추출되면 0.38 이라는 표본평균 차이가 발생할 수도 있는 것입니다. 이렇듯 모집단 평균이 서로 같아도 샘플링 과정에서 얼마든지 표본평균 차이가 발생할 수 있기 때문에 표본평균이 0.38 차이가 났다고 해서 모집단의 평균도 그 정도의 차이가 있을 것이라고 단정할 수는 없습니다.

그런데 이런 관점에서는 표본조사 결과에서 남녀 두 집단이 0.38 이 아니라 1.38, 2.38 혹은 그 이상의 차이를 보여도 연구자가 영가설을 부정할 수 없다는 얘기가 되어버리기 때문에 연구자 입장에서는 매우 불만입니다. 때문에, 비록 100% 장담하는 모양새를 취할 수는 없더라도 연구자는 영가설이 틀렸다는 얘기를 하기 위해 유의수준이라는 방패를 세우는 것입니다. 만약, 영가설이 참이고 모집단의 평균이 서로 같다면 표본평균도 서로 같아서 차이가 없을 것이라고 기대하지만 간혹 샘플링 이슈에 의해 표본평균이 서로 달라질 수 있는데 이 때 영가설이 참인 상황에서 반복적으로 표본조사를 실시하는 시뮬레이션을 통해 표본평균이 0.38 이상 차이가 나게 되는 경우의 확률을 계산할 수 있습니다. 그리고 그 확률을 통계치의 유의도라고 부릅니다.

0.38 이라는 표본평균 차이의 유의도가 0.045 라고 한다면 그것은 영가설이 참인 경우에 똑같은 방식으로 표본조사를 반복하면 4.5% 는, 즉 1000번 중에 45번은, 표본평균의 차이가 0.38 이상으로 커질 수도 있음을 뜻합니다.

이번에 실시한 표본조사는 그 45번에 속하는 것이겠죠?
지금까지는 영가설이 참이라는 것을 의심하지 않고 서술한 것입니다. 표본조사를 1000번 하면 그 중 955번은 표본평균 차이가 0.38 미만이긴 하지만 이번 조사에서는 샘플링 과정에서 극단치가 많이 포함되는 등 우연히 평균차이가 0.38 이상으로 커졌다는 것입니다.
 

이제 연구자의 판단은 두 가지로 나뉩니다:

1. 영가설이 참인 경우 랜덤 샘플링을 하더라도 4.5% 의 확률로 표본평균 차이가 0.38 보다 커질 수 있다.
이번 조사는 4.5% 의 확률이 현실화 된 것 같다. 4.5% 는 비교적 높은 확률이며 종종 현실화 될 수 있는 확률이다.

2. 4.5% 의 확률은 비교적 낮은 확률이며 현실화 되기 어렵다.
즉, 세심한 주의를 기울인 랜덤 샘플링에서 0.38 이상의 큰 표본평균 차이가 발생하기 어렵다. 표본조사 결과는 영가설이 참이지만 낮은 확률이 현실화 되었음을 말하는 것이 아니고 영가설이 참이 아님을 말해준다.
 

위의 두 가지 판단은 결국 4.5% 라는 통계치의 유의도를 높게 볼 것인가 낮게 볼 것인가의 차이가 있습니다.
- 4.5% 가 높은 확률이라고 판단한다면 영가설을 기각하지 않고 표본평균의 차이를 샘플링 이슈(에러)로 설명합니다.
- 4.5% 가 낮은 확률이라고 판단한다면 영가설을 기각하고 표본평균의 차이를 모집단평균의 차이로 설명합니다.

이 때 유의도의 높고 낮음을 판단하는 기준이 유의수준이고 연구자는 조사를 시작하기 전에 유의수준을 결정합니다.
- 유의수준을 5% 로 설정한 연구자는 4.5% 라는 통계치의 유의도가 유의수준보다 낮기 때문에 영가설을 기각합니다.
- 유의수준을 1% 로 설정한 연구자는 4.5% 라는 통계치의 유의도가 유의수준보다 높기 때문에 영가설을 기각하지 않습니다.

물론 유의수준을 선택하는 것은 연구자의 성향에 달린 문제입니다.
- 보수적인 관점으로 영가설을 함부로 기각하는 것을 경계하는 연구자는 유의수준을 낮게 정합니다.
- 진보적인 관점으로 영가설에 머무르는 것을 탈피하고자 하는 연구자는 유의수준을 높게 정합니다.

만약, 유의수준을 5% 로 설정한 연구자가 영가설을 100번 기각한다면 그 중 다섯 번 정도는 기각하지 말아야 할 영가설을 기각하는 셈이 됩니다.
이번 조사 만큼은 그 다섯 번에 속하지 않기를 바라면서 말이죠.

일반적으로 5% 로 유의수준을 정하는 것은 어떤 권위있는 학자가 그렇게 하는 게 좋다고 논문을 써서 그렇게 된 것은 아니고 그저 관행적으로 굳어진 것 뿐입니다. 연구자 맘대로 정한 후 보고서에 유의수준이 얼마라고 언급만 하면 됩니다. 물론 너무 높게 설정한다면 온갖 태클이 들어오게 될 것이며, 한 번의 잘못된 판단이 큰 화를 불러올 우려가 있다면 보수적으로 접근하여 유의수준을 낮게 정하는 것이 바람직합니다.
 
 

thinkuser

About thinkuser

ThinkUser는 경험가치 혁신을 근간으로 비즈니스 전략, 서비스, 제품을 디자인하는 UX 컨설팅 회사입니다.