통계 grab bag – 통계적으로 유의한 차이

 
보고서에 ‘통계적으로 유의한 차이’ 라는 표현이 등장할 때 그 의미를 잘못 받아들이는 경우가 많습니다.

연구자가 집단간의 차이, 지역간의 차이, 제품간의 차이 등에 대해서 이런저런 수치를 늘어놓고 그 차이가 통계적으로 유의하다고 설명한다면 그 때 통계적으로 유의하다는 표현은 보고서의 결론에 해당하는 연구자의 주장이 타당하다거나 합리적이라는 따위의 보증을 해주는 표현이 아닙니다. 분석결과에 뭔가 중요한 의미가 담겨 있다거나 우리가 주목해야 할 내용이라는 표현이 아닙니다. 통계적으로 유의하다는 표현은 통계적인 오류를 범할 가능성이 낮다는 표현과 동일한 의미를 갖고 있는데, 상식적으로 생각해도 어떤 문장이 오류가 아니라는 사실이 그 문장이 중요한 가치를 갖는 문장이라는 근거가 되지는 못합니다.

남자 회원이 5백만명, 여자 회원이 5백만명인 서비스를 가정하겠습니다.
어떤 회원은 서비스에 매우 만족하고 있고 어떤 회원은 불만투성이입니다. 전체 회원의 서비스에 대한 만족도 점수를 일일이 확인하여 분포도를 그려볼 수 있다면 좋겠지만 현실적으로 불가능하기 때문에 남자 300명, 여자 300명을 표본추출하여 서비스에 대한 평가를 요구했습니다. 100점 만점의 만족도 점수 평균이 남자는 71점, 여자는 85점으로 나왔습니다. 두 표본집단간에 14점의 평균차이가 있습니다.

만약, 남자 회원 전체 5백만명의 만족도 평균이 81점이라면 그 중에 300명을 랜덤 추출하여 만족도를 물었을 때 표본평균이 81점 근처가 나오지 않고 71점 이하가 나올 확률은 얼마일까요?
모집단의 분포에 따라 다르겠지만 어쨌든 그 확률은 별로 높지 않을 거라고 짐작할 수 있습니다. 표본수가 10명 정도라면 극단치 점수가 1~2개 존재하느냐 안하느냐에 따라 평균이 크게 변동할 수 있지만 300명의 표본이라면 소수의 극단치에 의한 영향이 미미하기 때문입니다. 더군다나 전체 회원의 만족도 점수 분포가 정규분포에 가깝다면 표본평균이 모집단평균 81점에서 벗어나기는 더더욱 어렵습니다.

마찬가지로 만약, 5백만 여자 회원 전체의 평균이 75점이라면 300명 표본을 조사할 때 75점 근처의 평균점수가 나올 것을 기대할 수 있고 표본평균이 85점 보다 높게 나오기는 쉽지 않을 것입니다. 모집단평균과 표본평균이 크게 차이나기 어렵다는 생각을 하다보면 위의 표본조사에서 남자 71점, 여자 85점이라는 평균을 얻은 것은 실제 모집단의 평균 역시 71점, 85점 근처이기 때문이라는 추측을 하게 됩니다. 즉, 원래부터 남자 전체 평균과 여자 전체 평균이 차이가 있기 때문에 표본을 추출해서 평균을 구해봐도 비슷하게 남녀간 평균차이가 있게 된다는 것입니다.

한편으로는 이렇게 생각할 수도 있습니다.
실제로는 모집단간의 차이가 없는데(남자 모집단평균과 여자 모집단평균이 같은데) 우연히 샘플링이 이상하게 되어서 하필 남성은 만족도가 낮은 사람이 많이 응답하고 여성은 만족도 높은 사람이 많이 응답하는 바람에 14점이라는 표본평균차이가 발생했을 수도 있고, 따라서 남녀의 표본평균이 14점 차이가 났다고 해서 모집단평균도 서로 다를 것이라고 생각하기는 아직 이르다는 것입니다. 표본평균차이가 통계적으로 유의하다는 얘기는 위에서 언급한 샘플링의 이슈만으로는 14점이라는 표본평균차이를 모두 설명하기 어렵고 실제로도 남녀의 모집단 평균이 다소 차이가 있을 것으로 판단하겠다는 얘기입니다 (그 차이가 정확히 14점은 아니더라도). 이 때 ‘통계적으로 유의한 차이’ 라는 표현은 그 차이가 10 이든 0.1 이든 0.01 이든 그런 차이가 ‘존재함’ 혹은 ‘존재하지 않음’ 에 대한 판단이라는 점을 명심해야 합니다.

표본조사 결과 14점이라는 표본평균차이가 나왔고 t-test 를 해봤더니 유의도가 5% 이하였습니다. 남녀 두 모집단의 평균이 서로 같은데도 불구하고 14점 이상의 표본평균 차이가 발생할 확률이 5% 이하라는 의미입니다. 그렇다면 t-test 결과를 바탕으로 남녀간의 모집단 평균이 다르다고 판단하는 것은 어떤 의미를 가질까요?

  • 두 집단은 서비스를 바라보는 관점이 다르다.
  • 두 집단은 서비스를 이용하는 과정에서 서로 다른 경험을 한다.
등등의 주장을 할 수 있을까요? 집단간의 평균차이가 존재함, 존재하지 않음을 따지는 문제와 차이가 존재한다고 할 때 그런 차이를 나타내는 두 집단을 어떻게 바라볼 것인지의 문제는 전혀 다른 문제입니다.

두 어린이 집단의 IQ 를 측정했더니 한 쪽은 IQ 평균이 105 이고 다른 쪽은 IQ 평균이 110 입니다.
샘플링에 의해 우연히 나타난 차이가 아니었고 실제로 존재하는 차이였습니다. 그렇다면 두 집단은 교육과정을 달리하여 각자의 수준에 맞는 교육을 받을 수 있도록 해야 할까요? 그것이 한참 오버라고 생각되는 이유는 IQ 5 정도의 차이가 인간의 학습능력을 크게 좌우한다고 볼 수 없기 때문입니다. 다시 말해, 집단의 IQ 평균을 언급할 때 5 라는 IQ 평균 차이는 통계적으로 유의할 수는 있어도 정책을 바꾸는 것과 같은 의사결정을 할 정도의 주목할만한 차이는 아니라는 것입니다. 많은 보고서에서 statistically significant difference 를 actually noticeable difference 인 것처럼 의미를 부여합니다. 평균차이가 통계적으로 유의하다고 판단하는 것과 그 차이에 어떤 의미를 부여할 것인지 혹은 의미를 부여하지 않을 것인지를 결정하는 것과 혼동해서는 안됩니다.

통계 프로그램으로 71점과 85점이 유의한 차이인지 아닌지는 금방 확인할 수 있습니다.
하지만 14점이라는 평균차이가 과연 noticeable 한 것인지 그래서 앞으로 남성을 위해 혹은 여성을 위해 뭔가 해야하는 것인지는 평균차이가 통계적으로 유의한지를 따지는 것과는 전혀 별개의 문제이고 이것은 전적으로 연구자의 주관에 달린 문제입니다. 어떤 경우에는 1점의 차이도 noticeable 하다고 판단할 수 있고 어떤 경우에는 10점의 차이도 noticeable 하지 않다고 판단할 수 있습니다. 연구자는 자신의 도메인 지식을 최대한 활용하여 이러한 판단을 할 수 있어야 합니다.

물론, 어떤 연구자도 통계적으로 유의하지 않은 차이를 주목할만한 차이로 판단할 수는 없을 것입니다. 연구자는 통계적으로 유의한 결과들을 모아놓고 그 중에서 noticeable 하다고 판단되는 것들을 다시 한 번 추려서 그것을 근거로 주장을 펼치게 될 것입니다. 의뢰받은 프로젝트를 수행하는 입장에서는 그러한 판단을 고객과 함께 고민해야 할 것입니다.
 
 

thinkuser

About thinkuser

ThinkUser는 경험가치 혁신을 근간으로 비즈니스 전략, 서비스, 제품을 디자인하는 UX 컨설팅 회사입니다.