Think-Aloud 프로토콜 분석의 신뢰도 검증을 위한 Kappa Ratio(κ) 활용

목차 1. Kappa Ratio의 목적 2. 단순 일치 비율의 문제점 3. Kappa Ratio의 계산 4. Kappa Ratio의 해석 및 한계

1. Kappa Ratio의 목적

10가지 과제로 구성된 실험에서 참여자가 각각의 과제 수행 후에 긍정적인 반응을 보이면 A로 코딩하고, 부정적인 반응을 보이면 B로 코딩한다고 할 때, 긍정/부정을 판단할 기준이 분명하지 않다면 여러 명의 관찰자가 동일한 상황을 관찰했더라도 누구는 A, 누구는 B로 서로 다른 코딩을 할 우려가 있습니다. 프로토콜 분석을 위해 참여자의 언어를 기록할 때 혼동됨 없이 기록하기 위해서는 명확한 코딩 스킴(coding scheme)이 필요하며, 이 때 κ 는 코딩 스킴의 신뢰성(intercoder reliability)을 검증하기 위한 목적으로 사용할 수 있습니다. * 프로토콜 분석 IT 분야에서 프로토콜은 FTP, TCP/IP 같은 통신 규약을 의미합니다. 컴퓨터 네트워크를 통해 데이터를 송신, 수신하기 위해서는 데이터가 일정한 양식을 갖추어야 하고 그러한 양식을 규정한 것이 프로토콜입니다. 한편, 위에서 언급한 프로토콜은 그것과 의미가 다른데, 일반적으로 개인(참여자)이 문제를 해결하는 과정에서 중얼거린 말들을 그대로 기록한 것을 프로토콜이라고 합니다. 프로토콜 분석은 프로토콜 데이터를 통해 참여자의 사고 혹은 인지 과정을 추적하고 언어의 양식을 밝히고자 합니다.

2. 단순 일치 비율의 문제점

κ 는 기본적으로 똑같은 상황에서 똑같은 코딩 스킴을 가지고 두 사람이 각자 코딩했을 때 코딩 내용이 서로 얼마나 일치하는지 알아보는 수치입니다. 신뢰도가 높은 코딩 스킴이라면 두 사람의 코딩 내용이 서로 비슷할 것이고, 신뢰도가 낮은 코딩 스킴이라면 각자의 주관에 따라 코딩 내용이 많이 다를 것입니다. 본격적으로 κ 를 계산하기에 앞서 맛보기로 단순 일치 비율을 따져볼 수 있습니다.

표 1

<표 1>은 두 명의 코더가 기록한 내용을 정리한 것입니다. 8개의 평가 항목 중 6개의 항목은 두 코더의 기록이 일치하고, 2개는 일치하지 않습니다. 즉, 두 사람의 코딩은 75%의 일치 비율을 보입니다. 이 정도면 높은 일치 비율일까요? 이 정도면 신뢰도가 높은 코딩 스킴이라고 할 수 있을까요? 아쉽게도 이러한 단순 일치 비율은 코딩 스킴에 대한 신뢰도를 담보하지 못합니다. 그 이유를 알아보기 위해 이번에는 평가 항목이 100개인 코딩 스킴( [가] )을 가정하겠습니다. 두 명의 전문가 앤드류와 토마스가 제품을 평가한 후 각자 결과를 코딩했습니다. 각각의 항목은 A 혹은 B로 코딩됩니다. 앤드류는 100개의 항목을 모두 A로 코딩했고, 토마스는 99개는 A, 1개는 B로 코딩했습니다. 이 때의 단순 일치 비율은 99%입니다. 위에서 75%의 일치 비율을 나타낸 코딩 스킴에 비해 높은 일치 비율을 나타냈기 때문에 훨씬 신뢰도가 높은 스킴이라고 생각할 수 있을까요? 그런데, 99개의 A 문자와 1개의 B 문자를 컴퓨터 프로그램을 이용하여 랜덤하게 배열한 다음 그 순서대로 코딩을 해보면 사실 토마스의 코딩 내용과 크게 다르지 않습니다. 적어도 98개의 항목은 변함없이 코딩이 일치하게 됩니다. 토마스의 코딩에서는 어느 특정 항목이 A로 코딩될 확률이 99%이기 때문에 이 경우 컴퓨터가 랜덤하게 생성한 코딩과 의식있는 코더가 작성한 코딩을 비교해도 서로 크게 다르지 않고 일치 비율이 높습니다. 컴퓨터가 랜덤하게 작성한 코딩과 의식있는 코더가 고민하며 작성한 코딩이 구분이 되지 않는 상황이라면 이것은 문제가 아닐 수 없습니다. 단순 일치 비율은 많이 사용된 코드(A)와 적게 사용된 코드(B)의 사용 빈도 차이에 의한 영향을 많이 받기 때문에 그 자체로는 코딩 스킴의 신뢰도를 나타내는 수치로 적합하지 않습니다. 또 다른 코딩 스킴([나])을 예로 들겠습니다. 이 스킴도 항목이 100개인데 그 중 50개 항목은 앤드류와 토마스가 둘 다 A로 표기하여 서로 일치했고, 다른 49개의 항목은 둘 다 B로 표기하여 서로 일치했습니다. 나머지 1개 항목은 앤드류는 A, 토마스는 B로 서로 다르게 코딩했습니다. 이번에도 일치 비율은 99% 입니다. 컴퓨터에게 랜덤 코딩을 시켜보면 어떨까요? 50개의 A와 50개의 B를 랜덤하게 나열한 것과 토마스의 코딩 내용이 같을 수 있을까요? 이것은 마치 O/X 퀴즈 100문제를 찍어서 모두 맞추는 것과 같으며, 그 확률은 0.0000000000000000000000000000788861%입니다. 위에서 예로 든 두 가지 코딩 스킴(괄호로 표시한 [가]와 [나])은 앤드류와 토마스의 코딩이 99개 항목에서 일치했지만, 첫 번째 코딩 스킴은 두 코더가 별다른 고민없이 대강(즉, 랜덤하게) 작성해도 일치 비율이 높을 수 있었던 반면에, 두 번째 코딩 스킴은 한 사람이 대강 코딩하면 다른 사람의 코딩 내용과 아주 다른 코딩이 되기 쉽습니다. 즉, 단순 일치 비율은 99%로 서로 같지만, 후자의 결과가 훨씬 더 신뢰할 수 있는 코딩 스킴으로부터 나온 것입니다. 결과적으로 코딩 스킴의 신뢰도를 나타내는 수치라면, 위의 예에서 언급한 의식있는 코더의 정확한 코딩과 컴퓨터의 랜덤 코딩을 구분할 수 있어야 합니다.

3. Kappa Ratio의 계산

Kappa = (실제 일치 비율 – 기대 일치 비율) / (1 – 기대 일치 비율) 위의 κ 계산 공식에서 실제 일치 비율은 앞서 살펴본 단순 일치 비율과 같은 개념입니다. 두 코더의 코딩 내용을 비교해서 전체 항목 중에 몇 개의 항목이 일치하는지 살펴보면 됩니다.

표 2

다음으로 기대 일치 비율을 이해하기 위해 <표 1>의 데이터를 정리한 <표 2>를 보겠습니다. 코더 1은 A를 7번 사용했고, 코더 2는 A를 5번 사용했습니다. 그렇다면 두 코더의 코딩이 모두 랜덤하게 이루어진다고 가정하고 어떤 평가 항목에 대해 코더 1, 코더 2, 둘 다 A로 기록할 확률은 얼마일까요? 코더 1이 A로 기록할 확률은 7/8 이고, 코더 2가 A로 기록할 확률은 5/8 입니다. 따라서 특정 평가 항목을 두 코더가 동시에 A로 기록할 확률은 7/8 * 5/8 = 35/64 ≒ 0.55 입니다. 마찬가지로 특정 평가 항목에 대해 두 코더가 모두 B로 기록할 확률은 1/8 * 3/8 = 3/64 ≒ 0.05 입니다. 즉, 두 코더가 모두 랜덤 코딩을 해도 각각의 평가 항목은 0.55 + 0.05 = 0.60, 즉 60% 확률로 일치할 것을 기대할 수 있습니다. 이것이 κ 계산 공식에서의 기대 일치 비율입니다. 전체 항목이 100개라면 두 명의 코더가 아무렇게나 코딩해도 60개 정도는 우연히 일치할 수 있다는 것입니다. κ 를 통한 코딩 스킴의 신뢰도 판단은, 우연하게 일치할 수 있는 수준보다 훨씬 더 많은 항목이 실제로 일치하고 있는지를 따져보는 것입니다. κ 계산 공식에서 분모는 (1 – 기대 일치 비율) 입니다. 의미를 따져본다면, 모든 항목 중에서 60%는 우연히 코딩이 일치할 수 있는데 랜덤 코딩을 해도 우연히 일치할 수 있는 항목들은 코딩 스킴의 신뢰도 판단에 도움이 되지 않기 때문에 제외하고, 나머지 40%만이 신뢰도 판단에 유효하다는 의미로 생각할 수 있습니다. 코딩 스킴의 신뢰도가 높다면 나머지 40%에 대해서도 일치하는 항목이 많을 것이고, 신뢰도가 낮다면 일치하는 항목이 적을 것입니다. κ 계산 공식에서 분자는 (실제 일치 비율 – 기대 일치 비율) 입니다. <표 1>에서 전체 항목 중 75%가 일치했습니다. 그 중에서 60%는 랜덤 코딩을 해도 나타날 수 있는 일치이고 나머지 15%의 일치는 코더의 의식이 반영된 일치로 판단합니다. 따라서, Kappa ratio는 단순 일치 비율의 문제점을 보완하는 수치로서, 랜덤 코딩을 가정할 때 발생할 수 있는 우연한 일치를 제외하고도 여전히 일치하는 항목이 많은지를 나타내는 비율이라고 생각할 수 있습니다. <표 1>, <표 2>에서 계산한 수치를 대입해서 κ 를 계산해보면 아래와 같습니다.   Kappa = (0.75 – 0.60) / (1 – 0.60) = 0.15 / 0.40 = 0.375 처음에 <표 1>에서 계산했던 단순 일치 비율 0.75에 비해서는 값이 상당히 낮아진 것을 알 수 있습니다. 이것은 두 사람의 코딩 내용 중에 A가 B에 비해 훨씬 많았고, 그 때문에 기대 일치 비율이 높아진 탓입니다. 앞에서 예로 들었던 100개의 항목을 가진 코딩 스킴에 대해서도 각각 계산해보겠습니다.   Kappa = (0.99 – 0.99) / (1 – 0.99) = 0.00 ( [가] 앤드류는 100개 모두 A로 코딩. 토마스는 A 99개, B 1개. 하나의 항목만 코딩이 서로 다름)   Kappa = (0.99 – 0.50) / (1 – 0.50) = 0.98 ( [나] 앤드류는 A 51개, B 49개 코딩. 토마스는 A 50개, B 50개. 하나의 항목만 코딩이 서로 다름) 어떤 코딩 스킴이 좋은 것인지 극명하게 나타납니다. 보다 복잡한 경우의 κ 를 계산할 수도 있습니다.

표 3

이번에 사용하는 코딩 스킴은 총 98개 항목으로 되어 있으며, 각 항목은 A, B, C, D, E, 5개의 코드 중에서 하나로 코딩됩니다. <표 3>은 코더 1, 코더 2, 두 사람의 코딩 결과를 정리한 것인데, 표를 보면 98개 항목 중 두 사람 모두 A로 코딩한 항목이 6개이고, 코더 1은 D로 코딩했는데 코더 2는 E 로 코딩한 항목은 3개입니다. 실제 일치 비율은 <표 3>의 대각선 상에 위치하는 셀의 수치(6 + 48 + 17 + 5 + 2 = 78)를 98로 나누면 구할 수 있습니다. 약 0.796입니다. 코더 1은 98개 항목 중 A로 코딩한 항목이 8개이고, 코더 2도 역시 A로 코딩한 항목이 8개이므로, 두 사람이 랜덤 코딩을 할 때 어떤 항목에 대해 우연히 A로 일치할 확률을 계산할 수 있습니다. 즉, 코드 A에 대한 기대 일치 비율은 8/98 * 8/98 ≒ 0.007 입니다. 마찬가지로 코드 B 에 대한 기대 일치 비율은 50/98 * 60/98 ≒ 0.312 코드 C 에 대한 기대 일치 비율은 30/98 * 20/98 ≒ 0.062 코드 D 에 대한 기대 일치 비율은 5/98 * 8/98 ≒ 0.004 코드 E 에 대한 기대 일치 비율은 5/98 * 2/98 ≒ 0.001 따라서 전체 기대 일치 비율은 각 코드별 수치를 더한 약 0.386 이 됩니다.   Kappa = (0.796 – 0.386) / (1 – 0.386) = 0.410 / 0.614 = 0.668

4. Kappa Ratio의 해석 및 한계

κ 는 두 명의 코더가 각자 코딩한 내용이 서로 얼마나 일치하고 있는지를 나타내며, 이 값을 통해 코딩 스킴의 신뢰성을 진단할 수 있습니다. κ 가 어느 정도 높을 때 좋은 코딩 스킴이라고 할 수 있는지 절대적인 기준은 없으나, 보통 κ 값이 0.70 미만인 경우는 코딩 스킴에 대한 수정, 보완이 필요하다고 봅니다. 설문 조사를 할 때 긍정 문항과 부정 문항을 섞어서 참여자 응답의 진실성을 판단하듯, 코딩 스킴을 만들 때도 여러 가지 코드가 골고루 사용될 수 있도록 만들어야 κ 값이 높습니다. κ 의 한계는 모든 평가 항목이 동일한 코드 카테고리를 가져야 한다는 것입니다. 어떤 항목은 O, X, 두 가지 코드로 코딩되고, 어떤 항목은 높다, 보통이다, 낮다, 세 가지 코드로 코딩되는 등 제각각이라면 κ 를 계산할 수 없습니다. 물론 총 20개의 평가 항목 중 10개는 O, X, 나머지 10개는 3점 척도로 코딩된다면, 10개의 항목씩 따로 κ 를 계산할 수는 있습니다. 또한 κ 는 코딩 스킴의 신뢰성에 대한 진단이지 타당성에 대한 진단은 아니므로, κ 가 높다는 것이 ‘우리가 코딩 스킴을 제대로 만들었구나’ 라는 안도감으로 이어져서는 안 됩니다. κ 가 높더라도 각각의 항목이 조사 목적에 부합하는 적절한 항목인지에 대한 의문은 사라지지 않습니다. 코딩 스킴의 κ 가 높다는 것은 평가의 기준이 명확하고 혼동의 여지가 적어서, 평가자들이 진지하게 평가를 하는 경우 각자의 코딩 내용이 서로 비슷할 것을 기대할 수 있다는 뜻입니다.


참고 문헌 『The Think Aloud Method』 p. 126 ~ 131. Maarten W. van Someren 著, 1994, Academic Press

thinkuser

About thinkuser

ThinkUser는 경험가치 혁신을 근간으로 비즈니스 전략, 서비스, 제품을 디자인하는 UX 컨설팅 회사입니다.