실험 DESIGN: 사용성 테스트의 타당도

 
사용성 테스트(Usability Test, UT)* 결과를 ‘일반화(Generalization) 할 수 있느냐’ 하는 UT 방법론에 대한 문제 제기는 여전히 유효한 것 같습니다. 이와 관련해 아직도 UX 리서치 입문자들의 질문이 있거니와, 최근에는 비즈니스 주요 이슈에 대한 의사결정 일환으로 실험연구 성격의 UT를 진행하는 경우도 있기 때문입니다.

한편 일반화 가능성을 높이고자 UT 방법론에 대한 소모적인 논쟁과 자극 물로 사용되는 프로토타입 개발에 있어 과잉 투자가 있어 보입니다. 현업의 리서치에서 일반화 가능성은 어느 수준까지 담보해야 하는 것 일까요? 일반화 이외에 놓치고 있는 내용은 없는지도 함께 살펴 봤습니다.
 

문제점 발견을 위한 UT

종래에 현업에서 진행하는 UT는 실험연구에서 많은 기법을 빌려왔지만, 실은 사례연구에 가깝습니다. 전통적인 조사방법론의 갈래에 따라 구분하자면 UT는 기술적(Descriptive) 성격의 연구라 할 수 있습니다. 여기서는 손 쉬운 표현으로 ‘문제점 발견을 위한 UT’라 하겠습니다.

‘문제점 발견을 위한 UT’는 연구 가설에 따라 특정 디자인 변인(아이콘, 상호작용 스타일, 레이아웃 등)을 조작하거나 통제(Control)하여 인과관계를 규명하고자 진행하지는 않습니다. 그보다는 사용자들의 실제 제품 사용행태를 심층 관찰하고, 불편사항 및 요구사항을 기술하는 수준에서 그 방법론적인 의의와 한계가 있습니다.

‘문제점 발견을 위한 UT’ 결과는 일반화가 가능할까? 결론적으로 일반화 가능성에 대한 경험적인 가정(Assumption)이 있을 뿐입니다. 주요 쟁점 사항은 아무래도 참여자 수나 무작위(Random) 선발 여부 등에 대한 것입니다. 무작위 샘플링의 경우, 논리적 가정에 따른 샘플링(Sampling) 구획화가 있을 뿐 실제로 무작위 선발이 불가능한 경우가 많습니다. 참여자 수 관련해선 소수의 샘플로도 일반화가 가능하다는 경험적인 전제 또는 동의가 있을 뿐입니다.

실제로 UT를 여러 번 진행해 본 연구자라면 10명 안쪽의 참여자로도 충분히 반복되는 문제점 발견이 가능하다는 것에 동의합니다. 참여자 수가 10명 이상이 된다고 해서 발견하는 문제점에 큰 차이가 없다면 현업에서 진행하기에 매우 효율적이면서 신뢰도 있는 리서치 방법이라 할 것입니다.
 

디자인 변인의 비교•검증을 위한 UT

최근에는 서로 다른 디자인 특성을 가진 (경쟁)제품과의 ‘비교•검증연구’ 목적으로 UT가 진행되기도 합니다. 아예 상품기획 단계에서부터 특정 디자인 변인에 따른 프로토타입을 만들고 제품 개발 이전에 사용자 편의성과 만족도를 검증하고자 UT를 진행하는 경우도 많습니다.

이와 같은 UT는 실제 개발 및 양산 여부를 위한 의사결정 또는 다양한 부서간의 디자인 목표를 공유하고자 진행되는 경우입니다. 따라서 종래의 ‘문제점 발견을 위한 UT’와는 달리 확증적(Confirmative) 성격의 리서치 방법이 요구됩니다.

방법론적 측면에서는 유사 실험(Quasi-experiment)에 가까운 형태이거나, 디자인 변인의 인과관계 확증을 위해 엄격한 실험연구를 진행 합니다. 어떤 경우에는 아카데믹 장면에서 진행할 만한 사용자의 기초 지각(Perception), 행동에 대한 실험연구를 하기도 합니다.
 

외적 타당도

그렇다면 이러한 실험연구의 일반화 가능성은 어느 정도인가? 먼저 일반화에 대한 개념 정리를 해보도록 하겠습니다. 리서치의 일반화 가능성은 다른 말로 외적 타당도(External Validity)라고 합니다. 외적 타당도는 UT를 다른 사용자 집단이나 환경(사용자의 심리적 맥락/공간적 특성 등)에서 진행했을 때도 동일한 리서치 결과가 나올 것인가에 대한 정도를 말합니다(환경적인 측면에서는 Ecological Validity로 세분화 해서 구분하기도 합니다).

결국 실험연구의 일반화 가능성은 샘플링의 대표성, 실험 환경의 유사성 등으로 가늠하게 되는데, 실험연구는 그 역사만큼이나 외적 타당도를 높이기 위한 여러 장치들을 고안해 왔습니다. 참여자 선발 및 배치 방법, 실험 진행에 있어 오염(Bias)의 방지 그리고 통계적인 검증 기법 등이 대표적입니다. 그럼에도 실험연구는 실재와 다르다는 측면에서 외적 타당도에 대한 이슈제기는 늘 있어왔습니다. 이는 앞서 언급한 문제점 발견을 위한 UT 등 모든 실험실 장면의 리서치가 마찬가지 이긴 합니다.

그래서인지 현업 및 응용 연구에서는 외적 타당도를 높이기 위해서 가급적 실제 제품과 유사한 형태로 프로토타입을 제작하고, 실 사용환경과 동일하게 테스트를 모의(Simulate)하는데 투자를 아끼지 않습니다. 그런데 프로토타입의 완성도가 외적 타당도를 담보하지 않을뿐더러 한편으론 내적 타당도 측면에선 리서치 결과의 설명력을 취약하게 만들기도 합니다.
 

내적 타당도

UT에 있어 내적 타당도는 관찰이나 실험의 결과를 무엇으로 설명할 수 있느냐 하는 설명력(또는 정확성)의 정도를 말합니다. 현업의 장면에선 외적 타당도에는 관심을 갖지만, 정작 리서치의 기본이라 할 수 있는 내적 타당도 확보에는 세심한 주의를 기울이지 않는 듯 합니다. “실제 사용자 환경과 다르지 않아? 라는 질문은 많이 하지만, UT 결과가 어떤 디자인 변인의 영향에 따른 것인지에 대해서는 구체적인 질문을 하지 않습니다. “무엇 때문에 사용자들이 불편해 할까”라는 질문 말입니다.

내적 타당도가 낮을 경우, UT 결과의 해석에 있어 논란의 여지를 낳을 수 있고 때론 쓸모 없는 리서치가 되기도 합니다. 아무리 참여자의 실제 사용 환경과 유사하게 UT를 진행했다고 하더라도 다시 말해, 외적 타당도를 높였다 하더라도 내적 타당도가 확보되지 않은 UT는 부서간에 불필요한 논란만 키울 수 있습니다.

‘문제점 발견을 위한 UT’에서도 불편 사항의 결과가 무엇에 기인했는지 사용자 행동을 관찰하여 설명력을 높일 필요가 있습니다. 그러기 위해서는 애초 UT 계획/설계에 있어서 연구자 스스로 문제점을 미리 확인해 보고 그 문제점이 어떤 디자인 변인에 따른 것인지 가설화 해놓을 필요가 있습니다. 아쉽게도 많은 연구자들이 리서치 목적과 주제 구체화는 도외시하고 당장 눈에 보이는 참여자 샘플링이나 연구 시설(장비)의 환경 점검에만 관심이 많습니다. 고작 10 여명 안팎의 참여자 테스트를 외적 타당도를 높이기 위해 3집단 나아가서는 5집단으로 구획화하여 선발하는 것은 UT 계획/설계가 부실하다는 것과 다름이 아닙니다.

디자인 변인 비교•검증을 위한 UT는 더욱이 내적 타당도의 확보가 중요합니다. 디자인 변인의 차이가 곧 사용자 편의성이나 만족도의 차이를 설명해 줄 것이라는 가설 아래 UT를 진행하는 것이기 때문입니다. 가령, 단순한 예로 아래와 같이 두 OS에서 있어 Tab의 위치 차이가 사용자 편의성에도 차이를 보일 것인가를 주제로 UT를 했을 경우를 들어보겠습니다.

tab_bar

만약 Tab의 디자인 특성에 따른 사용자 편의성이나 만족도 차이를 확증하자면 Tab의 특성(위/아래) 이외에 칼라, 배경, 아이콘, 텍스트 그리고 서브(Sub) 페이지 결과 등등의 가외변인 등은 동일한 수준으로 통제하여 비교 검증을 해야 합니다. 이러한 통제 과정은 리서치의 ‘내적 타당도’를 높이는 일이라 하겠습니다. 내적 타당도 확보 측면에선 알고자 하는 디자인 변인 이외에 다른 디자인 요소의 별도 개발은 불필요한 일일 수 있습니다.

현업 및 응용 연구자들은 프로토타입의 완성도가 곧 외적 타당도를 높이기 위한 방안이라 판단한 것인지 실험 자극 물로 활용되는 프로토타입에 지나친 투자를 하는 경향이 있습니다. 일례로 위와 같은 Tab 디자인의 비교, 검증을 위해 모든 사용자 이벤트(event)에 해당하는 그래픽 화면과 인터랙션을 개발한다면 과연 필요한 일일까요? 오히려 설계 수준의 자극 물이거나 인터랙션이 제한적이라도 실험디자인 기법으로 동일한 수준의 외적 타당도의 확보는 충분히 가능한 일입니다.
 

제품개발주기에 따른 타당도의 수준

결론적으로 외적 타당도 뿐만 아니라 내적 타당도도 같이 높이는 것이 필요하다고 하겠는데 현실적으로 동시에 확보하기란 쉽지 않습니다. 엄연히 현업의 리서치 이기 때문에 마냥 내적 타당도를 높일 수도 없고, 그렇다고 외적 타당도만 담보하기에는 제품의 개발주기상 불가능한 경우도 있기 때문입니다. 따라서, 외적/내적 타당도 확보 관련해서는 그 수준의 균형이 필요합니다. 제품 개발주기로 단순하게 생각해보면, 기획 단계와 개발단계로 나눠 타당도의 균형과 이에 따른 방법론 제안이 가능해 보입니다.

제품 기획이나 디자인 개념(Concept) 도출의 단계라면 내적 타당도에 집중할 필요가 있습니다. 실상 프로토타입의 완성도가 높다고 해서 외적 타당도 이슈 제기가 아예 없는 것은 아닙니다. 기획 단계라면 디자인 개념을 명확히 하고 이에 가장 영향을 주는 디자인 변인을 선정, 실험연구 성격의 UT를 진행하는 것이 바람직합니다. UT에 활용될 자극 즉, 프로토타입은 설계(Wireframe) 수준이어도 가능합니다. 오히려 다른 디자인 변인을 통제한 자극을 UT로 검증할 수록 설명력을 탄탄하게 합니다. 설명력의 확보는 디자인 목표를 완수하는데 있어서도 필요합니다. 개발 단계에서 다른 디자인 변인들은 계속 변할 수 있기 때문입니다. 나아가 이는 일종의 기초 데이터로 활용되어 그 결과를 다른 제품에 응용, 확장할 수 있는 가이드라인(Guideline)으로도 쓰임새가 있습니다.

개발이 시작되고 배포 단계에 이르기까지는 외적 타당도를 점차적으로 높일 필요가 있습니다. 환경적인 측면에서 실제 사용자의 심리적/환경적 맥락을 모의(Simulate)하고 리서치를 진행하도록 합니다. 방법적인 측면에서도 디자인 변인의 검증 보다는 실제 사용상의 문제점 발견에 초점을 둡니다. 그러자면 소수의 참여자를 대상으로 UT를 반복해서 진행하는 것이 효과적입니다. 한편 샘플사이즈의 구획화나 규모에 대한 지나친 기준 설정보다는 리서치 주제의 합목적성과 UT 과업의 적합성에 논의를 집중하는 것이 필요합니다.

지금까지 현업의 많은 리서치가 외적 타당도 확보에만 많은 신경을 쓴 것이 사실입니다. 현업의 연구이니 당연히 그럴 수밖에 없겠지만, 한편으로 리서치 무용론이 제기되는 하나의 원인 같기도 합니다. 최소한 논리적 정합성 수준에서라도 내적 타당도가 없는 연구를 많이 보았기 때문입니다. 앞으로는 ‘내적 타당도(설명력)’ 확보에도 좀더 무게를 두면 어떨까 하는 생각입니다. 특히나 상품/디자인 기획 단계의 UT라면 말입니다.
 


* 테스트(test)는 그 주제에 따라 다르게 부르는 것이 맞을 터인데, 우리나라에서는 모든 주제와 종류의 테스트를 편의상 Usability Test라고 통칭해서 부르는 경향이 있는 것 같습니다.

** 외적 타당도를 우선시 하는 SIGCHI 연구 풍토 관련해서 Jeremiah D. Still 교수도 비슷한 문제제기를 한바 있습니다. 칼럼은 http://www.jeremiahstill.info/Interactions_Feature_Still_2011.pdf 참조해 보시길 바랍니다. 국내 HCI 커뮤니티에서도 동일한 문제제기가 있었는지는 모르겠습니다.
 
 

thinkuser

About thinkuser

ThinkUser는 경험가치 혁신을 근간으로 비즈니스 전략, 서비스, 제품을 디자인하는 UX 컨설팅 회사입니다.