핵클팀에서 A/B 테스트 설계, 준비, 진행, 결과해석, 의사결정 전 과정에 걸쳐 많은 분들이 궁금해 하시는 내용들을 ‘A/B 테스트 정복하기’ 시리즈로 다룹니다.
1. 어떤 경우 A/B 테스트를 해야 하나요?
2. 실험의 목표 지표는 어떻게 정하는게 좋은가요?
3. 실험 모수와 기간은 어떻게 정하는게 좋은가요?
4. 유저식별자 세팅은 어떤 기준으로 하는게 좋은가요?
5. A/B 테스트로 인과관계 확인이 가능한가요?
6. 테스트를 중단할 타이밍은 언제인가요?
7. 애매한 결과가 나왔을 때의 의사결정은 어떻게 하는것이 좋을까요?
8. 테스트를 다시 시작하고 싶으면 어떻게 해야하나요?
9. 조직 내 리뷰 프로세스는 어떻게 가져가는게 좋을까요?
***
A/B 테스트를 설계하는 과정에서 필연적으로 지표(metric) 설정과 관련된 고민을 마주하게 됩니다. 실험으로 인한 변화를 확인할 수 있는 올바른 지표를 설정하는 것이 중요하다고 하는데, 과연 버튼 클릭율, 구매 전환율과 같이 개선하고자 하는 하나의 지표만 확인하면 되는걸까요?
일반적으로 A/B 테스트를 진행할 때 목표 지표 하나만을 확인하는 방식은 권장하지 않습니다. 해당 지표가 실험을 통해 원하는 방향으로 움직였다고 하더라도, 다른 중요한 지표들이 의도하지 않은 영향을 받을 수 있기 때문입니다.
가장 기본적으로는 성공 지표(success metric, 가설을 검증 할 수 있는 지표)와 가드레일 지표(guardrail metric, 전사적으로 중요한 지표 또는 해당 기능으로 인해 부정적인 영향을 받을 수 있는 지표)를 설정하는 것을 권장합니다. 또한 성공 지표가 원하는 방향으로 가고 있는지를 더 빠르게 살피기 위한 중간 성공 지표(input metric)들을 설정할 수도 있는데요.
서비스 해지 방지를 위한 기능을 출시하는 상황을 예로 들어보겠습니다. 해지 버튼 클릭시 팝업 메시지로 해지 방지 메시지를 노출하는 실험을 진행하고자 합니다.
해당 실험을 통해 해지율, 해지자 수가 감소하는 결과를 얻었다고 해도, 팝업 페이지로 인해 서비스에 latency가 증가하여 최종 해지 페이지에 도달하지 못한 고객들이 발생했을 수 있고, 관련 CS 인입까지 증가했을 수 있습니다. 이 경우 성공 지표가 원하는 방향으로 움직였다고 해서 성공한 실험이라고 결론 내릴 수 있을까요?
이처럼 전사적으로 중요한 가드레일 지표를 함께 모니터링 하지 않는다면 잘못된 의사결정을 할 위험이 있기에, 실험 설계단계에 있어 가드레일 지표를 함께 설정하는 것은 옵션이 아닌 필수입니다.
또한 실험 대상 기능의 배포 여부를 정할 때는 성공 지표들이 의도한 변화를 보였는지, 가드레일 지표에는 부정적인 영향이 없었는지를 반드시 모니터링 한 후 최종 결정을 내려야 합니다.
실험이 영향을 미치는 범위에 따라서도 달라질 수 있는 부분이지만 한 실험에서 최소 4~5개 이상의 지표를 설정하는 것이 바람직하며, 전사적인 영향이 큰 실험에서는 수십개의 지표를 설정하기도 합니다.
A/B 테스트 플랫폼 핵클에서는 아래와 같은 목표지표 설정 화면을 제공합니다.
A/B 테스트 플랫폼에서 직접 실험 설계 정보를 세팅해보고 싶으시다면, 핵클 대시보드에 구글 계정으로 로그인하셔서 진행해보실 수 있어요.
***
핵클에서는 A/B 테스트 입문자부터 전문가까지 다양한 경험치를 가진 분들이 모여 A/B 테스트 관련 정보와 노하우를 나눌 수 있는 커뮤니티를 운영중입니다. 아래 링크로 입장하셔서 아직 해결하지 못했던 고민들도 나누고, 데이터 기반의 제품 성장을 고민하는 다른 분들과 교류하세요.