핵클팀에서 A/B 테스트 설계, 준비, 진행, 결과해석, 의사결정 전 과정에 걸쳐 많은 분들이 궁금해 하시는 내용들을 ‘A/B 테스트 정복하기’ 시리즈로 다룹니다.
1. 어떤 경우 A/B 테스트를 해야 하나요?
2. 실험의 목표 지표는 어떻게 정하는게 좋은가요?
3. 실험 모수와 기간은 어떻게 정하는게 좋은가요?
4. 유저식별자 세팅은 어떤 기준으로 하는게 좋은가요?
5. A/B 테스트로 인과관계 확인이 가능한가요?
6. 테스트를 중단할 타이밍은 언제인가요?
7. 애매한 결과가 나왔을 때의 의사결정은 어떻게 하는것이 좋을까요?
8. 테스트를 다시 시작하고 싶으면 어떻게 해야하나요?
9. 조직 내 리뷰 프로세스는 어떻게 가져가는게 좋을까요?
***
웹/앱 서비스의 새로운 기능을 출시하는 순간은 늘 기대되면서도 떨리기 마련입니다. 고객들이 새 기능에 어떻게 반응할지, 배포 과정에서 장애가 발생하지는 않을지, 프로덕트 담당자와 개발자는 말 그대로 오만가지 생각에 휩싸이게 되죠.
기능을 배포할 때는 아래 세 옵션 중 하나를 선택하게 됩니다.
단순 배포와 기능플래그를 통한 배포는 방식의 차이는 있지만, 신규안을 출시한다는 방향성이 확고하다는 점에서는 동일합니다. 그냥 배포 후 발생하는 문제에 대응할지 (물론 문제가 없을 수도 있지만요), 발생할 수 있는 문제들을 모니터링하고 대응하며 점진적으로 배포할지의 차이일 뿐이지요.
반면 A/B 테스트로 기존, 신규안의 데이터를 비교하며 출시하는 방법은 결과적으로 기존안을 유지할 가능성이 존재한다는 점에서 앞의 두 방식과는 다릅니다. 예를 들어 A. 기존안, B. 신규안을 동시에 고객에게 노출했을 때, B 그룹에서 관찰되는 주요 지표(ex. 회원가입율, 구매전환율)가 오히려 악화된다면 아무리 애써 준비한 버전이라고 해도 출시하지 않는 결정을 할 수 있는 것입니다.
기능 출시 후 중요 지표들이 개선되어 신규 안을 유지하는 결정을 내릴 수 있습니다. 그러나 이 경우 출시 후 고객 반응이 ‘신규 기능’으로 인한 것인지, 마침 동 시기에 발생한 다른 외부적 요인 때문인지 정확하게 알 수 없다는 문제가 있습니다.
아래 이미지 예시처럼, 신규 기능을 적용했을 때 매출이 23% 증가한 경우를 생각해볼 수 있습니다. 신규 기능을 준비한 프로덕트팀에서는 성공적인 출시였다고 자축했지만, 매출의 증대는 사실 기능 변화로 인한 것이 아닌, 코로나 상황과 마케팅 행사 등의 외부 요인으로 인한 것이었을 수 있습니다. 신규 기능은 오히려 고객의 사용성을 떨어뜨려 7%의 매출 감소를 야기했는데, 전체적으로 증가한 매출로 인해 이 영향을 정확하게 볼 수 없었던 것이죠.
사실 모든 상황에 일괄적으로 적용할 수 있는 정답은 없습니다. 개선해야 할 문제가 명확하고 시급한 경우에는 단순 배포, 혹은 기능 플래그를 통한 배포가 리소스를 아끼는 방법이 될 수 있고, 고객 반응을 예측하기 어려운 경우에는 신규 기능이 의도치 않게 중요 지표를 악화시킬 가능성은 없을지 모니터링하며 A/B 테스트를 통해 배포할 수 있습니다.
따라서 다양한 상황을 고려하여 배포 방법을 결정할 수 있도록 조직 내 합의된 의사결정 기준을 세워두는 것이 필요합니다.
***
핵클에서는 A/B 테스트 입문자부터 전문가까지 다양한 경험치를 가진 분들이 모여 A/B 테스트 관련 정보와 노하우를 나눌 수 있는 커뮤니티를 운영중입니다. 아래 링크로 입장하셔서 아직 해결하지 못했던 고민들도 나누고, 데이터 기반의 제품 성장을 고민하는 다른 분들과 교류하세요.