A/B 테스트 정복하기 (3) : 실험 모수와 기간은 어떻게 정하는게 좋은가요?
서비스

A/B 테스트 정복하기 (3) : 실험 모수와 기간은 어떻게 정하는게 좋은가요?

핵클팀에서 A/B 테스트 설계, 준비, 진행, 결과해석, 의사결정 전 과정에 걸쳐 많은 분들이 궁금해 하시는 내용들을 ‘A/B 테스트 정복하기’ 시리즈로 다룹니다.

Sophie
,
Business Development Manager
March 22, 2022
콘텐츠 공유

1. 어떤 경우 A/B 테스트를 해야 하나요?

2. 실험의 목표 지표는 어떻게 정하는게 좋은가요?

3. 실험 모수와 기간은 어떻게 정하는게 좋은가요?

4. 유저식별자 세팅은 어떤 기준으로 하는게 좋은가요?

5. A/B 테스트로 인과관계 확인이 가능한가요?

6. 테스트를 중단할 타이밍은 언제인가요?

7. 애매한 결과가 나왔을 때의 의사결정은 어떻게 하는것이 좋을까요?

8. 테스트를 다시 시작하고 싶으면 어떻게 해야하나요?

9. 조직 내 리뷰 프로세스는 어떻게 가져가는게 좋을까요?

***

이번 포스팅에서 다룰 주제는 A/B 테스트를 시작하려는 조직에서 가장 많이 주시는 질문, 바로 실험 모수와 기간 정하기입니다. 과연 모든 실험에 권장되는 모수 사이즈와 기간이 있을까요?

답부터 먼저 말씀드리면, ‘일반적으로 권고되는 기준은 있지만, 실험 모수와 기간은 서비스 성격이나 회사에 따라 다르게 설정해야 한다’입니다.

실험의 모수 : T-Test와 통계적 검정

A/B 테스트 통계적 유의성 계산에 사용되는 t-test는 모수가 작아 정규분포를 따르지 않는 경우에도 사용할 수 있는 검정 기법으로, 통계학에서는 30 미만의 표본을 대상으로 한 실험에서도 t-test를 통해 유의성을 검증하기도 합니다. 따라서 일반적으로 이보다 큰 모수를 대상으로 진행하는 웹, 모바일 환경에서의 실험에서 실험 모수는 크게 고민할 필요가 없는 부분입니다.

다만 모수가 작을수록 실험을 통해 측정하려고 하는 지표의 그룹 간 gap이 커야 통계적으로 유의한 결과를 확인할 수 있게 됩니다.

실험 기간 : 전환 주기를 반영한 기간 설정

실험 기간을 설정할 때는 일반적으로 유의한 결과를 확인할 수 있는 모수에 도달하기 위해 필요한 기간, 그리고 특정 시점에 의한 효과를 제거하기 위해 필요한 기간을 고려하게 됩니다.

아직 유저가 많지 않은 서비스에서는 실험 기간을 3~4주로 가져갈 수도 있고, 유저들이 변경사항을 확인한 후 최종 구매결정을 내리기까지 리드타임이 1주일 이상 걸리는 서비스인 경우, 전환이 발생할 충분한 시간을 확보하기 위해 2주 정도의 실험 기간을 잡을 수도 있습니다. 실험을 통해 지표가 움직이는 폭이 클 것이라 예상되는 경우, 실험 기간을 더 짧게 잡을 수도 있습니다.

이처럼 실험 기간 설정에 정해진 답은 없으나, 글로벌 테크 기업들은 최소 기준으로 1주 이상은 진행할 것을 권고하고 있습니다.

'실패'하는 A/B 테스트는 없다

다양한 상황들을 고려해서 정한 모수와 실험으로 진행한 A/B 테스트. 기간은 계속 늘어가고 모수는 쌓여가지만, 통계적으로 유의한 결과가 끝까지 나오지 않는 상황도 빈번하게 발생하는데요. 이 경우 실패한 실험이라고 할 수 있을까요? 답은 '꼭 그렇지는 않다' 입니다.

A/B 테스트를 처음 기획했던 시점으로 돌아가 생각해보면, 결국 실험의 목적은 변경사항에 대한 유저의 반응을 측정하는 것이었습니다.  두 그룹의 지표에 통계적으로 유의한 차이가 없었다는 것은 결국 유저들이 한쪽 안을 특별히 선호하지는 않았다는 뜻이며, 이와 같은 결과는 그 자체로 유저에 대한 러닝이 될 수 있습니다.

또한 두 그룹을 전체로 놓고 봤을 때는 통계적으로 유의한 차이가 없었지만, 각 그룹을 세그먼트 (ex. 회원등급, 지역, 연령 등) 단위로 나누어 분석했을 때 특정 세그먼트에서 다른 행동 패턴이 확인될 수도 있습니다. 이 경우 우리는 특정 환경에서 버그나 사용성의 문제를 발견할 수도 있고, 특정 세그먼트의 유저 선호도를 확인할 수도 있습니다.

목표 지표를 PC와 Mobile로 나누어 봤을 때 서로 다른 방향으로 지표가 움직인 사례

결국 모든 A/B 테스트 결과는 고객에 대한 메시지를 담고 있기에, 이를 통해 얻은 러닝을 바탕으로 더 큰 폭으로 지표를 개선할 수 있는 A/B 테스트를 설계하는 것, 이와 같은 이터레이션 과정을 구축하며 고속성장의 발판을 마련해 나가는 것이 A/B 테스트를 진행하는 의미가 아닐까 싶습니다.

핵클 대시보드 미리보기

핵클 대시보드에서는 아래와 같이 각 그룹에 대한 지표(ex. 멤버십 가입률) 계산 결과와 p-value 값을 제공합니다. 그룹C가 기준그룹 대비 21.59% 개선이 있었다는 점을 확인할 수 있지만, p-value는 0.27 정도로, 일반적으로 통계적으로 유의하다고 해석할 수 있는 범위(0.05 이하)에는 들어오지 않습니다. (p-value는 A/B 테스트에 있어 알아두어야 할 중요 개념 중 하나로, 별도의 포스팅에서 다룰 예정입니다.)

빈도주의(p-value) 결과값

이 경우 특정 그룹의 지표가 다른 그룹의 지표보다 높을 확률을 직접적으로 계산한 베이지안 계산값을 함께 참고할 수 있습니다. 아래 이미지를 보면 그룹C가 가장 우수할 베이지안 확률이 74%로, 실험 담당자는 여러 관점의 계산결과를 종합적으로 고려하여 최종적으로 그룹C를 winning 그룹으로 실험을 종료하는 의사결정을 내릴 수 있습니다. (물론 멤버십 가입률 지표 외 다른 중요 지표들이 그룹C에서 악화되었다면 다른 그룹을 선택할 수도 있습니다.)

베이지안 결과값

정리하자면, A/B 테스트는 그 과정 자체로 우리 서비스를 이용하는 유저를 한 층 더 깊이 이해할 수 있게 되는 도구입니다. 조직 내 여러 팀이 동시다발적으로 실험을 진행하는 경우 각 실험 트래픽을 분리하여 운영하기 위해 정확한 모수와 기간을 설정해야 하는 경우도 있을 수 있지만, 그렇지 않은 경우라면 모수와 기간을 고민하는데 너무 많은 시간을 할애하기보다, 일단 실험을 시작하여 유저의 반응을 직접 확인해보는 것을 권장드립니다.

충분한 러닝을 얻었다고 판단되는 시점에 실험을 종료하고, 해당 내용을 반영한 이터레이션을 준비하는 것이 조직이 훨씬 빠르게 성장하며 앞으로 나아갈 수 있는 지름길이 될 수 있습니다.

A/B 테스트 플랫폼에서 직접 실험 설계 정보를 세팅해보고 싶으시다면, 핵클 대시보드에 구글 계정으로 로그인하셔서 진행해보실 수 있어요.

[핵클 대시보드에서 A/B 테스트 세팅해보기]

***


핵클에서는 A/B 테스트 입문자부터 전문가까지 다양한 경험치를 가진 분들이 모여 정보와 노하우를 나눌 수 있는 커뮤니티를 운영중입니다. 아래 링크로 입장하셔서 아직 해결하지 못했던 고민들도 나누고, 데이터 기반의 제품 성장을 고민하는 다른 분들과 교류하세요.

[A/B 테스트 실무자 커뮤니티 입장하기]

트위터에 공유하기
제품 주도 성장에 필요한 모든 기능을
All-in-One 플랫폼 핵클과 함께 시작해보세요!
무료 체험 시작하기
콘텐츠 공유
인터뷰에 나온 회사처럼,
빠르게 성장하고 싶다면 핵클과 함께 하세요!
핵클 드림팀 신청하기

성장의 시작, 핵클이 함께합니다!

비대면 바우처를 통해 70% 할인된 금액으로 핵클을 시작해보세요.
자세히 알아보기

👀 이런 콘텐츠는 어때요?