실험 시작만 하세요. 의사결정은 핵클 AI가 도와 드립니다
서비스

실험 시작만 하세요. 의사결정은 핵클 AI가 도와 드립니다

실험 기간 10일 경과, 성공지표의 p-value = 0.06 우리는 이 실험을 며칠 더 지속해야할까요?

Jen
,
Data Scientist
콘텐츠 공유
실험 기간 10일 경과, 성공지표의 p-value = 0.06 우리는 이 실험을 며칠 더 지속해야할까요?

A/B 테스트를 진행하다 보면 예상한 방향대로 결과가 나왔을 때 p-value가 0.05 아래로 떨어지기를 기다립니다. p-value가 0.06 이제 곧 0.05 아래로 떨어질 것 같은데, 수일이 지나도 0.05 아래로 떨어지지 않는 것을 경험해 본 적이 있을거라 생각합니다. 이럴 때 누군가 0.05 미만이 되기 위해서 며칠만 더 기다리면 된다고 알려주면 좋겠다는 생각 해본 적 있지 않으신가요? 핵클 AI가 이런 생각을 현실로 만들었습니다.

[1] 성공지표 중 통계적으로 유의미한 개선이 확인된 지표가 없는 경우

[2] 성공지표 중 통계적으로 유의미한 개선이 확인된 경우

핵클에서 실행되고 있는 실험 중, 성공지표가 2개 이상 등록되어 있다면 실험 기간이 7일, 14일, 21일에 도달 했을 때 핵클 AI가 대시보드 홈 대화창을 통해  실험 결과 요약과 함께 [1] 성공지표 중 통계적으로 유의미한 개선이 확인되지 않은 경우에는 p-value가 0.05 미만이 되는데 추가로 필요한 기간과 [2] 성공 지표 중 통계적으로 유의미한 개선이 확인된 경우에는 winner group을 추천해 드립니다.

어떤 원리인지 궁금하시다고요? 이를 이해하기 위해서는 먼저~ p-value를 이해하고 가셔야 합니다.

p-value를 이해해 봅시다.

A/B 테스트를 한 결과 그룹 A, B의 전환율이 각각 2.0%, 2.14%이고 t-test 결과 p 값이 0.044로 우리가 설정한 alpha (= 0.05) 미만으로 통계적으로 유의미하다고 판단하여 B로 실험을 종료 했다고 가정해봅시다. 이때 p 값은 A그룹에서 극단적인 전환율이 관측되어서 그룹 B의 평균보다 큰 값이 나올 확률이 0.044 라는 것입니다. 

“즉 p-value < 0.05 1종 오류 = TYPE 1 error : H0 (영가설 = null hypothesis = 귀무가설 = 차이가 없다)이 참인데 기각할 확률, 영가설이 참이고 다른 모든 가정이 타당하다면, 관찰된 결과 이상으로 극단적인 결과를 얻을 확률은 5%미만 이다." 입니다.

(이미지 출처: https://abtestguide.com/calc/

위의 확률분포는 개별 그룹의 샘플 수, 평균, 표준편차만 알고 있다면 만들 수 있고, 점선으로 그려진 원으로 표시된 영역의 면적(1종 오류 확률 = 차트에서 면적 = 확률)을 구하는 것이 p-value를 계산하는 것입니다.

 p-value = f(샘플 수, 평균, 표준편차)를 구할 수 있다면?  샘플 수(n) = f(평균, 표준편차, p-value)를 활용해 역시 구할 수 있고. 수식은 아래와 같습니다. 

A/B 테스트 설계 단계에서 실험 기간을 미리 알 수 있답니다.

A/B 테스트 설계 단계에서 실험을 진행하고자 하는 위치의 트래픽, 개선하고자 하는 지표의 실험 이전 값, 목표로 하는 개선 비율이 정의되어 있다면 해당 지표가 p 값 0.05 미만의 유의미한 개선을 위해 필요로 하는 샘플 수(개별 그룹의 샘플 수)를 계산할 수 있고, 이를 활용한다면 누구나 쉽게 실험 기간 또한 계산할 수 있습니다. 

하지만 현실적으로 이렇게까지 실험을 설계하기가 어렵다는 것을 알기에 이미 시작한 실험에 대해 핵클 AI는 실험을 지속할지 vs 정지할지에 대한 의사결정을 보다 빠르게 할 수 있도록 위와 같은 정보를 제공해 드립니다.    

A/B 테스트, 최대 몇일까지 해야하나요?

우리는 일반적으로 “최소 며칠 해야 하나요?” 라는 질문은 많이 하는데, 최대 기간을 물어보는 경우는 거의 없습니다. 

실험 기간 설정에 정해진 답은 없습니다만, 최소 기간의 경우 실험을 통해 개선하고자 하는 사용자 행동의 발생 주기가 짧다면 요일 영향도로 인한 테스트 결과 왜곡을 방지하기 위해서 최소 1주 이상 진행할 것을 권고하고 있습니다. 그렇다면 최대 며칠까지 진행할 수 있을까요? 실험 그룹 간의 측정값, 개선율을 그대로 유지한 채로 샘플 수가 증가하면 언젠가는 p-value는 유의미해집니다. 아래 첨부한 이미지를 보면 이해하기 쉬운데, 샘플 수가 증가하면서 density가 커지면서 p-value 면적이 줄어들기 때문입니다. 

지금 설마 p-value가 낮아지기를 바라면서 의도적으로 실험 기간을 늘리며 의사결정을 지연하는 행동을 하고 있는 분은 없겠지요? 핵클에서는 1달 이상 실험을 지속하는 것을 추천하지 않습니다. 대신 유의미한 개선이 확인되지 않았다면, 지금까지의 실험 결과를 분석해 다음 실험을 계획하는 것을 추천합니다.

핵클 AI coming soon feature

“구매 전환율”, “활성 사용자 수” 매번 데이터 분석에서 생성해 놓은 리포트를 찾아들어가 확인하고 있으신가요? 이제는 핵클 대시보드 홈 “핵클 AI” 대화창에 입력만 해주세요. 핵클 AI가 직접 조회한 결과를 알려드릴 예정입니다.

트위터에 공유하기
제품 주도 성장에 필요한 모든 기능을
All-in-One 플랫폼 핵클과 함께 시작해보세요!
무료 체험 시작하기
콘텐츠 공유
인터뷰에 나온 회사처럼,
빠르게 성장하고 싶다면 핵클과 함께 하세요!
핵클 드림팀 신청하기

성장의 시작, 핵클이 함께합니다!

비대면 바우처를 통해 70% 할인된 금액으로 핵클을 시작해보세요.
자세히 알아보기

👀 이런 콘텐츠는 어때요?