| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- 데이터분석가공부
- 데이터분석가
- 퍼널분석
- retention
- 파이썬
- 프로덕트데이터
- seaborn
- 코드잇스프린트
- 프로덕트분석
- 데이터분석프로젝트
- 코드잇
- 지표
- 파이썬시각화
- SQL
- 태블로
- Tableau
- 파이썬라이브러리
- 부트캠프
- 지표설계
- aarrr
- 로그설계
- 스프린트미션
- 결측값
- 데이터전처리
- 탐색적데이터분석
- 데이터분석가부트캠프
- amplitude
- 데이터분석공부
- 로그
- 데이터분석
- Today
- Total
StuDyata.zip
A/B 테스트 | 기본 통계 개념, 가설 검정, A/B 테스트 프로세스 전체 정리 본문
이 글은 코드잇 스프린트 데이터 분석가 과정 학습 기록입니다.
수업 내용과 느낀 점을 매일 정리하며 데이터 분석 공부 과정을 기록하고 있습니다.
🔭 A/B 테스트를 위한 통계 기초와 실험 프로세스 전체 정리
이번 시간에는 성공적인 프로덕트 개선의 핵심인 A/B 테스트와 이를 뒷받침하는 기본 통계 이론을 학습하였다. 직감이나 경험에 의존하는 대신, 실제 유저 데이터를 기반으로 의사결정을 내리기 위해서는 기술 통계와 추론 통계의 개념, 가설 검정, 그리고 체계적인 A/B 테스트 설계 프로세스를 이해해야 한다. 이번 글에서는 통계의 기본 개념부터 시작해 표본 추출, 중심극한정리, 가설 검정의 오류, 그리고 실제 실무에서 적용되는 A/B 테스트의 7단계 프로세스와 지표 설계 방법까지 상세히 정리해 보려고 한다.
📊기본 통계 개념
1️⃣ 통계의 두 가지 종류
통계는 데이터를 다루는 목적에 따라 크게 기술 통계와 추론 통계로 나뉜다.
- 기술 통계(Descriptive Statistics): 수집된 데이터를 요약하고 설명하는 통계 기법이다. 평균, 최댓값, 표준편차 등을 이용해 자료의 전반적인 특성을 수치나 그래프로 기술한다.
- 추론 통계(Inferential Statistics): 수집된 데이터(표본)를 분석하여, 관찰하지 못한 전체 집단(모집단)의 특성을 유추하는 기법이다. 주로 추정(Estimation)과 검정(Testing)을 통해 이루어진다.
2️⃣ 일상생활 속 추론 통계의 비유: 김치찌개?
전체 집단을 모두 조사하는 전수 조사는 시간과 비용이 막대하게 소모되거나 현실적으로 불가능한 경우가 많다. 따라서 우리는 일부 표본을 통해 모집단을 추론한다. 이는 일상에서 김치찌개를 요리할 때 간을 보는 과정과 일치한다.
- 김치찌개 국물 한 수저: 표본 조사 (Sample Survey)
- 전체 찌개 맛을 유추 및 평가: 추론 통계 (Inferential Statistics)
- 표본 조사를 하는 이유: 찌개 전체를 다 먹어봐야 맛을 알 수 있다면, 요리의 목적을 달성할 수 없으며 비용(시간과 노력)이 너무 많이 든다.
- 표본 추출 시 유의점: 간을 보기 전 찌개를 골고루 잘 섞어야 한다. 즉, 특정 부분의 맛만 보지 않도록 무작위 표본 추출(Random Sampling)이 필수적이다. 이는 추후 A/B 테스트에서 유저를 무작위로 배정해야 하는 이유와 같다.
3️⃣ 모집단과 표본
통계를 정확히 다루기 위해서는 집단과 수치를 나타내는 용어를 명확히 구분해야 한다.
| 구분 | 집단 / 수치 | 설명 | 기호 및 예시 |
| 모집단 (Population) | 집단 | 관찰하고자 하는 대상의 전체 집단 | 전수 조사 (예: 선거 투표 결과) |
| 모수 (Parameter) | 수치 | 모집단 전체의 특성을 나타내는 요약 값 | 𝜇(모평균), 𝜎(모표준편차), 𝑝(모비율) |
| 표본 (Sample) | 집단 | 모집단을 대표하기 위해 추출된 일부 집단 | 표본 조사 (예: 투표 출구 조사) |
| 통계량 (Statistic) | 수치 | 표본 데이터로부터 계산된 요약 값 | x̄(표본평균), 𝑠(표본표준편차), 𝑝̂(표본비율) |
4️⃣ 표본 추출 방법 (Sampling)
표본을 추출하는 방식은 개체가 선택될 확률이 동일한지에 따라 확률 표본 추출과 비확률 표본 추출로 나뉜다.
📍확률 표본 추출 (Probability Sampling)
모집단의 각 개체가 선택될 확률이 동일하게 보장되는 추출 방식이다.
- 단순 임의 추출(Simple Random Sampling): 어떠한 인위적 개입 없이 무작위로 표본을 추출하는 방식이다. (예: 제비뽑기, 무작위 배정)
- 층화 임의 추출(Stratified Random Sampling): 모집단을 특정 기준에 따라 서로 겹치지 않는 층(Stratum)으로 나눈 뒤, 각 층의 비율에 맞춰 무작위로 추출한다. (집단 내 동질적, 집단 간 이질적)
- 체계적 추출(Systematic Sampling): 일정한 체계나 간격을 가지고 표본을 추출하는 방식이다. (예: 명부에서 매 7번째 사람을 선택)
- 집락 추출(Cluster Sampling): 모집단을 서로 유사한 소그룹(Cluster)으로 나눈 뒤, 무작위로 선택된 소그룹 자체를 전수 조사하거나 그 안에서 표본을 추출한다. (집단 내 이질적, 집단 간 동질적)
📍비확률 표본 추출 (Non-Probability Sampling)
연구자의 판단이나 편의에 따라 표본을 추출하여, 개체의 선택 확률이 동일하지 않은 방식이다.
- 편의 표본 추출(Convenience Sampling): 접근하기 쉽고 설문 조사가 용이한 환경에 있는 대상을 표본으로 선정한다.
- 판단 표본 추출(Purposive Sampling): 연구자가 모집단의 특성을 잘 반영할 것이라고 판단하는 특정 집단을 의도적으로 선정한다.
- 할당 표본 추출(Quota Sampling): 사전에 연령, 성별 등 집단별 목표 할당 크기를 정해두고, 그 샘플 수에 도달할 때까지만 조사를 진행한 뒤 중단한다.
5️⃣ 표본 크기(n)의 중요성
- 큰 수의 법칙(Law of Large Numbers): 표본의 크기 n이 커질수록 표본평균이 모집단의 모평균에 한없이 가까워진다. 따라서 표본이 많을수록 추론 통계의 신뢰도가 높아진다. (예: 10,000명 중 1명만 뽑아서 평균 키를 유추할 수 없음)
- 중심극한정리(Central Limit Theorem, CLT): 모집단의 데이터 분포 형태와 관계없이, 표본의 크기 n이 충분히 커질수록(보통 n ≥ 30) 추출된 표본평균들의 분포는 정규 분포에 근사하다.
💡 면접 Tip: 강사님께서 이력서에 통계를 기재하면 단골로 나오는 질문이라고 소개해주셨다. 많은 지원자가 '표본 자체의 분포가 정규 분포가 된다'고 잘못 대답한다. 핵심은 '표본평균들의 분포(Sampling distribution of the sample mean)'가 정규 분포에 근사한다는 점이다. 면접 전 p-value와 중심극한정리의 정확한 정의는 필수로 숙지해야 한다.
6️⃣ 가설 검정 (Hypothesis Testing)
수집된 데이터를 바탕으로 세운 가설의 타당성을 통계적으로 검증하는 과정이다.
📍가설의 설정
- 귀무가설(H₀, Null Hypothesis): 대립가설과 반대되는 부정 명제로, 주로 보수적인 입장을 취한다. '차이가 없다, 효과가 없다, 동일하다'를 의미한다.
- 대립가설(H₁, Alternative Hypothesis): 실험을 통해 실제로 입증하고 싶은 주장이다. '차이가 있다, 효과가 있다, 동일하지 않다'를 의미한다.
- 왜 귀무가설을 기각하는 구조일까? 통계적 검정은 기본적으로 '변화나 차이가 없다'는 디폴트 상태(귀무가설)에서 출발하여, 이를 기각할 만한 확실하고 통계적인 증거가 발견되었을 때만 대립가설을 받아들이는 보수적인 방식을 취하기 때문이다.
📍양측 검정과 단측 검정
- 양측 검정(Two-sided Test): 방향성에 상관없이 두 집단 간에 차이가 있는지만 검정한다. (H₀: μA = μB, H₁: μA ≠ μB)
- 단측 검정(One-sided Test): 특정 방향(증가 또는 감소)으로 차이가 있는지를 검정한다.
- 오른쪽 단측 검정: H₁: μA > μB
- 왼쪽 단측 검정: H₁: μA < μB
📍p-value와 의사결정
- p-value(유의확률): 귀무가설이 참이라고 가정했을 때, 관측된 데이터 이상으로 극단적인 결과가 우연히 발생할 확률이다. 즉, 실험 결과가 단순한 우연으로 발생했을 확률을 의미하므로, 이 값이 작을수록 우연이 아닐 가능성이 높다.
- 유의수준(α, Significance Level): 귀무가설을 기각하기 위한 판단 기준선으로, 일반적으로 5%(0.05)를 사용한다.
- 판단 기준:
- p-value < α: 귀무가설 기각 (Reject H₀) → 대립가설 채택 (통계적으로 유의미한 차이가 있음)
- p-value ≥ α : 귀무가설 기각 실패 → 차이가 있다고 볼 수 없음
💡 결과 해석 시 주의점: 귀무가설을 기각했다고 해서 대립가설이 100% 진실이라고 확정 짓는 것은 아니다. 엄밀한 통계적 표현으로는 '유의수준 5% 하에서 귀무가설을 기각할 만한 통계적으로 충분한 근거가 있다'와 같이 확률적으로 서술해야 한다.
7️⃣ 가설 검정의 오류
검정 과정에서는 불가피하게 두 가지 종류의 오류가 발생할 수 있다.
| 데이터의 진실 \ 판단 | 귀무가설 기각 안 함 (H₀ 유지) | 귀무가설 기각 (H₁ 채택) |
| H₀가 참 (차이 없음) | 올바른 결정 | 제1종 오류 (α) |
| H₀가 거짓 (차이 있음) | 제2종 오류 (β) | 올바른 결정 (검정력, β) |
- 제1종 오류(α): 실제로는 차이가 없는데(H₀ 참), 차이가 있다고 잘못 판단하는 오류다. 유의수준 α는 이 제1종 오류를 허용할 최대 확률을 의미한다.
- 제2종 오류(β): 실제로는 차이가 있는데(H₀ 거짓), 차이가 없다고 놓치는 오류다.
- 검정력(Power, β): 실제로 효과가 있는 것을 효과가 있다고 올바르게 잡아낼 확률이다. 통상적으로 실무에서는 80% 이상으로 설정한다.
- 오류 간의 상충 관계(Trade-off): α를 줄이려 엄격하게 기준을 잡으면 β가 증가하여 검정력이 떨어진다. 제1종 오류를 키우지 않고 검정력을 동시에 높이는 유일한 방법은 표본의 크기 n를 늘리는 것이다.
8️⃣ 신뢰 구간 (Confidence Interval, CI)
모수가 특정 범위 안에 존재할 것이라고 예측되는 구간을 특정 확률(신뢰수준)로 나타낸 것이다.
- 95% 신뢰수준의 의미: 동일한 방식으로 표본을 추출하여 신뢰구간을 100번 생성했을 때, 실제 모집단의 모수가 그 구간 안에 포함되는 횟수가 95번이라는 뜻이다.
- 일상 예시: 친구에게 '10분에서 20분 정도 늦을 것 같다'고 말할 때, 100번 중 95번은 실제 늦는 시간이 이 범위 내에 포함된다면 95% 신뢰구간이라 볼 수 있다.
- 선거 여론조사 예시: A 후보 지지율 49%, B 후보 45%이고 표본오차가 ±3%p라면, A의 구간(46~52%)과 B의 구간(42~48%)이 겹치게 된다. 따라서 단순 수치가 높다고 당선을 확정적으로 단정 지을 수 없다.
💡 면접 Tip: 이것도 강사님께서 직접 받은 질문이라 하셨다. 정답이 없는 열린 질문이나 통계적 딜레마 상황(예: '신기술 도입 시 비용은 비싸고 편익이 적다면?')에서는 단답형(O/X)으로 답하기보다, 가설을 점검하고 여러 옵션을 탐색하는 열린 답변을 제시하는 것이 합격률을 높이는 방법이다.
💻A/B 테스트 (A/B Test)
1️⃣ 성공하는 서비스들의 공통점과 A/B 테스트
성공하는 IT 프로덕트들은 기획자의 직감이 아닌 데이터 기반 의사결정(Data-driven Decision)을 내린다. 새로운 기능을 출시하기 전 실험을 통해 유저의 실제 반응을 파악하고 실패 리스크를 최소화한다.
- A/B 테스트란? 기존 안(A안, 대조군)과 개선 안(B안, 실험군)을 유저에게 무작위로 노출하여 어떤 버전이 더 나은 성과를 내는지 정량적으로 비교하는 무작위 대조 실험(Randomized Controlled Trial)이다.
- 상관과 인과: 상관관계(Correlation)는 단순한 동시 변화 경향성일 뿐, 원인과 결과(Causation)를 보장하지 않는다. A/B 테스트는 유일하게 변화를 준 요인 외의 모든 외부 변수를 통제하므로 인과관계를 추정하는 가장 확실한 방법론이다.
2️⃣ 대조군과 실험군
- 대조군(Control Group): 기존의 UI나 로직을 유지하는 비교 기준 그룹 (A안)
- 실험군(Treatment Group): 새로운 변화(독립변수)를 적용하여 효과를 검증하려는 타깃 그룹 (B안)
3️⃣ 올바른 실험을 위한 조건
실험 결과를 신뢰하기 위해서는 테스트 요인 외의 모든 교란 요인(Confounding Factor)을 철저히 통제해야 한다.
- 동일 시점 진행: 계절성, 요일 효과, 외부 마케팅 프로모션 등의 영향을 통제하기 위해 반드시 동시간대에 테스트를 진행한다.
- 동질적인 유저 집단: 무작위 할당을 통해 성별, 디바이스, 유입 경로 등 집단 간 특성이 균등하게 분배되도록 맞춰야 한다.
4️⃣ 샘플 사이즈 계산하기 (Sample Size Calculation)
실험을 시작하기 전, 신뢰할 수 있는 통계적 결론을 내리기 위해 사전에 필요한 유저 수와 실험 기간을 계산해야 한다.
- Baseline: 현재 서비스의 기준 전환율
- MDE(Minimum Detectable Effect, 최소 탐지 효과): 비즈니스적으로 의미가 있다고 판단되는 최소한의 개선 목표치.
- 계산 예시 주의점: 기존 전환율이 3%이고 계산기를 통해 도출된 MDE가 32.17%라면, 목표 전환율은 3% + 32.17% = 35.17%가 아니다. MDE는 보통 상대적 개선율을 의미하므로, 3 * 1.3217 = 3.96%가 최종 도달해야 할 타깃 전환율이 된다. (만약 단순 덧셈이 성립하려면 단위가 %p여야 함)
- 결과 활용: 계산기가 산출한 Variation 수치(예: 변인당 4,998명 → 총 9,996명)와 일 평균 방문자 수를 바탕으로 필요한 최소 실험 기간(Required Duration)을 설정한다.
샘플 사이즈 계산기 예시: https://www.abtasty.com/sample-size-calculator/
Sample Size Calculator
Calculate your confidence interval, how long your test should run, and the sample size needed to maintain accuracy, with our ab test calculator!
www.abtasty.com



5️⃣ 좋은 지표와 우선순위 설정
- 좋은 지표의 조건: 단기간에 측정이 가능하고, 개선 변화에 민감하게 반응하며, 궁극적인 비즈니스 목표와 정렬되어 있어야 한다.
- ICE Score 프레임워크: 한정된 리소스에서 어떤 실험을 먼저 할지 결정하는 우선순위 평가 척도다.
- ICE Score = Impact(영향도) x Confidence(확신도) x Ease(용이성)
✨A/B 테스트 프로세스 전체 정리
실제 실무에서 진행되는 A/B 테스트는 체계적인 7단계 사이클을 따른다.
목표 설정 → 가설 설정 → A/B 그룹 생성 → 실험 설계 → 실험 진행 → 데이터 분석 → 결론 도출 ( → 반복)
📍Step 1. 목표 설정 (Goal Setting)
하나의 실험에서는 결과 해석의 혼선을 막기 위해 단 하나의 명확한 목표만 수립한다. (정성적 목표 구체화 및 정량적 수치화)
📍Step 2. 문제 및 가설 설정 (Problem & Hypothesis)
프로덕트의 현재 상태와 이상적인 목표 간의 간극(Gap)을 문제로 정의하고, 이를 해결할 변경 대상을 설정한다.
- 가설 작성: '상품을 판매 수량 순으로 보여주면(원인), 노출 대비 구매 전환율이 증가할 것이다(결과).'
- 주의점: 원인 분석을 명확히 하기 위해 하나의 실험에서는 단 하나의 요소만 변경해야 하며, 지표 변화를 감지할 수 있도록 유저 경험에 큰 임팩트를 주는 요소를 타깃으로 삼아야 한다.
📍Step 3. 지표 및 로그 정의 (Metrics & Logging Setup)
실험의 성과를 판단할 다각도의 지표를 설계한다.
- 성공 지표(Primary Metric): 가설 검증의 핵심이 되는 메인 지표 (예: 구매 전환율)
- 보조 지표(Secondary Metric): 성공 지표를 보완하고 다면적 이해를 돕는 지표 (예: 장바구니 담기율)
- 가드레일 지표(Guardrail Metric): 실험 성공 여부와 관계없이 절대 훼손되어서는 안 되는 방어 지표 (예: 환불 비율, 에러 발생 건수). 성공 지표가 올라도 가드레일 지표가 무너지면 실패한 실험이다.
- 로그 설계: 유저 행동을 트래킹하기 위한 데이터 구조를 정의한다. (예: Timestamp | User_ID | Page_Location | Action_Type)
📍Step 4. 샘플 설정 (Sampling & Allocation)
무작위 할당(Random assignment) 등을 통해 대조군과 실험군으로 유저 트래픽을 균등하게 분할한다.
- 샘플: 실험 대상으로 선택된 사용자들
- 샘플링: 전체 서비스 이용자 중에서 일부 사용자를 선택하는 과정
- 샘플 사이즈 : 전체 모집단을 대표할 수 있는 충분한 규모의 데이터 수
- 대표적인 샘플링 방법
- 무작위 할당: 어떠한 특정한 기준 없이 무작위로 배정하는 것
- 계층적 샘플링: 모집단을 여러 집단으로 나눈 다음, 각 그룹에서 무작위로 샘플을 추출하는 방식
- 클러스터 샘플링: 모집단을 여러 개의 클러스터로 나눈 다음, 몇 개의 클러스터를 무작위로 선택하는 방식
📍Step 5. 실험 진행 (Experiment Execution)
정해진 기간 동안 실험을 배포하고 모니터링한다.
- 첫째, 사용자 로그 분석을 통해 사용자가 중복 참여하지 않도록 한다.
- 둘째, 내부 직원들의 데이터는 필터링한다.
- 셋째, 실험 다음 날에 사전에 정의한대로 데이터가 잘 수집되어 있는지 데이터를 추출한다.
- 넷째, 사전에 계획한대로 실험을 진행하기 위해 성공 지표를 중간에 변경하지 않는다.
- 다섯째, 가드레일 지표에 심각한 영향이 있다면 실험을 중단한다.
- 여섯째, 샘플 사이즈가 충족되지 않는다면, 실험 기간을 늘리거나 성공 지표 대신에 보조 지표를 활용한다.
📍Step 6. 데이터 분석 및 결론 도출 (Analysis & Conclusion)
수집된 데이터를 바탕으로 통계 검정을 수행한다.
- 판단 로직: B안의 성과 수치가 A안보다 높고, 계산된 p-value가 유의수준 0.05보다 작으면 최종적으로 개선안을 실제 서비스에 반영(Apply)한다. 그렇지 않다면 기존 안으로 롤백(Rollback)한다.
📍Step 7. 반복 (Iteration)
성공과 실패 여부에 관계없이 실험을 통해 얻은 인사이트를 바탕으로 다음 가설을 수립하고 테스트를 반복하며 프로덕트를 고도화한다.
⚠️ 실험 결과 해석 시 주의사항 및 한계점
1️⃣ 시간 흐름에 따른 심리적 왜곡 효과
- 초두 효과(Primacy Effect): 기존 유저들이 익숙한 A안을 맹목적으로 선호하여, 더 나은 B안에 대해 초기에 거부감을 나타내는 현상.
- 신기 효과(Novelty Effect): 기능 개선 때문이 아니라, 단순히 새로워진 디자인에 대한 일시적 호기심으로 B안의 클릭률이 초기에 튀는 현상.
- 두 효과는 모두 충분한 실험 기간을 확보하여 데이터가 안정화된 이후의 결과를 분석해야 걸러낼 수 있다.
2️⃣ 심층 분석의 필요성
전체 평균 수치가 비슷하게 나오더라도 실험을 그냥 버려서는 안 된다. 유저 세그먼트(성별, 연령, 신규/기존 등)를 세분화하여 분석하면 특정 타깃층에서 유의미한 효과를 발견할 수 있다.
3️⃣ A/B 테스트의 본질적 한계
A/B 테스트는 현재 주어진 조건 안에서 최적의 선택(Local Optimum)을 돕는 도구일 뿐, 혁신적인 신규 프로덕트를 창조하거나 장기적인 브랜딩 가치까지 완벽히 측정할 수는 없다.
👏 마무리
이번 학습을 통해 A/B 테스트가 단순한 화면 비교를 넘어, 철저한 통계적 기반 위에서 작동하는 과학적 검증 기법임을 깨달았다. 중심극한정리와 가설 검정 로직을 통해 왜 샘플 사이즈가 중요한지, 왜 p-value를 확인해야 하는지 그 인과관계를 명확히 연결할 수 있었다. 특히 실무 프로세스에서 가장 인상 깊었던 점은 '가드레일 지표'의 존재와 '실험 도중 지표 변경 금지' 원칙이었다. 데이터를 다루는 분석가로서 단순히 수치를 올리는 것에만 매몰되지 않고, 서비스의 안정성과 전체적인 유저 경험을 보호하는 균형 잡힌 시각을 유지해야 함을 배울 수 있는 시간이었다.
'Codeit Sprint > 공부 기록' 카테고리의 다른 글
| Amplitude로 하는 프로덕트 데이터 분석 | 주요 차트와 사용자 행동 분석 실습 전체 정리 (0) | 2026.05.08 |
|---|---|
| 사용자 행동 로그 설계 | 문제 정의부터 Event, Attribute, Trigger, Tracking Plan까지 전체 정리 (2) | 2026.05.07 |
| 데이터 기반 프로덕트 개선 프로세스 | 지표 진단부터 A/B 테스트까지 (0) | 2026.05.07 |
| 비즈니스 분석 프레임워크 | 퍼널 분석, 코호트 분석, RFM 분석 실습까지 전체 정리 (2) | 2026.05.06 |
| 지표 이해하기 | 프로덕트, AARRR 프레임워크, 비즈니스 모델별 주요 지표까지 전체 정리 (1) | 2026.04.28 |
