StuDyata.zip

[코드잇 스프린트] 데이터 분석가 부트캠프 Week 10 기록 본문

Codeit Sprint/수업 기록

[코드잇 스프린트] 데이터 분석가 부트캠프 Week 10 기록

자유를원해 2026. 5. 15. 20:42

이 글은 코드잇 스프린트 데이터 분석가 과정 학습 기록입니다.
수업 내용과 느낀 점을 매일 정리하며 데이터 분석 공부 과정을 기록하고 있습니다.

더 자세한 수업 내용은 '공부 기록'을 참고부탁드립니다.


🙃2026.05.11 월


🧩아홉 번째 스프린트 미션

 

이날은 아홉 번째 스프린트 미션 데이였다. 월요일이라 1교시에는 먼저 위클리 페이퍼 공유 시간을 가졌다. 이번 주 질문은 Amplitude에서 Day 7 리텐션이 20%로 나왔을 때 이 수치를 어떻게 해석할지, 그리고 리텐션 개선을 위해 어떤 추가 분석을 해볼지에 대한 내용이었다. 이번엔 질문이 하나뿐이라 분량 자체는 조금 가벼운 느낌이었는데, 반대로 질문이 꽤 열려 있어서 생각해볼 수 있는 부분이 많았다. 나도 단순히 Day 7 리텐션이 20%라는 숫자 하나만 보고 좋다 나쁘다 판단할 수는 없다고 생각했고, 추가 분석은 Amplitude 안에서 이어서 볼 수 있는 방향으로 적어보았다.


🖥️Amplitude 활용 미션

 

위클리 페이퍼가 끝난 뒤에는 강사님께서 아홉 번째 스프린트 미션을 설명해주셨다. 이번 미션은 Amplitude를 활용해서 음악 스트리밍 서비스 데이터를 분석하고, 서비스 현황을 파악한 뒤 신규 유저의 온보딩 단계를 어떻게 개선할 수 있을지 고민하는 내용이었다. Amplitude 데모 데이터 중 Media Streaming - Analytics를 사용했는데, 솔직히 처음엔 약간 걱정이 됐다. 세그멘테이션, 퍼널, 저니스 차트 정도는 그래도 실습을 해봤으니까 어느 정도 감이 있었는데, 그 외 차트들은 아직 익숙하지 않아서 시간이 꽤 걸릴 수도 있겠다고 생각했다.

만들었던 차트

 

 

이번 분석은 AI 도움도 정말 많이 받아서ㅋㅋ 결국 보고서를 1차적으로는 완성했다. 차트도 꽤 많이 보고, 이것저것 조합해보면서 요구사항은 다 채우려고 노력했다.

데모 데이터라 그런지 결과가 좀 이상했다 ㅋㅋ

 

다만 솔직히 말하면 이번 데이터는 데모용 가짜 데이터이다 보니 와 싶은 인사이트가 나오는 느낌은 아니었고 좀 이상한 부분도 있었다. 그래도 그 안에서 할 수 있는 만큼은 최대한 해보려고 했다. 결국 중요한 건 완벽하게 특별한 결과를 뽑아내는 것보다 주어진 데이터 안에서 서비스 현황을 파악하고 온보딩 개선 방향을 논리적으로 연결하는 거라고 생각했다.


📝마무리

 

내일까지는 스프린트 미션 데이라서 오전 정도에는 시간이 더 있을 것 같고 오후에는 강사님 해설이랑 세 번째 성취도 평가가 예정되어 있다. 앞선 두 번은 둘 다 만점을 받긴 했는데 이번 파트는 솔직히 그때보다 조금 자신이 덜하다. 그리고 Amplitude 미션은 툴이 손으로 직접 많이 만져봐야 익숙해지는 툴이라 더 그런 것 같다. 그래도 어쨌든 이번 미션은 요구사항은 다 채워서 제출 가능한 형태까지는 만들었고, 성취도 평가도 또 해봐야 하는 거니까 내일도 일단 차분하게 해봐야겠다.내일도 파이팅.


😗2026.05.12 화


🫠이어서 아홉 번째 스프린트 미션

 

이날도 이어서 아홉 번째 스프린트 미션 데이였다. 오전까지는 미션을 계속 진행하고, 오후 1시부터는 강사님 해설, 그리고 17시부터는 성취도 평가가 예정되어 있었다. 나는 어제 미션을 1차적으로는 이미 끝내둔 상태였기 때문에 오전에는 일단 티스토리 글을 쓰면서 시간을 보냈다. 해설을 듣고 나서 수정할 부분이 분명 생길 것 같아서 오전에는 무리해서 더 만지기보다는 정리부터 해두는 쪽을 택했다.


📊새로 알게 된 차트

 

점심시간이 끝나고 13시가 되어 강사님 해설이 시작되었다. 전날에 혼자 차트를 만들고 보고서를 쓰면서도 나름대로 잘 했다고 생각했는데 해설을 들으니까 내가 아직 안 써본 차트들도 꽤 있었다.

User Composition 차트

 

그중 하나가 User Composition 차트였다. 이건 말 그대로 유저 구성 비율을 더 빠르게 볼 수 있는 차트였는데, 특정 특성에 따라 유저 비중을 보고 싶을 때 Segmentation으로도 볼 수 있지만 User Composition으로 더 쉽게 만들 수 있다는 걸 알게 되었다.

Engagement Metrics 차트

 

또 하나 새롭게 알게 된 건 Engagement Metrics 차트였다. 이걸 이용하면 유저들이 어떤 이벤트를 많이 사용하는지를 사분면 형태로 확인할 수 있었는데, 화면을 보자마자 예전에 SNS에서 자주 보던 이미지들이 떠올랐다. MBTI별 특징 같은 걸 사분면으로 나눠서 보여주는 게시물들.ㅋㅋ 물론 정확히 같은 종류의 차트인지는 모르겠지만, 보자마자 그런 형태가 생각나서 좀 반가웠다. 이 차트는 그냥 보기에도 직관적이어서 꽤 마음에 들었다. 이벤트를 많이 쓰는지, 많은 유저가 쓰는지 이런 걸 한 번에 볼 수 있다는 점에서 되게 유용해 보였다.

 

강사님 해설을 듣고 나서는 내가 어제 써둔 보고서를 다시 수정했다. 새로 배운 차트들도 반영해보고, 부족했던 부분도 조금 더 보완했다. 그리고 Lifecycle 분석도 따로 진행해서 보고서에 추가해보았다. 전날에는 일단 요구사항을 채우는 데 집중했다면, 이날은 해설을 듣고 나서 조금 더 보기에 깔끔하고 분석이 풍부해지도록 다듬는 쪽에 가까웠다. 그래서 어제보다 결과물이 조금 더 괜찮아진 느낌이 들었다. 이렇게 해서 스프린트 미션 9도 드디어 끝이 났다.


📚성취도 평가

 

이후 17시가 되어 성취도 평가가 시작되었다. 이번 평가는 어떤 서비스 상황과 주요 수치들이 주어지고, 그걸 바탕으로 현재 상태를 진단하고 문제 구간을 해석하고, 추가로 필요한 로그 설계까지 설명하는 식의 문제였다. 즉, 지금까지 배운 AARRR, 퍼널, 코호트, 로그 설계 같은 내용들이 한 번에 들어간 형태라고 보면 될 것 같다. 문제 자체는 완전히 낯선 느낌은 아니었다. 오히려 그냥 배운 걸 종합해서 쓰라는 거구나 싶은 느낌이었는데 문제는 시간이 너무 부족했다는 점이다.

 

이번 성취도 평가는 솔직히 문제 난이도보다도 시간이 더 빡쳤다. 나는 쉬는시간까지 활용해서 끝까지 답안을 정리해보려고 했는데, 이번에는 딱 50분으로 제한이 걸려 있었던 것 같았다. 그래서 결국 답안을 끝까지 다 못 쓰고 제출되어 버렸다. 진짜 너무 짜증났다. 나는 아직 정리 중이었고 저장도 못 했는데 그냥 제출이 되어버려서 그 순간 진짜 욕이 나왔다.ㅋㅋ 틀렸다기보다 다 못 썼다는 것 자체가 너무 스트레스였다. 내가 알고 있는 걸 전부 못 적고 끝난 느낌이라 더 그랬다. 물론 완전히 손도 못 댄 건 아니었다. 각 문제에서 요구하는 방향 자체는 어느 정도 잡고 있었고, 내가 쓸 수 있는 부분까지는 최대한 적으려고 했다. 다만 마지막까지 정리하고 마무리할 시간이 없었다는 게 너무 아쉬웠다. 그래서 결과가 어떻게 나올지는 모르겠지만, 적어도 이번엔 몰라서 못 썼다보다는 시간이 부족해서 다 못 썼다는 쪽에 가까워서 그게 또 묘하게 더 짜증나는 것 같다. 아예 모르면 그러려니 할 텐데, 머릿속엔 있는데 손이 못 따라간 느낌이라서...

ㅠㅠ


📝마무리

 

이날은 아홉 번째 스프린트 미션을 최종적으로 마무리한 날이기도 했고, 동시에 성취도 평가까지 있었던 날이라 체감상 더 길게 느껴졌다. 미션 쪽은 해설을 듣고 나서 수정한 덕분에 어제보다 훨씬 더 마음에 들게 끝낼 수 있었고, Amplitude 차트들도 이제는 조금씩 어떤 상황에서 써야 하는지 감이 오는 것 같다. 반면 성취도 평가는 진짜 시간이 너무 아쉬웠다. 앞선 두 번은 만점이었어서 나름 자신감을 조금 갖고 있었는데, 이번에는 파트 자체가 더 낯설기도 했고 무엇보다 시간 압박이 심해서 꽤 아쉬움이 남는다. 그래도 어쨌든 오늘까지 잘 버텼고, 내일부터는 다시 새로운 진도를 나가니까 또 정신 차리고 가야겠다. 내일도 화이팅.


🫢2026.05.13 수


📖A/B 테스트 이론 시작

 

앞으로 3일간은 이론 데이이다. 오늘은 A/B 테스트이다. 강사님께서 생소한 용어들이 많을 거라고 겁을 주셨지만(?) 다행히 예전에 ADsP를 준비하며 공부했던 내용들이라 나에겐 꽤 반갑게 다가왔다.

재미있던 샘플 사이즈 계산기

 

확실히 한 번 훑었던 개념들이라 그런지 다른 분석 기법보다 훨씬 흥미롭게 들렸고, 전체적인 흐름이 머릿속에 잘 그려지는 기분이었다. 배운 내용 중 가장 기억에 남는 비유는 ‘김치찌개’였다. 전체 찌개 맛을 알기 위해 한 수저를 떠서 간을 보는 것이 결국 표본 조사이고, 그 한 수저로 전체의 맛을 유추하는 것이 추론 통계라는 설명이었는데 전에 한 번 들었던 기억이 난다. 여기서 중요한 건 찌개를 잘 섞어야 한다는 점! 무작위 추출이 왜 중요한지, 왜 나중에 A/B 테스트를 할 때도 무작위 배정이 필수인지 이해할 수 있었다.


📐중심극한정리

 

이론이 끝난 이후로 강사님께서 내주신 문제들을 풀면서 나름 자신만만했는데,

저번에 푼 파트 리뷰 문제들에서 추가되었다

 

중심극한정리에서 딱 걸리고 말았다. 머리로는 알고 있다고 생각했지만, 막상 적어보니 ‘표본 평균들의 분포’라고 해야 할 것을 ‘모집단의 평균 분포’라고 잘못 적어버렸다. 역시 통계는 용어 하나하나가 정말 예민하고 중요하다는 걸 새삼 느꼈다. 면접 단골 질문이라고 하니 이번 기회에 p-value와 함께 확실히 내 것으로 만들어둬야겠다.


📝마무리

 

이론 공부가 끝나고 마지막엔 A/B 테스트 설계서 실습을 진행했다. 가이드라인이 잘 잡혀 있어서 작성 자체는 어렵지 않았지만, 실제 서비스라고 생각하니 고려해야 할 지표들이 꽤 많았다. 특히 가드레일 지표처럼 '성공 지표가 좋아도 놓치면 안 되는 데이터'들을 챙기는 감각을 키워야겠다는 생각이 들었다. 자율 학습 시간에는 티스토리 정리와 함께 개인 프로젝트 계획을 세웠다. 전날 고민 끝에 멘토님께 카톡을 드렸는데, 정말 긍정적인 답변을 주셔서 큰 힘이 됐다. 덕분에 확신을 가지고 새로운 프로젝트를 준비할 수 있을 것 같다. 이론 공부도, 프로젝트 준비도 차근차근 잘 해내 보자. 내일도 이론 데이 화이팅!


😊2026.05.14 목


🤔데이터 분석을 위한 통계적 추론

 

이날은 ‘데이터 분석을 위한 통계적 추론’을 주제로 이론 학습이 이어졌다. 중간중간 어제 보았던 내용들이 섞여 있었는데, 강사님께서 워낙 중요한 부분이라 강조하시며 다시 짚어주신 덕분에 자연스럽게 복습하는 시간을 가질 수 있었다. 데이터 분석의 목적이 단순히 현상을 파악하는 기술 통계를 넘어, 모집단을 추론하고 머신러닝으로 예측하는 단계까지 이어진다는 점이 다시금 머릿속에 정리되었다. 특히 무죄 추정의 원칙에 비유한 가설 검정 개념은 보수적으로 접근해야 하는 통계의 특성을 이해하는 데 큰 도움이 되었다.


⚒️검정 방법론

 

오늘 가장 긴장했던 부분은 t-검정, Z-검정, ANOVA 등 이름만 들어도 머리가 아픈 다양한 검정 방법론이었다. 독립변수와 종속변수가 범주형인지 수치형인지에 따라 분석 도구가 완전히 달라진다는 점이 조금 막막하게 느껴지기도 했다. 특히 정규성 가정이니 등분산성 가정이니 하는 전제 조건들을 하나하나 체크해야 한다는 게 처음에는 부담스러웠다. 하지만 강사님께서 모든 것을 다 외우려 하기보다 상황에 맞는 적절한 방법을 찾아가는 법을 익히는 게 중요하다 격려해주셔서 한결 가벼운 마음으로 실습에 임할 수 있었다. 사실 지난번 퍼널이나 코호트 분석이 꽤 어려웠던 터라 이번 파이썬 실습도 시작 전부터 걱정이 앞섰다.

ppt 자료가 너무 웃겨서 캡쳐했다

 

하지만 막상 scipy 라이브러리를 활용해 실습을 해보니 생각보다 과정이 명쾌하고 흥미로웠다. 코드 한 줄로 p-value 값이 쏟아져 나오는 게 신기하기도 했고, 특히 웰치 t-검정처럼 실무에서 유연하게 쓰이는 방식들을 직접 구현해 보는 과정이 유익했다. A/B 테스트 데이터를 통해 실제 구매 금액의 차이가 유유의미한지 판단해 보고, VIP 프로그램의 전후 효과를 분석해 보며 통계가 단순한 숫자가 아닌 의사결정의 강력한 근거가 된다는 것을 실감했다!!


📝마무리

 

혼자서 해본 t-검정 실습!

 

마지막 자율학습 시간에는 강사님이 공유해주신 추가 실습 링크를 통해 독립 표본과 대응 표본 검정을 스스로 복습했다. 처음에는 러시아 통계학자들의 이름이 섞인 복잡한 검정법들을 보며 언제 다 외우나 싶었지만..ㅋㅋ 실습을 통해 결과값을 해석하는 재미를 붙이다 보니 조금씩 익숙해지는 기분이다. 내일은 비율 차이 검정부터 로지스틱 회귀까지 더 다양한 실습이 기다리고 있는데, 이날 느낀 이 흥미를 잃지 않고 끝까지 잘 마무리하고 싶다. 이번 주도 어느덧 끝을 향해가고 있다. 금요일도 화이팅!


😙2026.05.15 금


⌨️Python을 활용한 통계적 가설 검정

 

이날은 파이썬을 활용한 통계적 가설 검정 실습 데이였다. 1교시에는 어제 과제로 진행했던 실습 문제들의 해설을 들었는데, 강사님의 코드를 차근차근 복습하며 내 풀이가 맞은 것을 확인하니 기분 좋게 하루를 시작할 수 있었다. 본격적인 진도는 비율 차이에 대한 Z검정 실습으로 이어졌다. statsmodels라는 새로운 라이브러리를 사용해 기존안(A)과 변경안(B)의 구매 전환율을 비교해 보았다. 표본 데이터상으로는 A그룹의 전환율이 더 높게 나왔는데, 검정 결과 역시 p-value가 유의수준보다 작게 나와 두 그룹 간에 유의미한 차이가 있다는 결론이 났다. 보통 변경안이 더 좋을 것이라 기대하기 마련인데, 오히려 기존안이 더 우세하다는 반전 결과를 보면서 데이터 분석은 역시 선입견 없이 검정해 봐야 한다는 것을 깨달았다.


🤓Python 실습

 

점심시간 이후에는 앱 체류 시간과 일평균 구매 금액의 관계를 알아보는 단순 선형 회귀 실습을 진행했다.

jointplot 차트

 

이 과정에서 산점도와 히스토그램을 동시에 보여주는 jointplot이라는 시각화 기능을 새로 배웠는데, 데이터의 분포와 관계성을 한눈에 볼 수 있어서 무척 신기하고 유용했다. 상관분석 결과 양의 상관관계가 보여 OLS 모델로 회귀선을 구해 보았다. 전체 모델의 유의성을 나타내는 F통계량의 p-value도 유의했고, R-squared를 통해 설명력이 24% 정도 된다는 점도 확인했다. 예전에 ADsP를 공부할 때는 표의 순서만 달달 외웠던 기억이 나는데, 직접 코드를 치며 필요한 부분을 짚어 해석해 보니 이제야 진짜 통계를 배우는 느낌이 들었다! 이어서는 여러 설명변수가 결과변수에 미치는 영향을 분석하는 다중 선형 회귀 실습으로 넘어갔다. 상품 리뷰 수, 쿠폰 개수, 가격이 판매량에 미치는 영향을 동시에 분석하는 과제였다. 변수가 많아지다 보니 ADsP 이론에서만 보던 다중공선성 문제를 직접 체크해야 했다.

 

이날 실습 중 가장 나를 당황하게 만든 것은 당연히... 로지스틱 회귀분석이었다. 시작 전부터 강사님께서 해석이 많이 어려울 것이라 경고(?)하셨는데 정말 레전드로 어려웠다.

np.exp가 지수함수를 곱하는 과정이다.

 

결과변수가 0과 1인 범주형일 때 일차식으로 표현하면 해석이 모호해지기 때문에 '오즈'와 '로그 오즈'의 개념이 등장하는데, 식에 로그를 취하고 다시 이를 해석하기 위해 지수함수를 곱하는 과정이 복잡해서 머리가 핑핑 돌았다. 이 부분은 주말이나 자율학습 시간을 활용해 정말 집중해서 복습해야겠다는 다짐을 하게 만들었다.ㅋㅋ 마지막으로 세 개 이상의 그룹을 비교하는 실습에서는 get_dummies를 사용해 데이터를 0과 1로 변환하는 원-핫 인코딩을 처음 다뤄보았다.


📝마무리

 

드디어 길고 길었던 파이썬 통계 가설 검정 실습이 모두 끝났다. 남은 자율 학습 시간에는 이날 배운 내용을 바탕으로 추가 실습 링크의 문제들을 스스로 풀어보며 독립/대응 표본 검정 실습까지 완벽하게 마무리하고 맨 마지막 시간에는 강사님께서 저번에 작성하라고 안내해주신 A/B 테스트 설계서의 해설 강의를 원하는 사람들만 따로 설명을 해주신다 하셔서 이를 듣고 마무리했다. 저번 퍼널이나 코호트 분석 때 너무 힘들었어서 이번에도 겁을 많이 먹었었는데, 막상 부딪혀보니 코드 한 줄로 복잡한 통계량이 계산되는 과정이 생각보다 명쾌하고 재밌었다. 이번 주도 새로운 개념들을 소화하느라 정말 고생 많았다. 주말 동안 리프레시하고 다음 주도 힘내보자!


💎데이터 분석가 부트캠프 Week 10 마무리


부트캠프의 열 번째 주!!!가 이렇게 마무리되었다. 이번 주엔 앰플리튜드를 활용한 음악 스트리밍 서비스 분석 미션부터 통계적 가설 검정 실습까지 그 어느 때보다 굵직한 데이터 분석의 핵심 도구들을 연달아 마주했다. 성취도 평가 때 예상치 못한 시간 압박으로 답안을 다 채우지 못해 깊은 아쉬움과 짜증(?)이 남기도 했지만, 이 또한 실무에서 마주할 타이트한 일정에 적응하는 과정이라 생각하기로 했다. 다행히 이어진 통계 이론과 파이썬 실습 과정은 과거 ADsP를 공부했던 기억 덕분에 한결 흥미롭게 소화할 수 있었다. 복잡한 수식과 다양한 검정 방법론 때문에 시작 전엔 겁도 많이 먹었지만, 직접 코드를 치며 p-value를 도출하고 의사결정의 근거를 찾아가는 과정에서 데이터 분석의 진짜 재미를 느꼈다.

 

그리고!! 고민하던 개인 프로젝트 방향성에 대해 멘토님의 긍정적인 피드백과 확신까지 얻었으니, 이제 남은 건 배운 것들을 내 것으로 만들며 차근차근 나아가는 일뿐이다. 쉽지 않은 개념들을 소화하느라 유독 길게 느껴졌던 일주일이었던 만큼, 주말 동안은 온전히 리프레시하며 에너지를 충전해야겠다. 다음 주도 지치지 말고 화이팅!