목록가설검증 (2)
오랑우탄의 반란
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c8eCjT/btsISLlNDL7/NXubkgVJIwIhLOvCtNfppK/img.png)
기초통계 시리즈의 마지막으로 가설검정의 주의점에 대해 간단하게 짚고 넘어가겠습니다. 재현 가능성, p해킹, 선택적 보고동일 연구나 실험을 반복했을 때 결과가 일관되게 재현이 가능해야 하고, 이는 연구의 신뢰성을 높여줌.하지만 0.05 수준의 p값에 대해 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 발생하고 있다고 함 0.05라는 것은 20번 중에 1번은 귀무가설이 옳을 수 있음에도 이것이 기각될 수 있다는 얘기인데, 이런 오류를 피하기 위해 데이터 모수를 늘리는 방향이 제안됨p해킹이란 p값을 인위적으로 낮추고자 데이터 분석을 반복하거나, 유의미한 결과를 얻기 위해 분석을 반복하는 것결과에 따라 가설을 변경하거나 데이터 개수를 늘려서 결과에 이를 맞추려고 하면 안됨유의미한 결과, 유의미하지..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/76FBa/btsITWMWrhI/WESc5wpipD8Bwcu2GznX30/img.png)
이전 포스트에 이어 몇 가지 데이터의 유의성 검정을 살펴보겠습니다. A/B 테스트A/B 두 그룹에 대해 어느 것이 더 효과적인지 확인하려는 검정법독립표본 t검정을 수행해 두 개의 독립된 집단 간 평균 차이가 유의미한지 평가사용자를 그룹으로 나눠 다른 버전으로 테스트해보는 등 마케팅, UX 쪽에서 많이 사용됨 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교 import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율..