목록기초통계 (4)
오랑우탄의 반란

기초통계 시리즈의 마지막으로 가설검정의 주의점에 대해 간단하게 짚고 넘어가겠습니다. 재현 가능성, p해킹, 선택적 보고동일 연구나 실험을 반복했을 때 결과가 일관되게 재현이 가능해야 하고, 이는 연구의 신뢰성을 높여줌.하지만 0.05 수준의 p값에 대해 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 발생하고 있다고 함 0.05라는 것은 20번 중에 1번은 귀무가설이 옳을 수 있음에도 이것이 기각될 수 있다는 얘기인데, 이런 오류를 피하기 위해 데이터 모수를 늘리는 방향이 제안됨p해킹이란 p값을 인위적으로 낮추고자 데이터 분석을 반복하거나, 유의미한 결과를 얻기 위해 분석을 반복하는 것결과에 따라 가설을 변경하거나 데이터 개수를 늘려서 결과에 이를 맞추려고 하면 안됨유의미한 결과, 유의미하지..

이전 포스트에 이어 기본적인 회귀 종류를 살펴보겠습니다. 단순선형회귀독립변수 x와 종속변수 y 사이의 관계를 직선 형태로 모델링한 방법데이터가 직선적 경향을 따를 때 사용, 간단하고 해석이 용이함 가지고 있지 않는 데이터에 대해 예측할 수 있음 Y = β0 + β1Xex) 광고비x와 매출y의 관계 분석 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예..

이전 포스트에 이어 데이터의 다양한 분포를 살펴보겠습니다. 모집단과 표본모집단과 표본의 개념을 시각화된 그래프를 사용해 알아보겠습니다. numpy random 함수로 임의의 모집단을 생성해주고, 그 중에서 choice 로 랜덤한 표본을 추출해줍니다.이때 모집단의 평균, 편차, 그리고 개수도 임의로 지정해줍니다. import numpy as npimport matplotlib.pyplot as plt# 정규분포의 모집단 생성 (예: 국가의 모든 성인의 키 데이터)population = np.random.normal(170, 10, 1000) #평균, 편차, 개수# 표본 추출sample = np.random.choice(population, 100) #샘플링 함수plt.hist(population, bins..

오늘 오랑이는 통계학의 기초 개념과 이를 시각화해주는 파이썬 코드를 살펴볼 예정입니다. 대학교때 필수교양으로 통입을 들었었는데 그게 벌써 4어년 전이니.. 기억이 날 리가 새로 배운다는 마음으로 임해봅니다 ^^ 기술통계 vs 추론통계 기술통계 descriptive statistics추론통계 inferential statistics개념정량 데이터를 특정 대표값으로 요약하는 것표본 데이터로 모집단의 특징을 파악하고 가설검증하는 것요소평균, 중앙값, 분산, 표준편차, 범위, 최빈값 등신뢰구간(0.95)가설검증(p-value로 귀무가설 H0 기각, 대립가설 H1 유지) 사용예시 회사 매출 데이터 요약 고객 만족도 설문 결과 분석 기술통계의 개념들을 파이썬 라이브러리로 시각화 해봅시다.우선 기본적으로 사용할 ..