목록통계 (4)
오랑우탄의 반란
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/n5Miu/btsIXty6Uz9/tmU9OjDKeolc1fz1BJlgz0/img.png)
선형회귀란?선형적인 관계를 가진 두 변수 X, Y에 대해 모르는 데이터 값을 예측하는 것 선형회귀 이론키(Y)와 몸무게(X) 분포가 아래와 같이 있다고 가정해봅시다. 이때 두 변수 사이에 일정하게 증가하는 패턴을 보고 우리는 몸무게를 알면 키를 예측할 수 있겠다고 생각할 수 있습니다. 하지만 실제로 각 값의 분포에 대해 예측 선을 무한하게 그릴 수 있는데요, 이때 데이터 분포를 가장 잘 설명해줄 수 있는 선을 그리는 것이 선형회귀입니다. weights = [87,81,82,92,90,61,86,66,69,69]heights = [187,174,179,192,188,160,179,168,168,174] 그러면 이 선을 어떻게 그리는 게 좋을까요? 바로 각각의 값에 대해 선과의 오차를 계산해서 최소의 오..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sa54i/btsIUmSmFOg/7gxFJ6vGnxOtLbd35TvbN1/img.png)
이전 포스트에 이어 기본적인 회귀 종류를 살펴보겠습니다. 단순선형회귀독립변수 x와 종속변수 y 사이의 관계를 직선 형태로 모델링한 방법데이터가 직선적 경향을 따를 때 사용, 간단하고 해석이 용이함 가지고 있지 않는 데이터에 대해 예측할 수 있음 Y = β0 + β1Xex) 광고비x와 매출y의 관계 분석 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/76FBa/btsITWMWrhI/WESc5wpipD8Bwcu2GznX30/img.png)
이전 포스트에 이어 몇 가지 데이터의 유의성 검정을 살펴보겠습니다. A/B 테스트A/B 두 그룹에 대해 어느 것이 더 효과적인지 확인하려는 검정법독립표본 t검정을 수행해 두 개의 독립된 집단 간 평균 차이가 유의미한지 평가사용자를 그룹으로 나눠 다른 버전으로 테스트해보는 등 마케팅, UX 쪽에서 많이 사용됨 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교 import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bdLvPt/btsITQFVhEp/sObKqnGYrbt2fklJM68kKK/img.png)
오늘 오랑이는 통계학의 기초 개념과 이를 시각화해주는 파이썬 코드를 살펴볼 예정입니다. 대학교때 필수교양으로 통입을 들었었는데 그게 벌써 4어년 전이니.. 기억이 날 리가 새로 배운다는 마음으로 임해봅니다 ^^ 기술통계 vs 추론통계 기술통계 descriptive statistics추론통계 inferential statistics개념정량 데이터를 특정 대표값으로 요약하는 것표본 데이터로 모집단의 특징을 파악하고 가설검증하는 것요소평균, 중앙값, 분산, 표준편차, 범위, 최빈값 등신뢰구간(0.95)가설검증(p-value로 귀무가설 H0 기각, 대립가설 H1 유지) 사용예시 회사 매출 데이터 요약 고객 만족도 설문 결과 분석 기술통계의 개념들을 파이썬 라이브러리로 시각화 해봅시다.우선 기본적으로 사용할 ..