목록PYTHON/데이터분석 (15)
오랑우탄의 반란
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sMS1y/btsJpEAieAn/temzl3VnpPNXOpg3mUTyxK/img.png)
용어설명ETLETL (추출, 전환, 로드/적재 Extract, Transform, Load) 은 여러 데이터 소스에서 모아진 정보(E)에 대해 품질 개선 및 구조화를 진행한 후(T), 단일 물리적 데이터베이스로 통합해 데이터 웨어하우스, 데이터 레이크, 데이터 마트 형태로 적재(L)시켜 데이터를 전송하는 프로세스 추출: SQL / NoSQL 서버, CRM 및 ERP 시스템, 플랫 파일, 이메일, 웹페이지 등에서 raw데이터 수집 전환: 데이터 필터링/정제/중복 제거/유효성 검사로 1차 처리, 계산/번역/요약 등 일관성 유지, 필요 시 데이터 제거 및 암호화로 보호, 테이블로 포맷팅 (스키마 일치시키기) 데이터웨어하우스수집된 데이터가 ETL을 거쳐 한 곳에 모아진 데이터 (=창고)다량의 데이터를 장기간 보..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/yaghx/btsIS6DibMD/IiNUnL0JuFQhdTKucNkb80/img.png)
pandas 에서 자주 사용되는 value_counts() 함수에 대해 알아보겠습니다. ParametersSeries.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)Series.value_counts()normalize: 값의 상대적 빈도로 표시sort: count 정렬 여부ascending: 내름차순으로 count 정렬 bins: 연속형 자료를 이산 가격으로 bindropna: NaN 값 미포함 여부 우선 연습을 위한 데이터프레임을 생성해줍니다. data = pd.DataFrame({ 'Name':['Alice','Bob','Charlie','Rachel','James','Pedro','Em..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/c8eCjT/btsISLlNDL7/NXubkgVJIwIhLOvCtNfppK/img.png)
기초통계 시리즈의 마지막으로 가설검정의 주의점에 대해 간단하게 짚고 넘어가겠습니다. 재현 가능성, p해킹, 선택적 보고동일 연구나 실험을 반복했을 때 결과가 일관되게 재현이 가능해야 하고, 이는 연구의 신뢰성을 높여줌.하지만 0.05 수준의 p값에 대해 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 발생하고 있다고 함 0.05라는 것은 20번 중에 1번은 귀무가설이 옳을 수 있음에도 이것이 기각될 수 있다는 얘기인데, 이런 오류를 피하기 위해 데이터 모수를 늘리는 방향이 제안됨p해킹이란 p값을 인위적으로 낮추고자 데이터 분석을 반복하거나, 유의미한 결과를 얻기 위해 분석을 반복하는 것결과에 따라 가설을 변경하거나 데이터 개수를 늘려서 결과에 이를 맞추려고 하면 안됨유의미한 결과, 유의미하지..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/0aMcN/btsIUiJjvaN/L3XSKOiqedyl80fFyeZMV0/img.png)
이전 포스트에 이어 몇 가지 상관관계 종류를 살펴보겠습니다. 피어슨 상관계수두 연속형 변수 간의 선형 관계 측정절대값이 1에 가까울수록 높은 상관관계, 0은 선형 관계가 없음을 의미 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10exam_scores = 3 * study_hours + np.random.randn(100) * 5# 데이터프레임 생성df = pd.DataFrame({'Study Hours': study_h..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/sa54i/btsIUmSmFOg/7gxFJ6vGnxOtLbd35TvbN1/img.png)
이전 포스트에 이어 기본적인 회귀 종류를 살펴보겠습니다. 단순선형회귀독립변수 x와 종속변수 y 사이의 관계를 직선 형태로 모델링한 방법데이터가 직선적 경향을 따를 때 사용, 간단하고 해석이 용이함 가지고 있지 않는 데이터에 대해 예측할 수 있음 Y = β0 + β1Xex) 광고비x와 매출y의 관계 분석 import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/76FBa/btsITWMWrhI/WESc5wpipD8Bwcu2GznX30/img.png)
이전 포스트에 이어 몇 가지 데이터의 유의성 검정을 살펴보겠습니다. A/B 테스트A/B 두 그룹에 대해 어느 것이 더 효과적인지 확인하려는 검정법독립표본 t검정을 수행해 두 개의 독립된 집단 간 평균 차이가 유의미한지 평가사용자를 그룹으로 나눠 다른 버전으로 테스트해보는 등 마케팅, UX 쪽에서 많이 사용됨 전환율, 클릭률, 구매수, 방문 기간, 방문한 페이지 수, 특정 페이지 방문 여부, 매출 등의 지표를 비교 import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/boZDbe/btsISsTL4hI/Jw86bvh3jvbaIlKP1AJkO0/img.png)
이전 포스트에 이어 데이터의 다양한 분포를 살펴보겠습니다. 모집단과 표본모집단과 표본의 개념을 시각화된 그래프를 사용해 알아보겠습니다. numpy random 함수로 임의의 모집단을 생성해주고, 그 중에서 choice 로 랜덤한 표본을 추출해줍니다.이때 모집단의 평균, 편차, 그리고 개수도 임의로 지정해줍니다. import numpy as npimport matplotlib.pyplot as plt# 정규분포의 모집단 생성 (예: 국가의 모든 성인의 키 데이터)population = np.random.normal(170, 10, 1000) #평균, 편차, 개수# 표본 추출sample = np.random.choice(population, 100) #샘플링 함수plt.hist(population, bins..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/bdLvPt/btsITQFVhEp/sObKqnGYrbt2fklJM68kKK/img.png)
오늘 오랑이는 통계학의 기초 개념과 이를 시각화해주는 파이썬 코드를 살펴볼 예정입니다. 대학교때 필수교양으로 통입을 들었었는데 그게 벌써 4어년 전이니.. 기억이 날 리가 새로 배운다는 마음으로 임해봅니다 ^^ 기술통계 vs 추론통계 기술통계 descriptive statistics추론통계 inferential statistics개념정량 데이터를 특정 대표값으로 요약하는 것표본 데이터로 모집단의 특징을 파악하고 가설검증하는 것요소평균, 중앙값, 분산, 표준편차, 범위, 최빈값 등신뢰구간(0.95)가설검증(p-value로 귀무가설 H0 기각, 대립가설 H1 유지) 사용예시 회사 매출 데이터 요약 고객 만족도 설문 결과 분석 기술통계의 개념들을 파이썬 라이브러리로 시각화 해봅시다.우선 기본적으로 사용할 ..