목록타이타닉 (3)
오랑우탄의 반란

지금까지 배웠던 이론을 바탕으로 실제 데이터분석의 전 과정 실습을 해보겠습니다. 데이터분석 예측모델링 w. 타이타닉 데이터지난 모델링 실습에서 활용했던 타이타닉 데이터로 분석을 진행하겠습니다. Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 칼럼별 데이터를 체크해둡니다. ColumnDetailsDatatypePassengerId 승객 ID (PK)int64Survived (Y)사망 (0) 생존 (1) int64Pclass 티켓 등급 (1,2,3)int64 (범주형)Name 이름objectSex 성별 object (범주형)Age 나이float64 SibSp 형제와 배우자 수int64 Parch 부모와 자식 수int64 Ticket ..

머신러닝 로지스틱회귀분석 실습앞서 배원 로지스틱 회귀를 사용한 분석 분류를 직접 파이썬에서 데이터셋으로 실습해보겠습니다. 캐글 타이타닉 예측 대회의 Titanic - Machine Learning from Disaster 데이터를 사용하겠습니다. Titanic - Machine Learning from Disaster | Kaggle www.kaggle.com 대회 주제는 탑승한 승객의 정보를 바탕으로 생존 유무를 예측하는 분류 문제였는데요종속변수 Y를 사망(0) / 생존(1)으로 두고 독립변수 X를 티켓등급, 성별, 요금 등으로 넣어보며 확인해보는 분류 분석을 아래의 단계에 따라 진행하겠습니다. (데이터 전처리 단계는 생략하고 바로 회귀분석만 진행한다는 점 참고) 데이터 확인변수 설정 및 로지스틱..

로지스틱회귀란?독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법 로지스틱회귀 이론만약 X를 연속형 변수로 두고 Y 를 특정 값이 될 확률로 설정한다면, 앞서 배웠던 선형회귀로는 표현이 불가능할 것입니다. 선형 함수는 발산하기 때문에 실제 확률이 0보다 작거나 1보다 크게 나올 수도 있기 때문이지요. 그래서 이 한계를 보완하고자 로지스틱회귀를 사용합니다. 아래 그래프를 보시면 함수에 로그를 취해서 Y값이 0, 1로 수렴하도록 설계된 것을 볼 수 있습니다. 즉, Y가 특정 범주에 속할 때 범주형 변수에 대한 분석으로 로지스틱회귀가 적합합니다. 로지스틱회귀 수식로그함수가 어떻게 그려지는지 단계별로 살펴보겠습니다. 1. Odds RatioOdds ratio (오즈비)란..