목록머신러닝 (11)
오랑우탄의 반란

선형회귀란?선형적인 관계를 가진 두 변수 X, Y에 대해 모르는 데이터 값을 예측하는 것 선형회귀 이론키(Y)와 몸무게(X) 분포가 아래와 같이 있다고 가정해봅시다. 이때 두 변수 사이에 일정하게 증가하는 패턴을 보고 우리는 몸무게를 알면 키를 예측할 수 있겠다고 생각할 수 있습니다. 하지만 실제로 각 값의 분포에 대해 예측 선을 무한하게 그릴 수 있는데요, 이때 데이터 분포를 가장 잘 설명해줄 수 있는 선을 그리는 것이 선형회귀입니다. weights = [87,81,82,92,90,61,86,66,69,69]heights = [187,174,179,192,188,160,179,168,168,174] 그러면 이 선을 어떻게 그리는 게 좋을까요? 바로 각각의 값에 대해 선과의 오차를 계산해서 최소의 오..

머신러닝이란? 관측된 패턴을 기반으로 의사 결정(예측, 분류)을 하기 위한 알고리즘 알고리즘이 문제풀이를 통해 해답을 찾아가는 과정이라면,머신러닝은 해답을 미리 학습시켜 스스로 문제풀이를 할 수 있게 설계하는 것 머신러닝 종류지도 학습 Supervised Leaning → 예측, 분류비지도 학습 Unsupervised Learning → 연관 규칙, 군집강화 학습 Reinforcement Learning → 보상 머신러닝 적용 분야머신러닝금융 신용평가, 사기탐지, 주식 예측 헬스케어 질병 예측, 환자 데이터 분석 이커머스 고객 구매 패턴 분석, 추천 시스템, 가격 최적화, 장바구니 분석 딥러닝 자연어처리 번역, 챗봇, 텍스트분석 이미지&영상처리 얼굴인식, 이미지 생성

기초통계 시리즈의 마지막으로 가설검정의 주의점에 대해 간단하게 짚고 넘어가겠습니다. 재현 가능성, p해킹, 선택적 보고동일 연구나 실험을 반복했을 때 결과가 일관되게 재현이 가능해야 하고, 이는 연구의 신뢰성을 높여줌.하지만 0.05 수준의 p값에 대해 가설검정의 잘못된 사용이 낮은 재현성으로 이어진다는 문제가 발생하고 있다고 함 0.05라는 것은 20번 중에 1번은 귀무가설이 옳을 수 있음에도 이것이 기각될 수 있다는 얘기인데, 이런 오류를 피하기 위해 데이터 모수를 늘리는 방향이 제안됨p해킹이란 p값을 인위적으로 낮추고자 데이터 분석을 반복하거나, 유의미한 결과를 얻기 위해 분석을 반복하는 것결과에 따라 가설을 변경하거나 데이터 개수를 늘려서 결과에 이를 맞추려고 하면 안됨유의미한 결과, 유의미하지..