반응형
목록샘플링 (1)
반응형
오랑우탄의 반란
[ML] 분류 모델 불균형 데이터에 대한 솔루션 Classification Model Imbalanced Data Solution
불균형 데이터란?불균형 데이터란 목표 변수가 범주형 데이터일 때 범주별 관측치의 개수/비율 차이가 큰 데이터를 뜻합니다. 이때 데이터가 더 많은 쪽을 다수 범주(majority class), 적은 쪽을 소수 범주(minority class)라고 부릅니다. 실무에서 분류 작업을 진행할 때 균형 데이터보다 불균형 데이터를 다뤄야 하는 경우가 많습니다. 신용카드 회사의 정상 거래 대비 사기 거래, 통신회사 기존 유저 대비 이탈(churn) 유저 등 특정 데이터의 비율이 월등히 크거나 작은 경우가 있겠지요. 그럼 이 불균형 데이터가 왜 머신러닝 분류작업 시 문제가 될까요? 불균형 데이터가 왜 문제인가? 머신러닝으로 분류 작업을 진행할 때 프로그램은 자동으로 다수 범주 데이터에 더 큰 비중을 둬서 ..
PYTHON/머신러닝
2024. 8. 21. 22:21