오랑우탄의 반란

데이터 전처리 & 시각화 (1) 데이터 전처리란? 본문

PYTHON/데이터분석

데이터 전처리 & 시각화 (1) 데이터 전처리란?

5&2 2024. 7. 17. 14:27
반응형

 

오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다. 

 

image source: https://www.scalablepath.com/data-science/data-preprocessing-phase

 

데이터 전처리

WHAT 데이터 전처리란? 

→ 원하는 데이터를 보기 위한 모든 활동 = raw 데이터 정리 작업 

하나의 요리를 만들기 위한 재료 손질 작업이라고 비유할 수 있습니다. 

 

 

WHY 데이터 전처리를 왜 해야 하나요?

→ 가공되지 않은 데이터에서 원하는 정보를 편하게 얻기 위해

세상의 모든 데이터가 깔쌈하게 정리되어 있다면 정말 행복하겠지요? 

하지만 실제 데이터가 저장된 형태는 재각각이기 때문에 거기서 원하는 정보를 얻어내려면 우선 정리가 필요합니다. 

 

 

HOW 데이터 전처리는 어떻게 하나요? 

→ 데이터 전처리를 할 때 방향성을 갖고 해야 합니다. 

무슨 목적을 위해 어떤 정보를 확인하고자 하는지, 그 결과를 토대로 어떤 액션플랜을 가질지 고민이 필요합니다. 

고민 없이 무작정 코드 짜서 전처리를 하다가 '근데 내가 이거 왜했지? 어디에 쓰지?' 라는 생각이 들면 안되겠죠? 

 

결국 우리는 누군가를 설득하기 위한 근거가 되는 데이터가 필요한 것이고, 그걸 시각화해 더 효과적으로 전달하고 싶은 것이기 때문에, 그 모든 과정의 베이스가 되는 데이터 전처리가 필요한 것입니다. 

 

 

 

다음 글에서는 전처리를 하기 위한 툴 Pandas 에 대해서 본격적으로 알아보겠습니다. 

 

 

오랑우탄이 영어를 하고 오랑이가 코드마스터가 되는 그날까지~

반응형