오랑우탄의 반란

데이터 전처리 & 시각화 (2) VS Code 설치 & Pandas 세팅 본문

프로그램 세팅 및 오류 해결

데이터 전처리 & 시각화 (2) VS Code 설치 & Pandas 세팅

5&2 2024. 7. 17. 14:46
반응형

 

오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다. 

 

1 Pandas vs Excel

WHAT Pandas란?

→ Python에서 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리

  • 대용량 데이터 처리가 가능 : Pandas는 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화되어 있습니다.
  • 데이터 조작 기능 : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음
  • 데이터 시각화 기능 제공 : Matplotlib, Seaborn , … , etc
  • 데이터를 구조화하여 분석할 수 있음 : DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내어 분석이 가능함

WHY 멀쩡한 엑셀 놔두고 왜 Pandas를 쓰나요? 

→ 엑셀은 훌륭한 프로그램이지만 데이터 양이 많을 경우, 그리고 복잡한 데이터일수록 처리 시간이 오래 걸리며 고급 기능을 활용하려면 허들이 높아져 데이터 처리가 비효율적일 수 있습니다. 

 

반면 Pandas 는 아래 특징들을 지녀 데이터가 많고 복잡한 경우 효과적인 툴이 되겠습니다. 

  1. 자동화와 프로그래밍 기능
    다양한 라이브러리를 사용해 반복적이고 복잡한 작업 자동화 가능 
  2. 대용량 데이터 처리
    메모리 내의 데이터 처리, 큰 데이터셋을 조각해 처리해 처리속도가 빠름 
  3. 복잡한 데이터 처리 및 분석
    복잡한 작업, 통계분석, 머신러닝 모델 구축에 용이함
  4. 확장성과 유연성
    다양한 포맷 처리 가능한 라이브러리 제공, db와 연동해 사용 가능
  5. 버전 관리 및 자동화
    버전 관리 시스템(git 등)으로 변경 내역 관리, 코드 주석 추가 및 문서화가 가능해 작업 히스토리 추적 용이함

Pandas 구조

Series = 인덱스와 하나의 칼럼 형태, 인덱스와 값으로 구성

DataFrame = 표 형태, 인덱스와 칼럼(속성)으로 구성 

 

2 VS Code 설치

Visual Studio Code 에서 작업을 해줍니다.

VS Code 설치가 안 되어있는 경우 아래 링크로 설치해줍니다. (설치 과정은 간단해서 스킵) 

 

Download Visual Studio Code - Mac, Linux, Windows

Visual Studio Code is free and available on your favorite platform - Linux, macOS, and Windows. Download Visual Studio Code to experience a redefined code editor, optimized for building and debugging modern web and cloud applications.

code.visualstudio.com

 

3 Pandas 세팅

Extenstions 에서 Python, Jupiter 를 설치해줍니다. 

설치 후 Explorer 로 돌아가서 (혹은 좌측상당 File을 통해) 새 파일을 생성해줍니다. (파일 생성 시 작업물을 모아둘 폴더도 하나 만들어주면 좋습니다)

 

 

이제 에디터 창에서 아래 코드를 입력합니다.

import pandas as pd

 

실행 시 Pandas 설치가 안 되어있기 때문에 아래와 같은 오류가 뜹니다.

 

Windows 의 경우 직접 터미널에서 설치 또는 cmd 창에 입력해서 설치가 가능합니다. 

 

 

VSCode 터미널 설치

!pip install pandas

 

CMD 설치

py -m pip install pandas

 

코드 실행 후 py -m pip list 를 입력하면 python 에 설치된 패키지 목록이 뜨며 제대로 설치되었는지 확인할 수 있습니다. 

하단에 pandas 가 보입니다. 

 

stackoverflow 옛날 포스트에서는 py 대신 python 을 써서 설치하라고 나와있는데 업데이트 때문인지 적용이 안되더군요. 

 

정상적으로 설치가 되었지만 일부 패키지에 대해서는 ~~ directory not in PATH 라는 오류가 뜨길래 또 열심히 구글링 했습니다.. (파이썬 배우면서 오랑이는 적잖이 컴맹이었다는 사실을 체감중..)

 

아래 이미지 혹은 각 단계별로 스크린샷과 함께 세상 친절하게 안내해준 이 글을 참고해주시면 되겠습니다.

이때 path 주소에 큰타옴표 (") 가 들어가지 않게 주의해주세요! 

 

How to add a folder to `Path` environment variable in Windows 10 (with screenshots)

On StackOverflow and on the net in general, there are outdated and few guides on how to add a specific folder to the Windows 10 Path environment variable of the user. I think a complete guide for ...

stackoverflow.com

 

마지막으로 VS Code 설정에서 python path 가 올바르게 저장되어 있는지도 확인해줍니다. (거의 끝남)

저는 해당 창이 그냥 'Python' 으로만 되어 있었는데, 이럴 경우 pandas 가 당장은 실행되도 나중에 문제가 생길 수 있다고 하기 때문에 python.exe 파일의 주소를 찾아서 붙여넣어 줍니다. 

 

Pandas 까지 설치 완료! 

 

 

다음 글에서는 직접 pandas 를 사용해보도록 하겠습니다. 

 

 

오랑우탄이 영어를 하고 오랑이가 코드마스터가 되는 그날까지~

반응형