오랑우탄의 반란
데이터 전처리 & 시각화 (2) VS Code 설치 & Pandas 세팅 본문
오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다.
1 Pandas vs Excel
WHAT Pandas란?
→ Python에서 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리
- 대용량 데이터 처리가 가능 : Pandas는 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화되어 있습니다.
- 데이터 조작 기능 : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음
- 데이터 시각화 기능 제공 : Matplotlib, Seaborn , … , etc
- 데이터를 구조화하여 분석할 수 있음 : DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내어 분석이 가능함
WHY 멀쩡한 엑셀 놔두고 왜 Pandas를 쓰나요?
→ 엑셀은 훌륭한 프로그램이지만 데이터 양이 많을 경우, 그리고 복잡한 데이터일수록 처리 시간이 오래 걸리며 고급 기능을 활용하려면 허들이 높아져 데이터 처리가 비효율적일 수 있습니다.
반면 Pandas 는 아래 특징들을 지녀 데이터가 많고 복잡한 경우 효과적인 툴이 되겠습니다.
- 자동화와 프로그래밍 기능
다양한 라이브러리를 사용해 반복적이고 복잡한 작업 자동화 가능 - 대용량 데이터 처리
메모리 내의 데이터 처리, 큰 데이터셋을 조각해 처리해 처리속도가 빠름 - 복잡한 데이터 처리 및 분석
복잡한 작업, 통계분석, 머신러닝 모델 구축에 용이함 - 확장성과 유연성
다양한 포맷 처리 가능한 라이브러리 제공, db와 연동해 사용 가능 - 버전 관리 및 자동화
버전 관리 시스템(git 등)으로 변경 내역 관리, 코드 주석 추가 및 문서화가 가능해 작업 히스토리 추적 용이함
Series = 인덱스와 하나의 칼럼 형태, 인덱스와 값으로 구성
DataFrame = 표 형태, 인덱스와 칼럼(속성)으로 구성
2 VS Code 설치
Visual Studio Code 에서 작업을 해줍니다.
VS Code 설치가 안 되어있는 경우 아래 링크로 설치해줍니다. (설치 과정은 간단해서 스킵)
3 Pandas 세팅
Extenstions 에서 Python, Jupiter 를 설치해줍니다.
설치 후 Explorer 로 돌아가서 (혹은 좌측상당 File을 통해) 새 파일을 생성해줍니다. (파일 생성 시 작업물을 모아둘 폴더도 하나 만들어주면 좋습니다)
이제 에디터 창에서 아래 코드를 입력합니다.
import pandas as pd
실행 시 Pandas 설치가 안 되어있기 때문에 아래와 같은 오류가 뜹니다.
Windows 의 경우 직접 터미널에서 설치 또는 cmd 창에 입력해서 설치가 가능합니다.
VSCode 터미널 설치
!pip install pandas
CMD 설치
py -m pip install pandas
코드 실행 후 py -m pip list 를 입력하면 python 에 설치된 패키지 목록이 뜨며 제대로 설치되었는지 확인할 수 있습니다.
하단에 pandas 가 보입니다.
stackoverflow 옛날 포스트에서는 py 대신 python 을 써서 설치하라고 나와있는데 업데이트 때문인지 적용이 안되더군요.
정상적으로 설치가 되었지만 일부 패키지에 대해서는 ~~ directory not in PATH 라는 오류가 뜨길래 또 열심히 구글링 했습니다.. (파이썬 배우면서 오랑이는 적잖이 컴맹이었다는 사실을 체감중..)
아래 이미지 혹은 각 단계별로 스크린샷과 함께 세상 친절하게 안내해준 이 글을 참고해주시면 되겠습니다.
이때 path 주소에 큰타옴표 (") 가 들어가지 않게 주의해주세요!
마지막으로 VS Code 설정에서 python path 가 올바르게 저장되어 있는지도 확인해줍니다. (거의 끝남)
저는 해당 창이 그냥 'Python' 으로만 되어 있었는데, 이럴 경우 pandas 가 당장은 실행되도 나중에 문제가 생길 수 있다고 하기 때문에 python.exe 파일의 주소를 찾아서 붙여넣어 줍니다.
Pandas 까지 설치 완료!
다음 글에서는 직접 pandas 를 사용해보도록 하겠습니다.
오랑우탄이 영어를 하고 오랑이가 코드마스터가 되는 그날까지~
'프로그램 세팅 및 오류 해결' 카테고리의 다른 글
[Pandas | Numpy] 파이썬 지수 표현 e 제거, 숫자 표기 변경 (scientific notation e) (0) | 2024.08.06 |
---|---|
[Matplotlib] 한글 폰트 오류 해결 방법 (0) | 2024.07.30 |