오랑우탄의 반란
데이터 전처리 & 시각화 (7) Matplotlib 개념 익히기 본문
오늘 오랑이는 matplotlib을 활용한 데이터 시각화에 대해 배울 예정입니다.
그동안 데이터 전처리를 위해 사용하는 pandas의 개념을 익혔는데요, 이제 matplotlib으로 시각화를 해볼 예정입니다.
실제로 시각화에 들어가기 전에 간단하게 그래프 종류를 짚고 넘어갑시다.
Matplotlib이란?
→ 파이썬의 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하기 위한 도구를 제공합니다.
주로 2D 그래픽을 생성하기 위해 사용되며, 여러 그래프 형식을 지원하고 원하는 형태로 스타일링 할 수 있습니다.
matplotlib.pyplot
선형 그래프
plot()
2차원 데이터를 시각화하기 위해 사용합니다.
xlabel(), ylabel(), title()
x축, y축, 제목
show()
그래프 출력
color, linestyle, marker
색 지정, 선 종류, 마커를 지정할 수 있습니다.
label='데이터 레이블'
ax.legend([데이터 레이블])
마커에 대한 레이블을 두 가지 방법으로 지정할 수 있습니다.
text(좌표, 텍스트, 폰트크기)
그래프 안에 테스트를 추가할 수도 있습니다.
set_xlabel, set_ylabel, set_title
변수를 지정하고 함수를 사용해서 그래프의 요소를 정할 수 있습니다.
figure(figsize=(가로,세로))
그래프 이미지의 가로 세로 크기를 지정할 수 있습니다.
subplots 함수를 사용해서 figure 대신 사이즈를 지정할 수 있습니다.
이제 실제 데이터를 갖고 그래프를 그려봅시다.
선형 그래프를 그리기 위해 간단하게 데이터 전처리가 필요합니다. 앞서 배운 groupby 함수로 year, passenger 칼럼을 year 기준으로 합산을 구합니다.
막대 그래프 vs 히스토그램
bar()
막대그래프로 만들어줍니다.
hist()
히스토그램은 연속된 데이터를 기반으로 만들어지기 때문에 array 형식의 데이터 분포에 대해서 적용시켜 줍니다.
파이차트
pie(값, 레이블)
파이차트를 만들어줍니다.
박스 그래프 box plot
iris 데이터에 대해서 box plot 을 만들어줍니다. 데이터에 대한 전처리부터 해줍니다.
plt.boxplot(), sns.boxplot()
matplotlib, seaborn 두 가지 모두 박스그래프 형식의 그래프를 생성해줘서 필요에 따라 사용하면 되겠습니다.
산점도 그래프 scatter plot
scatter()
산점도 그래프를 출력해줍니다.
이때 두 값 사이에 관련성이 적어보일 시 직접 수치로 변환해서 상관계수를 비교해볼 수 있습니다.
corr()
상관계수 비교 함수로, 데이터에 숫자가 아닌 값이 섞여있을 경우 오류가 나기 때문에 numeric_only=True 를 인수로 넣어줘서 숫자 데이터에 대해서만 확인을 할 수 있습니다.
이상 pandas 의 라이브러리를 활용한 데이터 전처리 & 시각화에 대해 알아봤습니다.
오랑우탄이 영어를 하고 오랑이가 코드마스터가 되는 그날까지~
'PYTHON > 데이터분석' 카테고리의 다른 글
[기초통계] 통계 기초 개념 시각화 (파이썬) (0) | 2024.08.01 |
---|---|
[Pandas] Pivot Table 피벗테이블 완전분석 (실습 포함) (0) | 2024.07.23 |
데이터 전처리 & 시각화 (6) 데이터 시각화란? (0) | 2024.07.18 |
데이터 전처리 & 시각화 (5) Pandas 개념 익히기 3 (0) | 2024.07.18 |
데이터 전처리 & 시각화 (4) Pandas 개념 익히기 2 (0) | 2024.07.17 |