목록판다스 (9)
오랑우탄의 반란
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/yaghx/btsIS6DibMD/IiNUnL0JuFQhdTKucNkb80/img.png)
pandas 에서 자주 사용되는 value_counts() 함수에 대해 알아보겠습니다. ParametersSeries.value_counts(normalize=False, sort=True, ascending=False, bins=None, dropna=True)Series.value_counts()normalize: 값의 상대적 빈도로 표시sort: count 정렬 여부ascending: 내름차순으로 count 정렬 bins: 연속형 자료를 이산 가격으로 bindropna: NaN 값 미포함 여부 우선 연습을 위한 데이터프레임을 생성해줍니다. data = pd.DataFrame({ 'Name':['Alice','Bob','Charlie','Rachel','James','Pedro','Em..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/84Uy8/btsILwU1lwQ/71b2XRs3AyOe34wr1NeHq0/img.png)
피벗 테이블에 대해 알아보겠습니다. Parametersimport pandas as pdpd.pivot_table(data, values=None, index=None, columns=None, aggfunc='mean', fill_value=None, margins=False, dropna=True, margins_name='All', observed=_NoDefault.no_default, sort=True)pd.pivot_table()data: 데이터프레임 오브젝트values: 데이터프레임의 특정 칼럼명 (복수 가능)* index 행(인덱스)에 들어가는 항목, group by 개념* columns 열에 들어가는 항목, group by 개념 * aggfunc 값에 적용되는 집계 함수fill_val..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cw1Gip/btsIEL5Pxro/tZkhxdOLwGlj4SVW8ATLW1/img.jpg)
오늘 오랑이는 matplotlib을 활용한 데이터 시각화에 대해 배울 예정입니다. 그동안 데이터 전처리를 위해 사용하는 pandas의 개념을 익혔는데요, 이제 matplotlib으로 시각화를 해볼 예정입니다. 실제로 시각화에 들어가기 전에 간단하게 그래프 종류를 짚고 넘어갑시다. Matplotlib이란? → 파이썬의 시각화를 위한 라이브러리 중 하나로, 다양한 종류의 그래프를 생성하기 위한 도구를 제공합니다.주로 2D 그래픽을 생성하기 위해 사용되며, 여러 그래프 형식을 지원하고 원하는 형태로 스타일링 할 수 있습니다. matplotlib.pyplot 선형 그래프plot() 2차원 데이터를 시각화하기 위해 사용합니다. xlabel(), ylabel(), title()x축, y축, 제목 s..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/ErMEB/btsICdXL8K7/ovQvHMLRFUCkxjKTgGftE1/img.jpg)
오늘 오랑이는 matplotlib을 활용한 데이터 시각화에 대해 배울 예정입니다. 그동안 데이터 전처리를 위해 사용하는 pandas의 개념을 익혔는데요, matplotlib으로 시각화를 해보기 전에 데이터 시각화에 대해 간단하게 짚고 넘어가겠습니다. 데이터 시각화WHAT 데이터 시각화란? → 데이터 시각화란 말 그대로 정리된 데이터를 더 효과적으로 보기 위해 정보와 시각적인 요소를 패밍한 것입니다. 그래프, 지도, 시뮬레이션 등 그래픽 요소로 변환된 정보 모두 데이터 시각화의 예시입니다. WHY 데이터 시각화가 왜 필요하나요? → 복잡한 다량의 정보를 가장 직관적이고 효과적으로 전달하기 위한 수단이기 때문입니다. 텍스트에 비해 그래픽에 대한 정보 처리 속도가 가장 빠르며, 다량의 정보를 담으..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/0bEBp/btsIEsFhifB/eLGyQAGd963Rw64tczkQt1/img.jpg)
오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다. 지난 포스트에 이어 데이터 병합, 집계, 병렬을 알아보며 Pandas 기초 개념 설명을 마치겠습니다. 6 데이터 병합데이터 병합에는 concat, merge 두 가지 방법이 있습니다. 각각 SQL의 union, join 과 비슷한 쓰임새입니다.아래 데이터에 대해서 작업하겠습니다. concatconcat로 여러 테이블을 병합할 경우, 기본이 밑으로 이어붙여지는 형식입니다. (axis=0)이때 주의할 부분은 인덱스가 기존 테이블들의 인덱스 그대로 이어지지 않는 형태로 들어가기 때문에, 마지막에 .reset_index(drop=True) 를 꼭 붙여줘야 한다는 점입니다. drop=True 를 생략하면 합쳐진 개별 인덱스 칼럼이 남..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/n7IVS/btsIEcCDmQz/2mt4lqxMEAKras9mhvSfVk/img.jpg)
오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다. 지난 포스트에 이어 데이터 확인 및 선택과 불리언 인덱싱을 알아보겠습니다. 4 데이터 확인 및 선택데이터 확인.head(n) / .tail(n)dataframe 을 위에서부터, 밑에서부터 출력해주는 함수로, 데이터셋을 불러올 때 제대로 들어있는지 간단하게 확인하는 용도입니다. .info()각 칼럼에 대한 null 여부과 그 개수, 타입을 알려주는 함수입니다. .describe()숫자 데이터에 대한 간단한 통계를 반환하는 함수입니다. .dtype 특정 칼럼의 타입을 조회할 수 있습니다. .dtypes모든 칼럼에 대한 타입을 조회할 수 있습니다. .astype()특정 칼럼의 타입을 바꿀 때 사용합니다. 아래 데이터로..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/uzlGZ/btsICl1KkHP/rqNVi86m9KSuJG1tJVdF21/img.jpg)
오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다. 지난 포스트에 이어 Pandas 의 기초 개념 몇 가지를 알아보겠습니다. Seaborn 라이브러리의 내장데이터셋을 통해 학습하도록 하겠습니다. iris 데이터셋: 붓꽃의 꽃잎과 꽃받침의 길이와 너비를 포함한 데이터셋입니다.tips 데이터셋: 음식점에서의 팁과 관련된 정보를 담고 있는 데이터셋입니다.titanic 데이터셋: 타이타닉 호 승객들의 정보를 포함한 데이터셋입니다.flights 데이터셋: 연도별 항공편 정보를 담고 있는 데이터셋입니다.planets 데이터셋: 외계 행성 발견에 대한 정보를 담고 있는 데이터셋입니다. 1 데이터셋 불러오기 및 저장하기불러오기seaborn 라이브러리를 import 해 tips 데이터셋을 불..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/KZXOS/btsIDmFqMFj/Fuyk67gCkxcOpivk97qcG0/img.jpg)
오늘 오랑이는 pandas를 활용한 데이터 전처리에 대해 배울 예정입니다. 1 Pandas vs ExcelWHAT Pandas란?→ Python에서 데이터를 조작하고 쉽게 분석할 수 있게 도와주는 라이브러리대용량 데이터 처리가 가능 : Pandas는 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화되어 있습니다.데이터 조작 기능 : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음데이터 시각화 기능 제공 : Matplotlib, Seaborn , … , etc데이터를 구조화하여 분석할 수 있음 : DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내어 분석이 가능함WHY 멀쩡한 엑셀 놔두고 왜 Pandas를 쓰나요..