오랑우탄의 반란

한 눈에 보는 데이터 인프라 (ETL, 웨어하우스, 레이크, 마트) 본문

PYTHON/데이터분석

한 눈에 보는 데이터 인프라 (ETL, 웨어하우스, 레이크, 마트)

5&2 2024. 9. 4. 18:37
반응형

 

출처: Snowflake

 

용어 설명

ETL

  • ETL (추출, 전환, 로드/적재 Extract, Transform, Load) 은 여러 데이터 소스에서 모아진 정보(E)에 대해 품질 개선 및 구조화를 진행한 후(T), 단일 물리적 데이터베이스로 통합해 데이터 웨어하우스, 데이터 레이크, 데이터 마트 형태로 적재(L)시켜 데이터를 전송하는 프로세스 
    • 추출: SQL / NoSQL 서버, CRM 및 ERP 시스템, 플랫 파일, 이메일, 웹페이지 등에서 raw데이터 수집 
    • 전환: 데이터 필터링/정제/중복 제거/유효성 검사로 1차 처리, 계산/번역/요약 등 일관성 유지, 필요 시 데이터 제거 및 암호화로 보호, 테이블로 포맷팅 (스키마 일치시키기) 

데이터
웨어하우스

  • 수집된 데이터가 ETL을 거쳐 한 곳에 모아진 데이터 (=창고)
  • 다량의 데이터를 장기간 보관하는 데에 최적화 되어 있음
  • 업무적으로 중요한 데이터 저장, 전사적으로 통합 관리 필요 

데이터
레이크

  • 미가공 raw 데이터 그대로 적재된 점에서 데이터 웨어하우스와 다름 
  • Ad-hoc/머신러닝 분석에 대한 수요가 높아지면서 가공되지 않은 데이터 그대로 사용 필요한 경우 생겨 데이터 레이크에 적재
    • 다량의 정형/비정형 데이터 (e.g. sns, 클릭스트림 데이터) 저장 및 실시간 분석 

데이터
마트

  • 데이터 웨어하우스 데이터 중 각 부서별 필요에 따라 만들어진 단순한 형태의 데이터 웨어하우스 
  • 비즈니스 팀에서의 효율적인 데이터 검색, 의사 결정 간소화, 효과적인 정보 제어 및 유연한 데이터 관리가 장점 

 

반응형