목록전체 글 (91)
오랑우탄의 반란
 [Python] 파이썬이란?
      
      
        [Python] 파이썬이란?
        파이썬(Python)이란?1990년 암스테르담의 귀도 반 로섬(Guido van rossum)이 개발한 인터프리터 언어 * 인터프리터 언어 : 소스 코드를 한 줄씩 해석한 후 그때그때 실행해 결과를 바로 확인할 수 있는 언어로, 개발과 디버깅이 용이함 파이썬의 장점쉬운 문법: 자연어 영어 문장과 유사한 구조로 초보자도 빠르게 학습 가능오픈소스: 무료 오픈소스 소프트웨어로 플랫폼 상관 없이 실행 가능 다양한 라이브러리: 데이터 분석(numpy, pandas), 머신러닝(sklearn, TensorFlow), 웹 개발(Django, Flask) 등 다양한 라이브러리 제공커뮤니티 지원: 방대한 사용자 커뮤니티와 자료가 많아 문제 해결이 용이AI/데이터 과학 트렌드: 인공지능, 데이터 분석, 자동화 등의 분..
 HackerRank | Symmetric Pairs (MySQL)
      
      
        HackerRank | Symmetric Pairs (MySQL)
        오늘도 오랑이는 문제를 풉니다. Symmetric PairsYou are given a table, Functions, containing two columns: X and Y.Two pairs (X1, Y1) and (X2, Y2) are said to be symmetric pairs if X1 = Y2 and X2 = Y1.Write a query to output all such symmetric pairs in ascending order by the value of X. List the rows such that X1 ≤ Y1. Sample InputSample Output20 2020 2122 23 풀이과정x1 = y2 & x2 = y1 인 행이 2개 이상인 경우x 첫번째 풀이는 셀프조인..
 HackerRank | SQL Project Planning (MySQL)
      
      
        HackerRank | SQL Project Planning (MySQL)
        오늘도 오랑이는 문제를 풉니다. SQL Project PlanningYou are given a table, Projects, containing three columns: Task_ID, Start_Date and End_Date. It is guaranteed that the difference between the End_Date and the Start_Date is equal to 1 day for each row in the table.If the End_Date of the tasks are consecutive, then they are part of the same project. Samantha is interested in finding the total number of dif..
 HackerRank | Weather Observation Station 20 (MySQL) 중앙값 percent_rank
      
      
        HackerRank | Weather Observation Station 20 (MySQL) 중앙값 percent_rank
        오랜만에 오랑이는 문제를 풉니다. Weather Observation Station 20A median is defined as a number separating the higher half of a data set from the lower half. Query the median of the Northern Latitudes (LAT_N) from STATION and round your answer to decimal places. Input Format The STATION table is described as follows where LAT_N is the northern latitude and LONG_W is the western longitude. 중앙값을 구하는 문제입니다.O..
 [Tableau] 랜딩 페이지 A/B 테스트 대시보드 제작 과제 실습
      
      
        [Tableau] 랜딩 페이지 A/B 테스트 대시보드 제작 과제 실습
        과제 설명 PO의 요청 업무: 실험 결과를 분석할 수 있는 대시보드 작업을 진행해주세요![실험 상황 시나리오]이커머스 K사는 웹사이트의 랜딩 페이지 UI 실험을 진행했습니다.유저를 실험군과 대조군으로 나누어 랜딩 페이지 구 버전 A안과 새 버전 B안을 비교하여 약 1달 동안 실험이 진행 되었어요.실험 결과 데이터는 ab_data.csv 파일에 쌓였습니다.A/B 테스트의 성공 지표를 컬럼 converted(페이지 전환 유무)를 활용하여 두가지 랜딩 페이지 실험 결과를 검증하고 싶습니다. ✅ 실험 진행 기간: 약 1달간(2017/1/2 - 1/24)✅ 실험 대상: 총 약 29만명 랜딩 페이지 유입 유저 → 실험군(약 14만명), 대조군(약 14만명)✅ 실험 목표: 유저의 랜딩 페이지 전환율 상승✅ 성공 지..
 [Tableau] 한 눈에 보는 테이블 구조와 스키마 종류
      
      
        [Tableau] 한 눈에 보는 테이블 구조와 스키마 종류
        테이블 구조 이름설명특징예시차원 dimension측정/분석의 기준이 되는 칼럼태블로 dimension table (파란색) star, snowflake 스키마의 가장자리에 있는 테이블로 수치에 대한 상세 정보 유저 id, 지역, 상품명 등 측정값 metric측정하는 값/항목 칼럼태블로 fact table (초록색)star, snowflake 스키마의 중심에 있는 집계 가능한 테이블, 수치로 표현됨매출, 리텐션, 전환율 등 스키마 종류 이름특징 Star 스키마- 가장 간단하고 일반적으로 사용되는 유형의 데이터 웨어하우스 스키마- fact table 중심으로 dimension table이 둘러싸고 있는 별 모양 구조- 주제별로 정리되어 있음 (date, product 등)- dimension table ..
 한 눈에 보는 데이터 인프라 (ETL, 웨어하우스, 레이크, 마트)
      
      
        한 눈에 보는 데이터 인프라 (ETL, 웨어하우스, 레이크, 마트)
        용어설명ETLETL (추출, 전환, 로드/적재 Extract, Transform, Load) 은 여러 데이터 소스에서 모아진 정보(E)에 대해 품질 개선 및 구조화를 진행한 후(T), 단일 물리적 데이터베이스로 통합해 데이터 웨어하우스, 데이터 레이크, 데이터 마트 형태로 적재(L)시켜 데이터를 전송하는 프로세스 추출: SQL / NoSQL 서버, CRM 및 ERP 시스템, 플랫 파일, 이메일, 웹페이지 등에서 raw데이터 수집 전환: 데이터 필터링/정제/중복 제거/유효성 검사로 1차 처리, 계산/번역/요약 등 일관성 유지, 필요 시 데이터 제거 및 암호화로 보호, 테이블로 포맷팅 (스키마 일치시키기) 데이터웨어하우스수집된 데이터가 ETL을 거쳐 한 곳에 모아진 데이터 (=창고)다량의 데이터를 장기간 보..
 [ML] 분류 모델 불균형 데이터에 대한 솔루션 Classification Model Imbalanced Data Solution
      
      
        [ML] 분류 모델 불균형 데이터에 대한 솔루션 Classification Model Imbalanced Data Solution
        불균형 데이터란?불균형 데이터란 목표 변수가 범주형 데이터일 때 범주별 관측치의 개수/비율 차이가 큰 데이터를 뜻합니다. 이때 데이터가 더 많은 쪽을 다수 범주(majority class), 적은 쪽을 소수 범주(minority class)라고 부릅니다. 실무에서 분류 작업을 진행할 때 균형 데이터보다 불균형 데이터를 다뤄야 하는 경우가 많습니다. 신용카드 회사의 정상 거래 대비 사기 거래, 통신회사 기존 유저 대비 이탈(churn) 유저 등 특정 데이터의 비율이 월등히 크거나 작은 경우가 있겠지요. 그럼 이 불균형 데이터가 왜 머신러닝 분류작업 시 문제가 될까요? 불균형 데이터가 왜 문제인가? 머신러닝으로 분류 작업을 진행할 때 프로그램은 자동으로 다수 범주 데이터에 더 큰 비중을 둬서 ..