목록분류 전체보기 (90)
오랑우탄의 반란
오늘도 오랑이는 문제를 풉니다. Symmetric PairsYou are given a table, Functions, containing two columns: X and Y.Two pairs (X1, Y1) and (X2, Y2) are said to be symmetric pairs if X1 = Y2 and X2 = Y1.Write a query to output all such symmetric pairs in ascending order by the value of X. List the rows such that X1 ≤ Y1. Sample InputSample Output20 2020 2122 23 풀이과정x1 = y2 & x2 = y1 인 행이 2개 이상인 경우x 첫번째 풀이는 셀프조인..
오늘도 오랑이는 문제를 풉니다. SQL Project PlanningYou are given a table, Projects, containing three columns: Task_ID, Start_Date and End_Date. It is guaranteed that the difference between the End_Date and the Start_Date is equal to 1 day for each row in the table.If the End_Date of the tasks are consecutive, then they are part of the same project. Samantha is interested in finding the total number of dif..
오랜만에 오랑이는 문제를 풉니다. Weather Observation Station 20A median is defined as a number separating the higher half of a data set from the lower half. Query the median of the Northern Latitudes (LAT_N) from STATION and round your answer to decimal places. Input Format The STATION table is described as follows where LAT_N is the northern latitude and LONG_W is the western longitude. 중앙값을 구하는 문제입니다.O..
과제 설명 PO의 요청 업무: 실험 결과를 분석할 수 있는 대시보드 작업을 진행해주세요![실험 상황 시나리오]이커머스 K사는 웹사이트의 랜딩 페이지 UI 실험을 진행했습니다.유저를 실험군과 대조군으로 나누어 랜딩 페이지 구 버전 A안과 새 버전 B안을 비교하여 약 1달 동안 실험이 진행 되었어요.실험 결과 데이터는 ab_data.csv 파일에 쌓였습니다.A/B 테스트의 성공 지표를 컬럼 converted(페이지 전환 유무)를 활용하여 두가지 랜딩 페이지 실험 결과를 검증하고 싶습니다. ✅ 실험 진행 기간: 약 1달간(2017/1/2 - 1/24)✅ 실험 대상: 총 약 29만명 랜딩 페이지 유입 유저 → 실험군(약 14만명), 대조군(약 14만명)✅ 실험 목표: 유저의 랜딩 페이지 전환율 상승✅ 성공 지..
테이블 구조 이름설명특징예시차원 dimension측정/분석의 기준이 되는 칼럼태블로 dimension table (파란색) star, snowflake 스키마의 가장자리에 있는 테이블로 수치에 대한 상세 정보 유저 id, 지역, 상품명 등 측정값 metric측정하는 값/항목 칼럼태블로 fact table (초록색)star, snowflake 스키마의 중심에 있는 집계 가능한 테이블, 수치로 표현됨매출, 리텐션, 전환율 등 스키마 종류 이름특징 Star 스키마- 가장 간단하고 일반적으로 사용되는 유형의 데이터 웨어하우스 스키마- fact table 중심으로 dimension table이 둘러싸고 있는 별 모양 구조- 주제별로 정리되어 있음 (date, product 등)- dimension table ..
용어설명ETLETL (추출, 전환, 로드/적재 Extract, Transform, Load) 은 여러 데이터 소스에서 모아진 정보(E)에 대해 품질 개선 및 구조화를 진행한 후(T), 단일 물리적 데이터베이스로 통합해 데이터 웨어하우스, 데이터 레이크, 데이터 마트 형태로 적재(L)시켜 데이터를 전송하는 프로세스 추출: SQL / NoSQL 서버, CRM 및 ERP 시스템, 플랫 파일, 이메일, 웹페이지 등에서 raw데이터 수집 전환: 데이터 필터링/정제/중복 제거/유효성 검사로 1차 처리, 계산/번역/요약 등 일관성 유지, 필요 시 데이터 제거 및 암호화로 보호, 테이블로 포맷팅 (스키마 일치시키기) 데이터웨어하우스수집된 데이터가 ETL을 거쳐 한 곳에 모아진 데이터 (=창고)다량의 데이터를 장기간 보..
불균형 데이터란?불균형 데이터란 목표 변수가 범주형 데이터일 때 범주별 관측치의 개수/비율 차이가 큰 데이터를 뜻합니다. 이때 데이터가 더 많은 쪽을 다수 범주(majority class), 적은 쪽을 소수 범주(minority class)라고 부릅니다. 실무에서 분류 작업을 진행할 때 균형 데이터보다 불균형 데이터를 다뤄야 하는 경우가 많습니다. 신용카드 회사의 정상 거래 대비 사기 거래, 통신회사 기존 유저 대비 이탈(churn) 유저 등 특정 데이터의 비율이 월등히 크거나 작은 경우가 있겠지요. 그럼 이 불균형 데이터가 왜 머신러닝 분류작업 시 문제가 될까요? 불균형 데이터가 왜 문제인가? 머신러닝으로 분류 작업을 진행할 때 프로그램은 자동으로 다수 범주 데이터에 더 큰 비중을 둬서 ..
오늘도 오랑이는 문제를 풉니다. 둘만의 암호 풀이 과정alphabet 문자열 생성 후 skip에 포함된 문자 제거s 의 문자에 대해 인덱스 + index 에 해당되는 문자 alphabet에서 꺼내서 출력 우선 s 인덱스 카운트가 원활하게 되도록 alphabet 문자열 생성 후 skip 에 포함된 문자를 제거해주는 작업을 해줍니다.def solution(s, skip, index): answer = '' alphabet = 'abcdefghijklmnopqrstuvwxyz' alphabet = ''.join(sorted(set(alphabet) - set(skip))) skip 이 제거된 알파벳을 출력해보면 아래와 같이 나옵니다. 이제 s 인덱스+index 에 맞는 알파벳을 출력해주는..