PIPELINE1 [데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week3 3주차 주요내용 1. 데이터 파이프라인? 2. Airflow 소개 및 구성 3. 데이터 파이프라인을 만들 때 고려할 점 4. Backfill이란? 데이터 파이프라인이란? 데이터 엔지니어링에서의 Data Pipeline은 전체적인 ETL 프로세스를 의미한다. ETL (Extract, Trasform, Load): 데이터 시스템 밖에 있는 데이터를 가져오는 방법에 대한 이야기이다. (Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic graph)) → 이걸 하는게 데이터 엔지니어의 역량이다. ELT : 데이터 시스템 내부에 이미 들어와 있는 데이터를 조합해서 깨끗한 데이터를 만드는 과정 (T라고도 함) → CTAS를 서비스로 만드는게 dbt이다. 데이터 .. 2023. 9. 5. 이전 1 다음 반응형