본문 바로가기

Airflow15

[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week3 3주차 주요내용 1. 데이터 파이프라인? 2. Airflow 소개 및 구성 3. 데이터 파이프라인을 만들 때 고려할 점 4. Backfill이란? 데이터 파이프라인이란? 데이터 엔지니어링에서의 Data Pipeline은 전체적인 ETL 프로세스를 의미한다. ETL (Extract, Trasform, Load): 데이터 시스템 밖에 있는 데이터를 가져오는 방법에 대한 이야기이다. (Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic graph)) → 이걸 하는게 데이터 엔지니어의 역량이다. ELT : 데이터 시스템 내부에 이미 들어와 있는 데이터를 조합해서 깨끗한 데이터를 만드는 과정 (T라고도 함) → CTAS를 서비스로 만드는게 dbt이다. 데이터 .. 2023. 9. 5.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week2 2주차 주요내용 1. SQL 특징과 장, 단점 2. SQL DDL과 DML 3. 기본 SQL 4. 고급 SQL SQL의 특징과 장, 단점 장점) 데이터 다루는 직군에서는 SQL만한게 없음 DDL(Data Definition Language) : create table, drop table, alter table.. DML(Data Manipulation Language) : select, insert into... Hive, Presto(AWS: Athena) SQL 포맷으로 지원해주는 빅데이터 기술이 등장 단점) 구조화된 데이터 처리에 최적화되어있음 Redshift는 nested되어있지 않은 데이터 처리가 특효이다. SQL 방언이 존재한다 → 비슷하게 생겼지만 standard syntax가 없다. (특.. 2023. 8. 29.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week1 1주차 주요내용 요즘 커리어 트랜드에 대한 인사이트(마인드셋) 데이터 도메인에 대한 전반적인 이야기 데이터 웨어하우스에 관하여 (AWS Redshift & SQL) 요즘의 커리어란? 커리어 사다리? : 아래 위의 직선적인 변화만 있었음 요즘에는 커리어 정글짐: 다양한 방향성 (옆, 위, 아래, …) 다른 역할 시도해보기 (리드 역할, 매니저 역할..) 전문성 & 안정성에 대해 다시한번 생각해보기 → 결과지향적인 사람이 되어라 내가 맡은 일을 성공으로 이루는 방향(경험)이 나를 단단하게 만든다. 배움의 전형적인 패턴 가장 중요한 것은 버티는 힘 → 이걸 즐겨야 한다. 내가 뭘 모르는지 생각해봐야 함 → 내가 어디서 막혔는지 (나 또는 주변에) 구체적으로 질문할 수 있나? 잘 하는 사람 보고 기죽지 않기 →.. 2023. 8. 21.
반응형