본문 바로가기

backfill3

[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week6 6주차 주요내용 OLTP 테이블 복사하기 Backfill 실행하기 Summary 테이블 만들기 (ELT) MySQL(OLTP) 테이블 복사하기 서비스 운영을 위한 데이터를 MySQL에 적재해놓는다. OLTP(Online Transaction Process) : 서비스를 운영하는데 필요한 최소한의 정보등록 → OLAP(Online Analytical Process) : 데이터 분석과 데이터 프로세싱을 위한 DB구축 MySQL .nps 데이터를 Redshift nps 데이터에 적재하는 두가지 방법 MySQL에서 레코드 하나씩 읽어온 다음에 INSERT 로 루프돌면서 적재시키기 upsert가 지원이 되지 않고 INSERT/UPDATE 과정을 두번 거쳐야하기 때문에 오래걸림 COPY를 통해 UPSERT를 구현 .. 2023. 10. 11.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week5 5주차 주요내용 airflow.cfg 파해치기 Open Weathermap DAG 구현하기 Primary Key Uniqueness 보장하기 Backfill과 Airflow airflow.cfg 파해지기 1. DAGs 폴더는 어디에 지정되는가? core 섹션의 dags_folder 키 - 도커 sh 로 들어가는 과정 /opt/airflow/dags : dags파일이 있을거라고 생각함 2. DAGs 폴더에 스캔 주기를 정해주는 키의 이름이 무엇인가? core 섹션의 dags_dir_list_interval 키 (default = 300s), 최대 5분을 기다리는것이다. 3. API 형태로 외부에서 조작하고 싶다면? 어떤 섹션을 변경해야 하는가? api 섹션의 auth_backend를 airflow.api... 2023. 10. 10.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week3 3주차 주요내용 1. 데이터 파이프라인? 2. Airflow 소개 및 구성 3. 데이터 파이프라인을 만들 때 고려할 점 4. Backfill이란? 데이터 파이프라인이란? 데이터 엔지니어링에서의 Data Pipeline은 전체적인 ETL 프로세스를 의미한다. ETL (Extract, Trasform, Load): 데이터 시스템 밖에 있는 데이터를 가져오는 방법에 대한 이야기이다. (Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic graph)) → 이걸 하는게 데이터 엔지니어의 역량이다. ELT : 데이터 시스템 내부에 이미 들어와 있는 데이터를 조합해서 깨끗한 데이터를 만드는 과정 (T라고도 함) → CTAS를 서비스로 만드는게 dbt이다. 데이터 .. 2023. 9. 5.
반응형