본문 바로가기

실리콘 밸리에서 날아온 엔지니어링 스타터 키트6

[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week7 7주차 주요내용 Airflow Configuration for Production Usage Slack 연동하기 구글 시트 연동하기: 시트 => Redshift 테이블 API & Airflow 모니터링 Dag Dependencies Airflow Configuration for Production Usage 제일 중요한 파일은 airflow.cfg (/var/lib/airflow or /opt/airflow/) Any changes here will be reflected when you restart the webserver and scheduler core 섹션의 dags_folder가 DAG들이 있는 디렉토리가 되어야한다. /var/lib/airflow/dags dag_dir_list_interva.. 2023. 10. 12.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week6 6주차 주요내용 OLTP 테이블 복사하기 Backfill 실행하기 Summary 테이블 만들기 (ELT) MySQL(OLTP) 테이블 복사하기 서비스 운영을 위한 데이터를 MySQL에 적재해놓는다. OLTP(Online Transaction Process) : 서비스를 운영하는데 필요한 최소한의 정보등록 → OLAP(Online Analytical Process) : 데이터 분석과 데이터 프로세싱을 위한 DB구축 MySQL .nps 데이터를 Redshift nps 데이터에 적재하는 두가지 방법 MySQL에서 레코드 하나씩 읽어온 다음에 INSERT 로 루프돌면서 적재시키기 upsert가 지원이 되지 않고 INSERT/UPDATE 과정을 두번 거쳐야하기 때문에 오래걸림 COPY를 통해 UPSERT를 구현 .. 2023. 10. 11.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week5 5주차 주요내용 airflow.cfg 파해치기 Open Weathermap DAG 구현하기 Primary Key Uniqueness 보장하기 Backfill과 Airflow airflow.cfg 파해지기 1. DAGs 폴더는 어디에 지정되는가? core 섹션의 dags_folder 키 - 도커 sh 로 들어가는 과정 /opt/airflow/dags : dags파일이 있을거라고 생각함 2. DAGs 폴더에 스캔 주기를 정해주는 키의 이름이 무엇인가? core 섹션의 dags_dir_list_interval 키 (default = 300s), 최대 5분을 기다리는것이다. 3. API 형태로 외부에서 조작하고 싶다면? 어떤 섹션을 변경해야 하는가? api 섹션의 auth_backend를 airflow.api... 2023. 10. 10.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week3 3주차 주요내용 1. 데이터 파이프라인? 2. Airflow 소개 및 구성 3. 데이터 파이프라인을 만들 때 고려할 점 4. Backfill이란? 데이터 파이프라인이란? 데이터 엔지니어링에서의 Data Pipeline은 전체적인 ETL 프로세스를 의미한다. ETL (Extract, Trasform, Load): 데이터 시스템 밖에 있는 데이터를 가져오는 방법에 대한 이야기이다. (Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic graph)) → 이걸 하는게 데이터 엔지니어의 역량이다. ELT : 데이터 시스템 내부에 이미 들어와 있는 데이터를 조합해서 깨끗한 데이터를 만드는 과정 (T라고도 함) → CTAS를 서비스로 만드는게 dbt이다. 데이터 .. 2023. 9. 5.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week2 2주차 주요내용 1. SQL 특징과 장, 단점 2. SQL DDL과 DML 3. 기본 SQL 4. 고급 SQL SQL의 특징과 장, 단점 장점) 데이터 다루는 직군에서는 SQL만한게 없음 DDL(Data Definition Language) : create table, drop table, alter table.. DML(Data Manipulation Language) : select, insert into... Hive, Presto(AWS: Athena) SQL 포맷으로 지원해주는 빅데이터 기술이 등장 단점) 구조화된 데이터 처리에 최적화되어있음 Redshift는 nested되어있지 않은 데이터 처리가 특효이다. SQL 방언이 존재한다 → 비슷하게 생겼지만 standard syntax가 없다. (특.. 2023. 8. 29.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week1 1주차 주요내용 요즘 커리어 트랜드에 대한 인사이트(마인드셋) 데이터 도메인에 대한 전반적인 이야기 데이터 웨어하우스에 관하여 (AWS Redshift & SQL) 요즘의 커리어란? 커리어 사다리? : 아래 위의 직선적인 변화만 있었음 요즘에는 커리어 정글짐: 다양한 방향성 (옆, 위, 아래, …) 다른 역할 시도해보기 (리드 역할, 매니저 역할..) 전문성 & 안정성에 대해 다시한번 생각해보기 → 결과지향적인 사람이 되어라 내가 맡은 일을 성공으로 이루는 방향(경험)이 나를 단단하게 만든다. 배움의 전형적인 패턴 가장 중요한 것은 버티는 힘 → 이걸 즐겨야 한다. 내가 뭘 모르는지 생각해봐야 함 → 내가 어디서 막혔는지 (나 또는 주변에) 구체적으로 질문할 수 있나? 잘 하는 사람 보고 기죽지 않기 →.. 2023. 8. 21.
반응형