본문 바로가기

DAG3

[Apache Airflow 기반의 데이터 파이프라인]운영환경에서 Airflow 관리 아키텍처 설치 방식 메타스토어 스케줄러 익스큐터 설치 프로세스 로그 확인 메트릭 시각화 및 모니터링 아키텍처 최소 구성 요건 : 웹 서버 → 데이터베이스 ← 스케줄러 → DAGs 웹 서버 Airflow 프로세스 Airflow2에서 웹 서버는 데이터베이스에서 DAG 읽어내므로 DAG 파일 액세스 필요 없음 파이프라인의 현재 상태에 대한 정보를 시각적으로 표시 사용자가 DAG 트리거 같은 특정 태스크 수행할 수 있도록 관리 스케줄러 Airflow 프로세스 DAG 정의가 있는 폴더에 엑세스할 수 있어야 함 DAG 파일 구문 분석, 비트 및 조각 추출, 메타 스토어에 저장 실행할 태스크 결정 및 대기열에 배치 대기 상태의 태스크 가져오기 및 실행 데이터베이스 웹 서버 및 스케줄러의 메타 데이터를 저장하는 별도의.. 2024. 2. 27.
[Apache Airflow 기반의 데이터 파이프라인] Airflow 콘텍스트를 사용하여 태스크 템플릿 작성하기 개요 PythonOperator 템플릿 키워드 인자를 받아들이는 또다른 방법 : 명시적으로 변수를 알려주기 PythonOperator에 변수제공 :두가지 이상의 데이터 소스에서 데이터를 다운로드 다른 시스템과 연결하기 개요 어떤 종류의 데이터로 작업을 하든지, 파이프라인을 구축하기 전에 접근 방식에 대한 기술적 계획을 세우는 것이 중요하다. 솔루션은 항상 다른 사용자가 데이터로 무엇을 하려는지에 따라 달라지므로, 질문에 대한 답을 알고 나면 기술적 세부 사항에 대한 문제를 해결할 수 있다. jinja 탬플릿 {{이중 중괄호}}을 통해 런타임 시 삽입 될 변수를 나타내서 사용할 수 있다. print("Hello {{ name }}!") 런타임 시 값을 입력하기 때문에 프로그래밍 할 때에는 값을 알 수 없다.. 2024. 2. 17.
[데이터엔지니어] 실리콘 밸리에서 날아온 엔지니어링 스타터 키트 Week3 3주차 주요내용 1. 데이터 파이프라인? 2. Airflow 소개 및 구성 3. 데이터 파이프라인을 만들 때 고려할 점 4. Backfill이란? 데이터 파이프라인이란? 데이터 엔지니어링에서의 Data Pipeline은 전체적인 ETL 프로세스를 의미한다. ETL (Extract, Trasform, Load): 데이터 시스템 밖에 있는 데이터를 가져오는 방법에 대한 이야기이다. (Data Pipeline = ETL = Data Workflow = DAG(Directed Acyclic graph)) → 이걸 하는게 데이터 엔지니어의 역량이다. ELT : 데이터 시스템 내부에 이미 들어와 있는 데이터를 조합해서 깨끗한 데이터를 만드는 과정 (T라고도 함) → CTAS를 서비스로 만드는게 dbt이다. 데이터 .. 2023. 9. 5.
반응형