[Airflow] 자주 쓰는 Branch Task
2022. 7. 21. 13:05
Data/Data Engineering
I. 개요 일련의 작업 진행 시 상황에 따라 다른 작업으로 이어져야 하는 경우는 굉장히 빈번하게 발생한다. Airflow 는 기본적으로 DAG 으로 작업을 구조화해서 작업을 진행하기 때문에, 자동화할 때 이러한 조건부 작업을 구현하지 못한다면 매번 실패 후 재처리하는 작업이 필요하다. 기본적이지만 자주 사용되는 Branch task 인 BranchPythonOperator 와 BranchSQLOperator 의 사용법과 예제를 기록해둔다. II. Branch Task 1. BranchPythonOperator PythonOperator 기반으로 구성되어 task_id(s) 를 output 으로 하는 Python callable 을 통해 바로 다음에 이어지는 작업 요소를 결정한다. BranchPythonO..
다양한 SQL 스타일을 활용하여 계층형(hierarchy) 쿼리를 표현하는 방법
2021. 10. 31. 21:48
Programming/SQL
Difference between bigquery sql and other sql to write hierarchy sql I. 계층형 데이터(Hierarchical data) WITH employee AS ( SELECT 40 AS id , 'london' AS name, 50 AS boss_id UNION ALL SELECT 50 AS id , 'lee' AS name, 10 AS boss_id UNION ALL SELECT 10 AS id , 'harry' AS name, 20 AS boss_id UNION ALL SELECT 20 AS id , 'leo' AS name, NULL AS boss_id UNION ALL SELECT 70 AS id , 'lucas' AS name, 10 AS boss..
[Bigquery/Python] 빅쿼리 지리정보를 시각화하는 3가지 방법
2021. 2. 28. 17:59
Data/Data Analysis
3 Ways Of Bigquery Geodata Visualization 지난 포스트에 Python으로 하는 H3 공간 분석 를 포스팅한 적이 있습니다. 지리정보는 표현하고자 하는 지리 범위와 차원 깊이, 축에 따라 데이터양이 기하급수적으로 늘어납니다. 이러한 데이터를 csv나 parquet으로 저장해 두고 매번 사용하는 것은 굉장히 까다롭고, 수정/추가 작업에도 문제가 발생합니다. 오늘은 이러한 문제를 극복하기 위해 공식문서 에 소개된 bigquery지리정보를 H3 형태로 시각화하는 3가지 방법을 공유합니다. I. Bigquery Geo Viz Google 지도 API를 사용하여 BigQuery에서 지리정보 데이터를 시각화하기 위한 웹 도구로 SQL 쿼리를 실행하고 대화형 지도에 결과를 표시할 수 있습..