[Dagster/Orchestrator] Airflow를 이길수있을까? 새로운 data orchestrator, Dagster 맛보기
2021. 5. 22. 18:24
Data/Data Engineering
Dagster 대시보드를 업데이트하거나, 파이프라인을 꽂아 데이터를 추출 및 적재해야하는 상황 또는 모델의 학습과 데이터 전처리 자동화 등 정기적으로 수행해야하는 업무들이 있습니다. 이러한 일들은 꼭 필요한 작업이지만 매번 사람이 직접 수행하기 어려운 경우가 많습니다. 우리는 이러한 일들을 여러 툴을 사용해 자동화 시키곤 하는데, 이때 가장 자주 사용되는 것이 Airflow 입니다. airflow는 python 기반으로 작성이 가능하다는 점에서 데이터 분석가도 쉽게 사용할 수 있는 장점이 있으며, 방대한 생태계와 잘 정리된 문서로 쉽게 도움을 받을 수 있다는 장점이 있습니다. 또한 나름 괜찮은 UI를 제공하고 있기도 합니다. 이러한 사유로 여태껏 airflow는 워크플로엔진의 탑티어로 군림하고 있으며 어..
[태블로/Uber H3] Uber H3를 태블로에 표현하는 3가지 방법
2021. 4. 17. 14:41
Cloud&Tools/Tableau
3 Ways Of Uber H3 Visualization Using Tableau 빅쿼리를 활용하여 지리 데이터를 시각화하는 방법과 파이썬을 활용한 H3 지리 데이터 시각화에 이어 오늘은 태블로(Tableau)를 활용하여 H3 형식으로 지리 정보를 시각화하는 3가지 방법을 공유합니다. 태블로란? 쉬운 사용법과 다양한 내/외부 확장성, 다양한 데이터베이스와의 연동이 장점인 데이터 시각화 솔루션 태블로 서버에 연동하여 개인 및 공동 작업물의 저장 및 관리가 쉽고, 권한 관리가 가능해 기업에서 자주 사용하는 시각화 툴 중 하나 높은 가격 버전 계약의 경우 다른 버전에서 사용이 불가한데, 버전 업데이트 이후 과거 버전의 설치 파일을 제공하지 않는 문제가 있음 태블로 H3 시각화 오늘 사용하는 데이터는 그림과 같..
[Bigquery/Python] 빅쿼리 지리정보를 시각화하는 3가지 방법
2021. 2. 28. 17:59
Data/Data Analysis
3 Ways Of Bigquery Geodata Visualization 지난 포스트에 Python으로 하는 H3 공간 분석 를 포스팅한 적이 있습니다. 지리정보는 표현하고자 하는 지리 범위와 차원 깊이, 축에 따라 데이터양이 기하급수적으로 늘어납니다. 이러한 데이터를 csv나 parquet으로 저장해 두고 매번 사용하는 것은 굉장히 까다롭고, 수정/추가 작업에도 문제가 발생합니다. 오늘은 이러한 문제를 극복하기 위해 공식문서 에 소개된 bigquery지리정보를 H3 형태로 시각화하는 3가지 방법을 공유합니다. I. Bigquery Geo Viz Google 지도 API를 사용하여 BigQuery에서 지리정보 데이터를 시각화하기 위한 웹 도구로 SQL 쿼리를 실행하고 대화형 지도에 결과를 표시할 수 있습..
MLOps와 AIOps... 둘은 무엇이 다른가?
2020. 12. 13. 18:24
Data/ML
MLOps vs. AIOps. What's the difference? 본 내용은 SeattleDataGuy 가 작성하신 MLOps vs. AIOps 를 번(의)역 및 추가한 글입니다. DevOps - MLOps - AIOps 요즘 기업에 MLOps, DataOps, AIOps 등등 수많은 "OO"Ops팀이 생겨나고 있습니다. 이러한 "Ops"팀은 결국 비즈니스 프로세스 자동화와 관리를 담당하는 DevOps에 근간을 두고 있으며, 소프트웨어의 효율적이고 정확한 구축/관리/유지/테스트 및 릴리즈를 목적으로 합니다. What Is MLOps ? 기계 학습 분야를 담당하는 DevOps인 MLOps는 기계학습에 대한 지식과 경험을 토대로 모델 훈련 및 재가공, 모델 관리 및 성능 향상을 주도하고 운영 및 개발 ..
[Python/H3] Python으로 하는 H3 공간 분석
2020. 12. 9. 21:53
Data/Data Analysis
Python으로 하는 H3 공간 분석 I. H3 란 무엇인가? 그리드 시스템(Grid System)은 일반적으로 수직과 수평으로 면, 공간을 분할하는 것을 의미하며 공간 분석의 가장 기초입니다. 우리가 발을 딛고 사는 지구는 둥근 구형체입니다. 때문에 다각형을 사용하여 지구를 균등하게 나누는 것은 불가능하다고 볼 수 있습니다. 연구자들은 다양한 방법으로 이전 세대 그리드 시스템의 한계를 극복하는 새로운 시스템을 개발하고 있는데, H3는 우버에서 공개한 육각형의 그리드 시스템입니다. 육각형의 그리드 시스템의 가장 큰 장점은 인접하고 있는 셀로 이동할 때 어떠한 방향과 각도로 이동하든 각 중심점까지의 거리가 동일하다는 점입니다. 다만 육각형의 그리드 시스템 역시 지구를 완벽히 균등하게 나누는 것은 불가능하며..
데이터 분석에 사용되는 기초 통계용어(1)
2020. 11. 28. 15:59
Data/Data Analysis
기초 통계 용어(1) I. 변수(variable) 컬럼(column) 또는 피쳐(feature)로 부름 1. 특성에 따른 분류 1) 질적 변수 : 카테고리 분류가 가능한 변수 A. 명목변수 : 순위(서) 개념이 없음 B. 순위변수 : 순위(서) 개념이 있음 2) 양적 변수 : 수치적 분류가 가능한 변수 A. 이산변수 : Count가 가능한 변수 B. 연속변수 : 변수와 다른 변수 사이에 무수히 많은 값이 존재하는 경우(여기서 변수간 간격 측정이 가능하면 등간변수, 비율까지 계산이 가능하면 비율 변수로 표현) 2. 관계에 따른 분류 1) 독립 변수 : 다른 변수에 영향을 줄 수 있는 변수 2) 종속 변수 : 다른 변수에 영향을 받는 변수 II. 통계량 1. 형태 통계량 데이터의 분포와 왜곡을 나타내는 수치..
[Git]Git hooks 를 활용한 자동 black 포매팅
2020. 10. 24. 15:48
Programming/Git
Git hook Hook은 특정 이벤트, 함수가 호출되기 전/후에 실행되는 스크립트/명령을 말합니다. Git은 다른 버전 관리 시스템처럼 어떤 이벤트가 발생할 때 자동으로 특정 스크립트를 실행하도록 할 수 있습니다. 이 훅은 클라이언트 훅(commit or merge 시 발생)과 서버 훅(push 시 발생) 두가지가 있습니다. I. 자주 사용되는 hooks 1. 클라이언트 훅 pre-commit 커밋할 때 가장 먼저 호출되는 훅으로 커밋 메시지를 작성하기 전에 호출됩니다. 즉 git commit "something" 시 즉시 발생하는 hook 입니다. 보통 commit 하기 전에 파일의 코드 스타일 체크, 파일 검사 등을 위해 사용하는 경우가 많습니다. git commit --no-verify 를 이용해..