반응형

MLOps vs. AIOps. What's the difference?

본 내용은 SeattleDataGuy 가 작성하신 MLOps vs. AIOps 를 번(의)역 및 추가한 글입니다.

DevOps - MLOps - AIOps

요즘 기업에 MLOps, DataOps, AIOps 등등 수많은 "OO"Ops팀이 생겨나고 있습니다. 이러한 "Ops"팀은 결국 비즈니스 프로세스 자동화와 관리를 담당하는 DevOps에 근간을 두고 있으며, 소프트웨어의 효율적이고 정확한 구축/관리/유지/테스트 및 릴리즈를 목적으로 합니다.

What Is MLOps ?

기계 학습 분야를 담당하는 DevOps인 MLOps는 기계학습에 대한 지식과 경험을 토대로 모델 훈련 및 재가공, 모델 관리 및 성능 향상을 주도하고 운영 및 개발 프로세스를 조율 및 통합하는 역할을 수행합니다.

 

MLOps 팀의 역량에 따라 모델 훈련, 테스트, 배포가 자동화되어 데이터 분석가/과학자 및 ML 연구원은 훨씬 더 효율적으로, 많은 프로젝트를 수행하고 모델을 개발할 수 있습니다.

 

이제는 대부분의 기업이 이미 기계학습을 비즈니스에 반영하기 시작하였고, 의사결정 과정에서 기계학습을 채택하는 경우도 많아져 MLOps의 중요성은 갈수록 증가할 것입니다.

What Is AIOps ?

Artificial Intelligence for IT Operations 또는 AIOps 라고 불리는 이 새로운 패러다임은 기계가 발생한 IT 이슈를 사람의 개입 없이 스스로 해결할 수 있도록 합니다.

 

AIOps는 여러 가지 도구를 이용해 빅데이터를 수집하고 이를 이용한 기계학습 및 분석을 통해 문제를 스스로 진단하고 보완하는 대응할 수 있습니다. 이를 위해 기계 학습 및 빅데이터와 관련된 핵심 기술을 지속적으로 통합하고 배포하며 동작합니다.

 

AIOps는 복잡하고 어려운 문제뿐 아니라 서비스의 일상적인 운영 및 관리를 용이하게 하고(인력은 줄겠지만...), 서비스 발전에 따른 데이터의 기하급수적 증가에도 훌륭하게 대처할 수 있습니다.


효과적인 AIOps는 전체 운영 프로세스를 자동화하고, 시스템이 데이터 포인트를 독립적으로 상호 연관시킬 수 있도록 정확한 인벤토리를 생성하며 패턴을 감지해 노이즈를 제거하기도 합니다.

What Is AIOps Helpful?

1. 이슈 대응 리소스 감소

우리가 관리하는 서비스는 언제나 완벽할 수 없기 때문에 수많은 경고와 알림을 발생시킵니다. 이러한 알림은 문제를 발견하고 해결하기 위해 필수적이지만, 종종 그 문제는 일시적이거나 자연스럽게 해결되는 문제이고 단지 수동으로 프로그램을 재실행시키는 것만으로도 해결되는 경우가 있습니다. 이러한 사소한 문제들까지 사람이 개입하여 관리하는 것은 불필요한 리소스 낭비입니다.

 

AIOps 시스템은 자동화된 AI 시스템을 통해 과거 이슈와 해결방안을 분석하여 전달되는 경고와 알림을 줄일 수 있도록 지원합니다.

 

2. 이상 현상 감지

앞서 말한 이슈 대응을 위해서 개발팀은 특정 이슈에 대해 에러/현상을 감지하는 특정 모델을 만들어야 하는 경우가 많습니다. 그러나 이것은 단순히 "예측 가능한 문제"에 가능한 얘기이고, 그렇지 못한 상황에 대해 AIOps가 효과적으로 활약할 수 있습니다.

실제로 Resolve.io 와 같은 회사는 IT 운영팀이 시스템과 사용자를 더 쉽게 관리할 수 있도록 위에서 언급한 것과 같은 서비스를 제공하고 있습니다.

 

3. 시스템 매핑 및 종속성 관리

GCP, Azure, AWS 등 대표적인 클라우드 서비스들이 존재하며 많은 기업에서 이를 활용하고 있습니다. 이러한 클라우드 서비스는 많은 개발업무를 단순화하였지만 새로운 문제를 발생시키기도 하였습니다.

 

가령 서버리스를 통해 인프라 구축이 (어떤 측면에서는)더 쉽고 저렴해졌습니다.(서버리스를 통해 기본적으로 API를 만드는데 비교적 큰 노력이 필요하지 않습니다.) 다만 시스템 매핑과 관찰 가능성에 대한 문제 등 새로운 문제가 남았습니다.

 

또한 클라우드 등 타사 서비스를 여러 가지 이용할수록 의존성 관리와 테스트가 어려워집니다. 이는 코드를 배포할 때 변경사항이 미칠 영향을 확인하기 어렵도록 합니다.

 

AIOps는 시스템 의존성을 자동으로 감지하여 시스템이 어떻게 진행되고 있으며, 서로 상호작용하는 시스템을 마이그레이션하고 업데이트 할 때 모니터링해야 할 시스템을 명확히 이해할 수 있도록 해줍니다.

Epsagon 과 같은 도구가 있습니다.

MLOps vs. AIOps

AIOps는 종종 MLOps와 같은 의미로 사용되고 있으며 이는 매우 잘못된 것입니다.

 

AIOps는 실시간으로 문제를 지원 및 대응하고 운영팀에 분석을 제공하고자 합니다. 이러한 기능에는 성능 모니터링, 이벤트 분석, 상관관계 및 IT 자동화가 포함됩니다. 이를 위해 빅데이터와 기계학습을 결합하여 전체 IT 운영 프로세스를 자동화하고 최종적으로 일상적인 IT 운영에서 문제를 자동으로 감지하고 사전에 방지하는 것입니다.

 

반면 MLOps는 기계 학습 모델을 효과적으로 생성하기 위해 필요한 학습 및 테스트 데이터를 관리하는 것에 중점을 두고 기계학습 운영 파이프라인 구축에 집중합니다. 기계학습 모델의 모니터링과 관리가 주 목적인 것입니다.

 

즉 AIOps는 IT 운영 개선을 위해 인지 컴퓨팅 기법을 적용하는 것이 끝이기 때문에 MLOps와 는 완전히 다른 영역입니다.

closing

오늘날 애플리케이션에 대한 아키텍처 복잡성은 점점 증가하고 있으며 IT 운영의 역할도 더욱 어려워지고 있습니다. 이에 따라 ML과 AI 가 일부 수동 비즈니스 프로세스를 자동화하고 효율성을 제공하기 위해 등장하였습니다.

 

MLOps와 AIOps는 완전히 다른 영역이지만 "비즈니스 자동화"를 목표하는 것은 동일합니다. 다만 MLOps는 모델 구축과 배포 간의 격차를 메꾸기 위해, AIOps는 운영 문제를 실시간으로 파악하고 대응하여 위험을 독립적으로 관리하는데 중점을 두는 것입니다.

 

지금은 모두가 인정하는 AI의 황금기입니다. 그러나 AI를 활용한 운영을 성공적으로 이행하기 위해 교육과 투자가 필요합니다. 현재 산업의 경쟁에서 계속 연관성을 잃지 않고 앞서 나가기 위해서는 언급한 기술들을 이해하고 올바르게 선택하는 것이 중요합니다.

반응형
복사했습니다!