KEDA를 활용한 로그 시스템 오토스케일링 경험담

우아한형제들은 KEDA를 활용하여 100만 TPS의 로그 시스템에 오토스케일링을 성공적으로 적용하였습니다. 이 경험을 통해 로그 처리의 변동성을 관리하며 비용 효율성을 높이는데 기여하게 되었습니다. 본 문서에서는 KEDA 도입 과정과 실제 운영 사례를 통한 운영 환경 개선 방안에 대해 설명합니다. KEDA 적용을 통한 로그 시스템 아키텍처 변화 KEDA를 도입하기 전, 우아한형제들은 기존 HPA를 이용하여 로그 시스템의 오토스케일링을 시도했습니다. 하지만 평균 CPU 및 메모리 사용량을 기준으로 스케일링이 진행되면서 한계에 봉착하게 되었습니다. KEDA의 도입 이후, 이벤트 기반으로 스케일링을 설정함으로써, 로그 시스템의 아키텍처를 유연하게 설계할 수 있었습니다. KEDA는 다양한 이벤트 소스를 지원하여 로그 시스템의 특성에 맞는 스케일링 기준을 설정할 수 있게 해줍니다. 예를 들어, Fluentd의 버퍼 사용률을 기준으로 스케일링 트리거를 설정함으로써, 시스템이 실제로 부하를 받기 시작하기 전에 프로세스를 조정할 수 있었습니다. 이는 로그 처리의 안정성을 크게 향상시켰고, 유연한 리소스 관리로 비용을 줄일 수 있는 기반을 마련하였습니다. 이러한 변화는 로그 시스템 아키텍처의 효율성을 높이고, 운영 환경을 개선하는 데에 결정적인 역할을 했습니다. 다양한 메트릭을 조합하여 스케일링 미세 조정이 가능해짐으로써, 시스템 부하가 예상되는 피크 시간대에도 원활하게 처리할 수 있는 역량을 갖추게 되었습니다. KEDA 도입을 통한 메트릭 기반 스케일링 효과 KEDA의 도입은 로그 시스템의 메트릭 기반 스케일링을 가능하게 하였습니다. 기존 HPA와 달리, KEDA는 프로메테우스를 이용해 다양한 지표를 직접적으로 활용할 수 있게 해줍니다. 이를 통해 CPU 및 메모리 사용량 외에도 Fluentd 버퍼와 같은 중요한 메트릭을 스케일링 기준으로 설정할 수 있었습니다. Fluentd의 버퍼가 일정 사용률을 초과할 경우 이를 위기 상황으로 간주하여 스케일 아웃을...

배차 시스템 실거리 계산 최적화 사례 공유


최근 배달의민족은 배차 시스템의 정확도를 높이기 위해 실거리 산출 방식을 고도화한 사례를 공개했다. 이 시스템은 라이더와 배달 간의 효율적인 매칭을 위해 실제 도로를 기반으로 한 거리 계산을 도입하였으며, 이를 통해 배달 효율성을 증대시키는 데 기여하고 있다. 본 글에서는 그런 실거리 시스템 구축 과정에서의 경험과 기술적 접근을 소개한다.

배달의민족 배차 시스템의 혁신적 변화

배차 시스템의 핵심 과제는 주문에 대한 적절한 라이더를 빠르고 효율적으로 매칭하는 것이다. 이러한 매칭 문제에서 실거리 계산은 필수적인 역할을 한다. 실거리를 계산하기 위해 배달의민족은 Redis와 같은 고성능 데이터 저장소를 활용하여 대량의 트래픽을 효과적으로 처리하는 방법을 찾아냈다. 이 과정을 통해 배차 시스템은 라이더가 보다 정확하고 빠르게 배달을 완수할 수 있도록 도와준다

가장 먼저, 실거리를 정확하게 계산하기 위한 API 호출 방식이 요구됐다. 기존의 상용 내비게이션을 사용하기에는 비용과 성능 면에서 한계가 있었으므로, 오픈 소스 지도 API인 OSRM을 활용했다. OSRM은 최신 지리 정보를 바탕으로 최적의 경로를 제공할 수 있으며, 이를 통해 배달 경로에 대한 실거리를 효율적으로 산출할 수 있었다.

또한, 배차 시스템은 이벤트 드리븐 아키텍처를 도입하여 각 이벤트에 따라 거리 계산을 진행한다. 예를 들어, 배달이 생성되거나 픽업지가 변경될 때마다 실거리를 계산하게 되어 있으며 이는 Kafka를 통해 이벤트가 발행되고 처리되는 시스템이 고안됐다. 각 이벤트 처리 후에는 저장된 데이터를 기반으로 필요한 결정을 내릴 수 있는 구조로, 실거리를 계산하는 효율성이 크게 증가했다.


효율성을 극대화한 거리 저장 방식

배차 시스템에서 거리 데이터를 효과적으로 관리하기 위해 Redis를 인메모리 데이터 저장소로 활용하고 있다. 이는 빠른 읽기 및 쓰기 성능을 제공함으로써 배달과 관련된 대량의 트래픽을 잘 소화할 수 있는 환경을 조성하고 있다. 그러나 한정된 저장 용량과 대역폭 문제는 여전히 해결해야 할 큰 과제였다.


이와 관련하여, 배달의민족은 데이터를 지역별로 그룹화하여 관리하는 방법을 선택했다. 즉, 지역 ID를 기준으로 실거리 그래프를 구성하여 각 지역 내에서의 배달에 대해서만 거리 데이터를 계산하고 저장하는 방식이다. 이 접근법은 다량의 데이터를 단일 요청으로 처리할 수 있어 네트워크 대역폭과 시간 효율성을 동시에 높일 수 있다.


또한, Redis의 Hash 자료구조를 사용해 각 지역의 실거리 데이터를 관리하는 아키텍처를 도입했다. 이를 통해 필요한 거리 정보만을 요청하고 수정할 수 있어 성능의 개선이 이루어졌다. 이러한 방식으로, 데이터를 보다 효율적으로 저장하고, 필요할 때 신속하게 접근하여 성능 최적화를 꾀할 수 있었다.


성능 최적화를 위한 지속적인 노력

실거리 시스템은 단기적인 거리 계산뿐만 아니라 장기적인 성능 향상에도 중점을 두고 있다. 배달이 완료된 후 실거리 데이터를 누적하여 누적된 데이터를 재사용할 수 있는 체계를 마련함으로써, 시간과 리소스를 절약하는 방향으로 나아가고 있다. 이를 통해 시스템의 개별 작업 부하를 줄이고, 지속적으로 성능을 개선시킬 수 있는 기초를 다지게 됐다.


특히, 네트워크 대역폭을 효율적으로 관리하기 위해 TTL(유효 기간) 관리를 최적화했다. 초기 배포 단계에서는 모든 거리 데이터에 대해 TTL을 설정했지만, 이는 불필요한 리소스를 소모하게 했다. 따라서 배달이 취소되거나 완료될 때에만 거리 데이터를 삭제하는 방안을 채택하여 시스템의 부하를 줄이고, 처리의 안정성을 높이는 데 성공했다.


이러한 일련의 개선 조치를 통해 배차 시스템은 변화하는 환경 속에서도 지속적으로 최적화된 성능을 제공하고 있으며, 많은 배달 요청을 신속하게 소화할 수 있는 능력을 갖추게 되었다. 이는 결국 라이더에게 보다 빠르고 정확한 배달 기회를 제공할 수 있게 해주고, 고객 만족도를 높이는 데 기여하고 있다.


배차 시스템에서 실거리 계산 최적화의 가장 큰 성과는 단순히 기술적 접근에 그치는 것이 아니라, 라이더와 고객 모두에게 실질적인 가치를 제공하는 것에 있다. 앞으로도 지속적인 모니터링과 최적화를 통해 더욱 향상된 서비스로 나아갈 예정이다. 향후에는 이러한 최적화 결과를 바탕으로 서비스의 질을 한층 더 높이는 방향으로 발전해 나가길 바란다.

이 블로그의 인기 게시물

우아한형제들의 실시간 알림 혁신: SSE(Server-Sent Events)로 이룬 효율성과 안정성

물어보새의 진화와 지식 공유 확장

우아한 디버깅 툴 개선으로 QA 업무 효율화