KEDA를 활용한 로그 시스템 오토스케일링 경험담

우아한형제들은 KEDA를 활용하여 100만 TPS의 로그 시스템에 오토스케일링을 성공적으로 적용하였습니다. 이 경험을 통해 로그 처리의 변동성을 관리하며 비용 효율성을 높이는데 기여하게 되었습니다. 본 문서에서는 KEDA 도입 과정과 실제 운영 사례를 통한 운영 환경 개선 방안에 대해 설명합니다. KEDA 적용을 통한 로그 시스템 아키텍처 변화 KEDA를 도입하기 전, 우아한형제들은 기존 HPA를 이용하여 로그 시스템의 오토스케일링을 시도했습니다. 하지만 평균 CPU 및 메모리 사용량을 기준으로 스케일링이 진행되면서 한계에 봉착하게 되었습니다. KEDA의 도입 이후, 이벤트 기반으로 스케일링을 설정함으로써, 로그 시스템의 아키텍처를 유연하게 설계할 수 있었습니다. KEDA는 다양한 이벤트 소스를 지원하여 로그 시스템의 특성에 맞는 스케일링 기준을 설정할 수 있게 해줍니다. 예를 들어, Fluentd의 버퍼 사용률을 기준으로 스케일링 트리거를 설정함으로써, 시스템이 실제로 부하를 받기 시작하기 전에 프로세스를 조정할 수 있었습니다. 이는 로그 처리의 안정성을 크게 향상시켰고, 유연한 리소스 관리로 비용을 줄일 수 있는 기반을 마련하였습니다. 이러한 변화는 로그 시스템 아키텍처의 효율성을 높이고, 운영 환경을 개선하는 데에 결정적인 역할을 했습니다. 다양한 메트릭을 조합하여 스케일링 미세 조정이 가능해짐으로써, 시스템 부하가 예상되는 피크 시간대에도 원활하게 처리할 수 있는 역량을 갖추게 되었습니다. KEDA 도입을 통한 메트릭 기반 스케일링 효과 KEDA의 도입은 로그 시스템의 메트릭 기반 스케일링을 가능하게 하였습니다. 기존 HPA와 달리, KEDA는 프로메테우스를 이용해 다양한 지표를 직접적으로 활용할 수 있게 해줍니다. 이를 통해 CPU 및 메모리 사용량 외에도 Fluentd 버퍼와 같은 중요한 메트릭을 스케일링 기준으로 설정할 수 있었습니다. Fluentd의 버퍼가 일정 사용률을 초과할 경우 이를 위기 상황으로 간주하여 스케일 아웃을...

우아한 디버깅 툴 개선으로 QA 업무 효율화



세션 리플레이로 이슈 재현 시간 단축

QA 업무의 핵심은 “문제를 얼마나 정확하게 재현하느냐”입니다. 과거에는 문제가 발생한 상황을 영상으로 녹화하고, 동일한 조건을 맞추는 데 많은 시간이 소요됐습니다. 그러나 **세션 리플레이** 기능이 도입되면서 상황이 완전히 달라졌습니다. DOM 스냅샷, 사용자 클릭, 입력 이벤트 등 모든 상호작용이 자동 기록되어 마치 영상을 돌려보듯 확인이 가능합니다. 이제 QA 담당자는 반복적인 수동 재현 작업에서 벗어나 보다 분석 중심의 업무에 집중할 수 있게 되었죠. 저는 특히 이 기능이 단순한 자동화 이상의 의미를 가진다고 생각합니다. 문제를 ‘정확히’ 보여줄 수 있다는 점에서, 개발자와 QA 간의 오해를 줄이고 문제 해결의 속도를 높여줍니다. 이처럼 시각적 정보 기반의 재현 방식은 QA 효율을 끌어올리는 중요한 도약점이 되었습니다.

슬랙 DM 알림으로 신속한 정보 전달

QA 업무의 또 다른 어려움은 정보를 제때 전달하는 문제였습니다. 이슈 발생 후 기록방 링크를 수동으로 공유하고, 개발자가 확인하기까지 지연이 발생하는 경우가 많았습니다. 이 불편을 해소하기 위해 **슬랙 DM 자동 알림** 기능이 도입되었습니다. 테스트 디바이스 정보를 입력하면 자동으로 관련 기록방 링크와 로그 정보가 개발자에게 전달됩니다. 덕분에 QA는 더 이상 “공유 늦음”이나 “링크 누락” 문제로 시간을 낭비하지 않게 되었습니다. 물론 구현 과정은 간단하지 않았습니다. 사용자별로 계정과 디바이스가 달라 연결 구조를 만드는 것이 까다로웠기 때문입니다. 이를 해결하기 위해 구글 시트를 연동하여 Slack ID와 디바이스를 매칭하는 방식을 적용했습니다. 이 결과, 알림 전송 속도와 정확성이 개선되었고 QA-개발 간 커뮤니케이션이 실시간으로 이어졌습니다. 개인적으로 이런 자동화 기능은 “툴이 사람의 시간을 되돌려주는” 대표 사례라 생각합니다.

티켓 생성 기능으로 업무 효율 상승

우아한 디버깅 툴의 세 번째 혁신은 **티켓 생성 자동화**입니다. 이전에는 QA 담당자가 수동으로 티켓을 작성하며, 각 항목에 문제 상황을 입력해야 했습니다. 이제는 기록방의 데이터가 자동으로 연동되어, 클릭 몇 번만으로 완성된 티켓이 생성됩니다. 개발자는 즉시 필요한 로그, 브라우저 정보, 오류 지점을 한눈에 확인할 수 있어 대응 속도가 빨라졌습니다. 특히 베타 앱과 연동된 티켓 생성 기능은 QA의 피로도를 크게 줄였습니다. 저는 이 기능이 QA 문화 자체를 바꿔놓았다고 봅니다. 단순 반복 업무를 줄이고, 품질 분석에 집중할 수 있게 만들었기 때문입니다. 또한 프로세스를 도식화하여 누구나 쉽게 이해할 수 있는 체계를 마련함으로써, 팀 전체의 품질 관리 능력도 향상되었습니다. 결국 이는 단순한 자동화가 아니라 **업무 구조의 효율화**이며, QA가 ‘조력자’에서 ‘주도자’로 성장하는 계기이기도 합니다.

결론

이번 개선을 통해 우아한 디버깅 툴은 단순한 기술 도구를 넘어 **QA 생태계를 혁신하는 플랫폼**으로 발전했습니다. 세션 리플레이로 재현 시간을 줄이고, 슬랙 DM으로 커뮤니케이션 속도를 높였으며, 티켓 자동화로 업무 효율을 극대화했습니다. 결국 이런 변화의 본질은 ‘기술을 통해 협업 문화를 바꾸는 것’입니다. 앞으로도 이 도구가 QA 생산성을 높이고, 개발자와의 시너지를 더욱 강화하는 방향으로 발전하길 기대합니다.

이 블로그의 인기 게시물

우아한형제들의 실시간 알림 혁신: SSE(Server-Sent Events)로 이룬 효율성과 안정성

물어보새의 진화와 지식 공유 확장