GPT 에러, 1분만에 해결해 보았습니다.
Tech

GPT 에러, 1분만에 해결해 보았습니다.

기능 플래그만 있으면 GPT 에러같이 컨트롤 할 수 없는 에러가 발생해도 피해 없이 지나갈 수 있습니다.

Jen
,
Data Scientist
콘텐츠 공유

*이 글은 핵클의 미래를 만드는 데이터 사이언티스트 팀을 리딩하시는 Jen님의 수기 컨텐츠 입니다.

“여행 가이드 (마이리얼트립), AI 건강 관련 챗봇 비서 (굿닥), AI 연말정산 세무 도우미 (삼쩜삼·올거나이즈), AI 코딩 도우미 (엘리스), 우리 가게 패키지 (LG유플러스), ChatGPT에게 물어보기 (토스)" 

핵클을 비롯해 많은 기업이 OpenAI, Google, Meta 같은 테크 기업들이 제공하는 초거대 생성형 AI의 API를 연계한 서비스를 운영하고 있습니다. 일 년 전까지만 해도 AI를 직접 개발하지 않으면 불가능했던 것들이 테크 기업들이 제공하는 API 통해 저렴한 비용으로 쉽게 활용할 수 있게 되었기 때문입니다. 

AI를 활용하지 않는 기업은 수년 내 도태될 것, 그런데 말입니다.  

초거대 생성형 AI 도입 진입 장벽이 낮아져 이를 기회로 서비스의 경쟁력을 높일 수 있는 측면에서는 분명히 장점입니다. 하지만 테크 기업들이 제공하는 AI 기술에 서비스 의존도가 높아지는 상황을 경계할 필요가 있습니다. 

일례로 올해 10월 19일 GPT API 요청이 3시간 넘게 실패했었습니다. 이전에 ChatGPT 트래픽 상승으로 인해 ChatGPT를 이용할 수 있는 페이지에 접속이 안 되는 상황은 종종 볼 수 있었지만, API를 통한 요청(GPT-3.5-Turbo API, GPT-4 API)이 이렇게 오랜 기간 실패 것은 처음 있는 일 이었습니다. 

OpenAI는 서비스 별로 status와 장애 발생 및 처리 상황을 확인할 수 있는 OpenAI Status 페이지를 별도로 운영하고 있는데, 접속해 보면 아래와 같이 10월 19일 이후로 잦은 장애가 발생한 것을 확인할 수 있습니다. 

OpenAI Status 화면 캡처 (red: major 에러 / yellow: partial 에러)

위와 같이 GPT API 장애가 발생한 상황에서 자사의 서비스 중 핵심 기능이 GPT API가 연계된 기능이었다면? GPT API 장애는 자사의 장애로 이어지게 됩니다. 

핵클은 지난 10월, 어떻게 1분 만에 GPT API 장애에 대응할 수 있었을까? 

핵클은 에러 모니터링 시스템과 기능 플래그를 활용하여 실시간으로 에러 관리를 하고 있습니다. GPT 대화창의 경우, 시스템 에러가 발생하거나 간혹 답변을 정정해야 하는 경우 즉시 대응할 수 있도록 슬랙 채널로도 실시간 알림을 받고 있었는데요. 

10월 19일, GPT API 장애가 발생하고 나서 처음으로 접수된 질문에 대한 답변이 아래와 같이 나갔고, 슬랙 모니터링 채널로 에러 로그가 실시간 전달 되면서 담당자가 즉시 상황을 파악할 수 있었습니다.   

에러 발생 직후 핵클 AI 응답

에러 코드

ERROR | hackle_dashboard | [500 Internal Server Error] during [POST] to [https://obh-api.hackle.me/api/v1/obh/ask?workspaceId=xxxx&environmentId=1nnnn] [ObhClient#askMessage(long,String,long,long,ObhAskMessageDto)]: [<!doctype html>
<html lang=en>
<title>500 Internal Server Error</title>
<h1>Internal Server Error</h1>
<p>The server encountered an internal error and was unable to complete your request. Either the server is overloaded or there is an error in the application.</p>

에러 인지 후 1분이 채 안되어 기능 플래그 기능을 활용해 핵클 AI대화창에 오류 발생으로 인해 잠시 사용이 중단 되었다는 상황을 빠르게 안내할 수 있었죠.

핵클 AI 에러 안내창

기능 플래그 기능을 활용해 그리고 당일 오후 GPT API가 정상화 되었을 때 즉시 기능 플래그를 “꺼짐” 상태로 변경해 서비스를 정상화 할 수 있었습니다. 그리고 이후 동일한 문제 상황이 발생했을 때 해당 기능 플래그를 활용해 GPT API 장애에 대처할 수 있었습니다.  

장애 안내 메시지 관리를 위한 기능 플래그 대시보드 화면

플랫폼을 운영 하다보면 컨트롤을 할 수 있는 영역 외에도 에러 발생을 야기하는 많은 변수들과 마주하게 됩니다. 클라우드, 연동하여 사용하고 있는 외부 툴 등 여러 외부 솔루션에 의존을 할 수 밖에 없기 때문인데요. 스스로 컨트롤 할 수 없는 변수에 대해서도 피해를 최소화 할 수 있는 아주 간단한 방법, 기능 플래그에 대해 알아보시면 어떨까요?

핵클 대시보드에서 생성해보기👉 LINK

트위터에 공유하기
제품 주도 성장에 필요한 모든 기능을
All-in-One 플랫폼 핵클과 함께 시작해보세요!
무료 체험 시작하기
콘텐츠 공유
인터뷰에 나온 회사처럼,
빠르게 성장하고 싶다면 핵클과 함께 하세요!
핵클 드림팀 신청하기

성장의 시작, 핵클이 함께합니다!

비대면 바우처를 통해 70% 할인된 금액으로 핵클을 시작해보세요.
자세히 알아보기

👀 이런 콘텐츠는 어때요?