AI 에이전트 디버깅 런북: 실패한 실행을 3단계로 추적하는 법

AI 에이전트가 가끔 틀리는 것은 놀라운 일이 아닙니다. 더 큰 문제는 왜 틀렸는지 설명할 수 없을 때입니다. 같은 요청인데 어떤 날은 잘되고 어떤 날은 실패한다면, 팀은 금방 자동화를 믿지 못하게 됩니다. 그래서 2026년 6월 2일 n8n이 정리한 디버깅 흐름은 단순한 팁 모음이 아니라 운영 구조의 핵심에 가깝습니다. 에이전트는 디버깅이 쉬워야 늘릴 수 있습니다.

많은 팀이 처음에는 실패를 채팅창에서만 확인합니다. “이번 답변이 이상했다”, “도구를 잘못 골랐다”, “중간에 멈췄다” 같은 인상은 남지만, 나중에 다시 분석할 증거는 남지 않습니다. 실무에서는 이 방식으로 품질이 잘 오르지 않습니다. 디버깅은 기억이 아니라 실행 단위 기록과 비교를 전제로 해야 합니다.

1단계: 실행에 태그를 붙여 같은 실패를 묶는다

디버깅의 출발점은 로그를 많이 남기는 것이 아니라, 비교 가능한 단위로 남기는 것입니다. 최소한 다음 네 가지 태그는 있어야 합니다.

entry point: 스케줄 실행인지, 수동 호출인지, 웹훅인지
session 또는 user: 어떤 사용자나 어떤 세션 맥락에서 돌았는지
workflow version: 프롬프트, 도구 노출, 정책이 어느 버전이었는지
outcome: 성공, 반려, 실패, 재시도 중 무엇이었는지

이 태그가 없으면 실패가 모여도 패턴을 찾기 어렵습니다. 예를 들어 특정 스케줄 잡에서만 실패가 많은지, 특정 도구 세트에서만 흔들리는지 분리할 수 없습니다. 운영자는 “모델이 불안하다”는 막연한 결론만 얻게 됩니다.

2단계: 필터링과 추적으로 문제 구간을 좁힌다

태그가 생기면 다음은 필터링입니다. 같은 유형의 실패를 모아서 실행 순서를 확인해야 합니다. 여기서 중요한 것은 답변 텍스트보다 단계별 흔적입니다.

무엇을 봐야 할까요.

첫째, 어떤 도구가 호출됐는지 봐야 합니다. 실패 직전에 불필요한 검색 도구를 탔는지, 쓰기 권한 도구를 너무 일찍 열었는지, 긴 MCP 출력을 그대로 읽었는지 확인합니다.

둘째, 컨텍스트가 지나치게 길어졌는지 봐야 합니다. 최근 HN에서 Context Mode가 주목받은 이유도 도구 연결이 많아질수록 출력 자체가 품질 문제를 만든다는 점을 보여 줬기 때문입니다.

셋째, 사람 승인 단계에서 자주 반려되는지 봐야 합니다. 결과 자체보다 승인 설명이 부족해서 멈추는 경우도 많습니다.

이 과정을 거치면 실패 원인을 모델 탓으로만 돌리지 않게 됩니다. 실제로는 입력 구조, 도구 노출, 정책 설계가 더 큰 원인일 때가 많습니다.

3단계: 변수 하나씩만 바꿔 재현 테스트한다

가장 흔한 실수는 실패가 나왔을 때 프롬프트, 모델, 도구, 정책을 한꺼번에 바꾸는 것입니다. 이렇게 하면 다음 실행이 성공해도 왜 성공했는지 알 수 없습니다. 좋은 디버깅은 변수 하나씩만 바꿉니다.

모델만 바꿔 본다.
도구 세트만 줄여 본다.
컨텍스트 길이만 압축해 본다.
승인 시점만 뒤로 미뤄 본다.
출력 포맷만 더 강하게 고정해 본다.

이렇게 해야 다음부터 같은 문제가 생겼을 때 즉시 대응할 수 있습니다. 디버깅은 단발성 복구가 아니라 재발 방지 문서를 만드는 과정입니다.

실패를 네 가지로 분류하면 회고가 쉬워진다

실무에서는 실패 원인을 너무 세밀하게 나누기보다 네 가지 축으로 시작하는 편이 낫습니다.

모델 판단 실패: 요약이 빗나가거나 추론이 어긋난 경우
데이터 실패: 입력 문서가 비어 있거나 오래된 경우
도구 실패: 잘못된 MCP 도구를 골랐거나 외부 API가 실패한 경우
정책 실패: 승인 기준이 모호하거나 권한 경계가 잘못 설계된 경우

이 네 가지 구분만 있어도 회고가 훨씬 생산적으로 바뀝니다. “에이전트가 이상하다” 대신 “데이터 연결을 줄여야 한다” 혹은 “승인 단계 설명을 보강해야 한다”처럼 수정 가능한 문장으로 바뀌기 때문입니다.

디버깅 로그는 비용 관리와도 연결된다

디버깅은 품질 문제만 해결하지 않습니다. 작업당 비용을 줄이는 데도 직접 연결됩니다. 실패 원인을 모르고 같은 실행을 반복하면 재시도 비용이 누적되고, 불필요한 도구 탐색 때문에 토큰 사용량도 늘어납니다. 반대로 실패군을 빨리 묶어 보면 어떤 요청 유형이 비싼지, 어떤 컨텍스트가 과한지 바로 보입니다.

그래서 운영 지표 글에서 말한 실행·품질·효율·안전은 따로 놀지 않습니다. 디버깅은 그 네 가지를 실제 개선 루프로 바꾸는 중간 고리입니다.

작은 팀용 디버깅 런북 초안

모든 실행에 공통 작업 ID와 네 가지 태그를 붙입니다.
실패 실행은 하루 단위로 모아 같은 유형끼리 묶습니다.
도구 호출 순서, 승인 이력, 컨텍스트 길이를 함께 확인합니다.
변수 하나만 바꿔 재현 테스트하고 결과를 메모합니다.
실패 원인을 모델, 데이터, 도구, 정책 중 하나로 분류합니다.
일주일에 한 번 재발 빈도가 높은 실패군만 다시 리뷰합니다.

메인 글과 함께 보면 좋은 이유

이 글은 실패 분석 루프에 초점을 맞췄지만, 디버깅은 운영 지표 없이 오래 유지되기 어렵습니다. 어떤 숫자가 흔들렸는지 알아야 어디를 파고들지 정할 수 있기 때문입니다. 전체 운영 관점은 AI 에이전트 운영 지표 가이드: 성과, 비용, 디버깅을 한 번에 정리에서 이어서 볼 수 있습니다.

에이전트 운영에서 디버깅은 사후 처리 업무가 아닙니다. 자동화를 더 많이 붙이기 전에 반드시 갖춰야 하는 기반 작업입니다. 실패를 빨리 묶고, 추적하고, 재현할 수 있어야만 자동화는 데모에서 운영으로 넘어갑니다.