토큰이 많이 드는 하네스 구조 개선안 탐색


소개

3주차 사례에서 사용했던 "경영 전략 보고서"를 작성하는 에이전트 팀이 토큰을 너무 사용해서, antigravity 상에서 구조 개선안을 탐색해 보았습니다.



멀티 에이전트 파이프라인(Strategy Framework)의 토큰 최적화 실험 기록



1. 문제 인식 — 토큰이 너무 많이 나간다

Strategy Framework 하네스를 실제로 돌려보니 토큰 소비량이 예상을 훨씬 초과했다.

원인을 분석한 결과 두 가지 구조적 문제가 드러났다.

  • Full-text passing: 에이전트들이 파일 내용 전체를 메시지로 복사해 다음 에이전트에게 넘기는 패턴

  • 과도한 리뷰어 루프: 전략 리뷰어가 동일한 내용을 반복 검증하며 루프를 과하게 소모



2. 해결 방향 검토

Full-text passing 제거

처음 든 우려는 "산출물 전문을 메시지로 넘기지 않으면 품질이 떨어지지 않을까"였다.

결론: 에이전트가 view_file 같은 도구로 해당 경로를 직접 읽도록 지시하면 전체 컨텍스트는 그대로 확보된다. 메시지 단의 중복 전송만 없앨 수 있다.

리뷰어 루프 횟수

반복이 늘어날수록 품질 향상의 한계 효용은 체감한다. 검증 횟수를 1회로 줄이면 오히려 군더더기 없는 산출물이 나온다.



3. 비교 구조 설계 — V1 건드리지 않기

최적화 전후를 비교하려면 기준점이 있어야 했다. 원본(V1)을 수정하는 대신, V2 디렉토리를 분리 구축하는 방식을 선택했다.

_workspace/        ← V1 원본 출력 영역 (변경 없음)
_workspace_v2/     ← V2 최적화 구조 출력 영역 (신규)
.claude/agents/    ← *-v2.md 파일로 V2 에이전트 추가

이렇게 하면 두 버전을 나란히 놓고 토큰 사용량과 산출물 품질을 직접 대조할 수 있다.



4. 테스트 파이프라인 구성

A/B 비교 흐름

  1. /strategy-framework — V1 원본 실행

  2. /strategy-framework-v2 — V2 최적화 구조 실행

  3. /ab-test-evaluator — 양쪽 산출물의 토큰량·품질 자동 비교 리포트 출력

현업 개발자들이 LLM Eval 플랫폼을 쓰는 것처럼, 워크스페이스 내에 간이 평가 스크립트를 직접 구성한 형태다.

(내가 분석한 에이전트는 "/스킬이름" 으로 호출 작동하지 않는다. 그런데 안티그래비티에선 스킬 명령어로 알려줬을뿐, )



5. 실행 중 발생한 문제들

CLAUDE.md 미반영

V2 에이전트 파일을 만들었으나 프로젝트의 라우터 역할을 하는 CLAUDE.md에 등록하지 않아, 실제로는 인식이 되지 않는 상태였다. 이후 수동으로 V2 파일과 스킬을 등록했다.

API 사용량 제한 충돌

V1 파이프라인만 돌려도 rate limit에 두 번 걸렸다. V1과 V2를 함께 운용하는 것 자체가 비효율적이었다.

대응: V2만 바라보는 독립 CLAUDE.md를 구성해 두 버전을 완전히 격리했다.

오버엔지니어링으로 인한 충돌

파일명을 덮어씌우고 스크립트를 재시동하는 과정에서 열려 있던 CLAUDE.md를 방해하는 상황이 발생했다. AI 가 확실히 수정 문구를 검토하니 쓸데없는 말이 많았다. 그래서 직접 수정하는 것으로 마무리했다.

기존 파일을 수정하는 작업은 AI 를 시키는 건 새로 만드는 것보다 비효울적



6. 핵심 인사이트

관점

V1 (기존)

V2 (개선안)

컨텍스트 전달

파일 전문을 메시지로 복사

파일 경로만 전달, 에이전트가 직접 열람

리뷰어 루프

횟수 제한 없음

1회로 고정

비교 구조

없음

V1/V2 디렉토리 분리, 자동 평가 스크립트

파일 격리

공용 CLAUDE.md

V2 전용 CLAUDE.md


뉴스레터 무료 구독

👉 이 게시글도 읽어보세요