[Claude Code + OpenClaw] AI 업무자동화, 만든 다음이 진짜다 — 하네스 엔지니어링으로 스스로 진화하는 시스템 만들기

한줄 요약

AI 팀(클코+엘라+토니)을 구축한 뒤, 하네스 엔지니어링 개념을 적용해 시스템이 스스로 점검하고 개선하는 구조를 만든 과정입니다. 자동화는 만드는 게 30%, 운영/개선이 70%였습니다.

이런 분들께 도움돼요

AI 에이전트를 세팅했는데 "그 다음에 뭘 해야 하지?" 싶은 분
크론잡 돌려놨는데 에러 나도 모르고 방치한 경험 있는 분
자동화를 만들 때마다 문서가 흩어져서 나중에 못 찾는 분
"하네스 엔지니어링"이 뭔지 실전 사례로 이해하고 싶은 분

소개: 시도하고자 했던 것과 그 이유

이전 글에서 만든 것

이전 게시글에서 이런 시스템을 구축했습니다:

AI 팀: 클코(Claude Code, 참모/개발) + 엘라(GPT-5.4, 기획/수집) + 토니(GPT-5.4, 실행/재테크)
크론잡 6개: 아침 브리핑, 저녁 정리, 주간 점검 등 자동 실행
AI 워크스페이스: 폴더 구조 + 스킬 22개 + 에이전트 3개

근데 만들고 나니...

만들어놓으면 알아서 잘 돌아갈 줄 알았는데, 현실은 달랐습니다.

문제

상황

"했어요" 사기

엘라가 "학습 완료했습니다" → 실제 파일 없음

크론잡 에러 방치

저녁 정리 크론잡이 4일 연속 에러 → 아무도 모름

말투 이상

일기체("~하겠다") + 존댓말 섞여서 어색

문서 미아

"그거 어디 있었지?" → 폴더 뒤지기 30분

서로 칭찬만

슬랙에서 "잘 했어!" "산출물 나왔어!" → 구체적 내용 없음

수동 정보 수집

새로운 스킬/사례 → 내가 직접 찾아야 함

자동화를 만든 게 끝이 아니라, 자동화를 관리하는 자동화가 필요했습니다.

진행 방법: 하네스 엔지니어링 적용

"하네스 엔지니어링"이 뭔데?

Anthropic(Claude 만든 회사) 공식 문서에 나오는 개념입니다.

하네스(harness) = 말의 고삐. AI 에이전트가 잘 달리도록 고삐를 잡는 설계.

핵심 원칙 3가지:

에이전트는 자기 작업을 객관적으로 평가 못 함 → 별도 평가자 필요
플래너(계획) - 생성기(실행) - 평가자(검증) 3역할 분리
파일 기반 통신이 가장 안정적 (API 호출보다)

랄프톤(해커톤) 사례가 증명한 것

최근 OpenAI 후원 AI 해커톤(Ralphthon)에서:

"계획 수립만 3시간 → AI 12시간 자동 실행 → 아침에 결과 평가"

중요한 건 그냥 자동 도는 게 아니라, 계획 수립 단계에서 업무 정의, 워크플로우, 오류 처리, 예외 처리를 빡빡하게 세운다는 것. 계획이 탄탄하면 12시간도 자동으로 돌아간다고 합니다.

우리 팀이 이미 이 구조였다

돌아보니, 우리 AI 팀이 이미 하네스 구조를 자연스럽게 만들고 있었습니다:

Anthropic 모델:           우리 팀:
플래너 (계획/스펙)     →   엘라 (기획/분석/방향 설정)
생성기 (구현/실행)     →   토니 (재테크 분석) + 클코 (개발)
평가자 (테스트/검증)   →   클코봇 (매일 자동 점검) + 클코 (검증/보정)

파일 기반 통신도 이미 하고 있었습니다:

회의실 notes/ = 에이전트 간 핸드오프 공간
소통보드 = 보정 지시 전달
daily-tasks.md = 작업 상태 추적

방향은 맞았는데, 체계가 부족했습니다. 그래서 이번에 본격적으로 정비했습니다.

이번에 새로 구축한 것들

1. 살아있는 아키텍처 문서 (8개)

시스템 전체를 문서화했는데, 핵심은 "개선할 때마다 같이 업데이트된다"는 점입니다.

00-system/03-architecture/
├── README.md          ← 전체 개요 + 빠른 세팅 가이드
├── 01-overview.md     ← AI팀 구조, 데이터 흐름, 스킬/에이전트 전체 목록
├── 02-openclaw.md     ← OpenClaw 세팅, 크론잡, 운영 규칙
├── 03-automation.md   ← 자동화 파이프라인 5개 상세
├── 04-content.md      ← 콘텐츠 자동화 (유튜브 대본/블로그)
├── 05-knowledge.md    ← 지식관리 (메모리/작업일지/옵시디언)
├── 06-monitoring.md   ← 모니터링 (점검/토큰/백업)
├── 07-revenue.md      ← 수익화 연결
├── 08-skill-evaluation.md ← 스킬/도구 평가 체계
└── CHANGELOG.md       ← 변경 이력 (매 변경 시 한 줄 기록)

운영 방식: 자동화를 바꿀 때마다 CHANGELOG에 한 줄 메모 → 매주 일요일 일괄 갱신

왜 이렇게 했냐면:

매번 갱신하면 토큰 낭비
일주일치 모아서 한 번에 → 최소 비용 최대 효율
나중에 새 환경에서 이 문서만 보고 동일 시스템 재현 가능

2. 사용 매뉴얼 (7개)

아키텍처 문서가 "어떻게 만들었는지"라면, 매뉴얼은 "어떻게 쓰는지"입니다.

00-system/06-user-manual/
├── 01-시작하기.md         ← 시스템 뭔지, 첫날 체크리스트
├── 02-매일-하는-것.md     ← 아침 확인 5분, 저녁 확인 1분
├── 03-주간-하는-것.md     ← 주간 리뷰, 진단
├── 04-에이전트-사용법.md   ← 엘라/토니/클코 지시하는 법
├── 05-스킬-명령어-사전.md  ← 22개 스킬 + 8개 명령어 사용법
├── 06-문제-해결.md        ← 자주 발생하는 문제 + 해결법
└── 07-커스터마이징.md     ← 크론잡/스킬/말투 변경하는 법

이 매뉴얼만 주면 다른 사람도 바로 사용 가능합니다.

3. 8단계 정보 검색 체계

"이전에 한 작업 어디 있지?" 할 때 헤매지 않도록:

1순위: 메모리 (MEMORY.md)     → "이건 뭐였지?" (규칙/현황)
2순위: 작업일지 (INDEX.md)    → "언제 뭐 했지?"
3순위: 백로그 (BACKLOG.md)    → "남겨둔 것/할 일"
4순위: 아키텍처 (03-architecture/) → "시스템이 어떻게 돌아가지?"
5순위: 수집 자료 (30-collected/)   → "외부에서 가져온 것"
6순위: 프로젝트 (10-working/)      → "실제 작업물"
7순위: 설정 가이드 (02-setup-guides/) → "어떻게 세팅했지?"
8순위: 참조 URL (05-reference-urls.md) → "외부 링크"

모든 계층에 INDEX 파일을 만들어서, 어디서든 "입구"가 있도록 했습니다. 실제로는 클코한테 "이거 찾아줘" 하면 인덱스+검색 조합으로 몇 초 만에 찾아줍니다.

4. 자기진단 + 개선 루프 (핵심!)

이게 이번 작업의 가장 중요한 포인트입니다.

매주 일요일 오후 (클코와 대화 시 3-in-1)

1. 메모리 리뷰 — 오래된 거 정리, 빠뜨린 거 보완
2. 아키텍처 갱신 — CHANGELOG 보고 문서 업데이트
3. 시스템 진단 + 개선안
   ├── 크론잡 에러율/성과 분석
   ├── 폴더/프로세스 비효율 발견
   ├── "이건 스킬로 만들면 좋겠다"
   ├── "이 크론잡 합치면 토큰 절약"
   ├── "이건 프로그램으로 개발하면 더 효율적"
   └── 대표님 승인 → 반영 → 다음 주 효과 확인

1주일 돌려보고 → 비효율 발견 → 개선안 → 승인 → 반영 → 다시 1주일

이 루프를 계속 돌리면, 한 달 뒤에는 지금보다 훨씬 효율적인 시스템이 됩니다. "세팅하고 끝"이 아니라, 시간이 지날수록 더 좋아지는 구조입니다.

5. 에이전트 보정 루프

에이전트가 잘못하면 어떻게 고치느냐:

클코봇 아침 자동 점검 (매일 08:30)
  → 엘라/토니 산출물 검증 (파일 존재? 내용 정확? 날짜 맞음?)
  → 문제 발견 시 소통보드에 보정 지시
  → 엘라/토니가 다음 세션에서 읽고 반영
  → 다음 날 아침에 개선됐는지 확인
  → 안 됐으면 AGENTS.md 규칙 강화

실제 보정 예시:

말투 이상 → SOUL.md에 말투 규칙 추가 (일기체 금지, 상황별 유연 전환)
빈말 보고 → AGENTS.md에 "구체적 증빙 필수" 규칙 추가
역질문 → "보고하는 자리에서 역질문 하지 마" 규칙 추가

6. 키워드 진화형 수집

정보 수집도 수동에서 자동으로:

1주차: 기본 키워드 10개로 시작 (오픈클로, 자동화, 바이브코딩 등)
  ↓
엘라 주간 크론잡: 키워드로 검색 → 결과 분석 → 유용한 것 선별
  ↓
키워드 성과 평가: "이 키워드는 유용한 결과 많았다/적었다"
  ↓
다음 주 키워드 조정 제안 → 클코 검토 → 반영
  ↓
매주 키워드가 진화 → 수집 품질 향상

고정 키워드가 아니라, 매주 성과를 보고 키워드 자체가 개선되는 구조입니다.

7. 스킬/도구 평가 체계 (7단계)

새로운 스킬이나 오픈소스를 발견했을 때:

발견 → 1차 분류 → 보안 점검(GitHub stars/보안이슈/코드 검사) 
  → 활용 분석 → 대표님 승인 → 설치 → 효과 확인

보안 점검 기준표도 만들었습니다:

항목

안전 ✅

주의 🟡

위험 🔴

Stars

100+

10~100

10 미만

최근 업데이트

3개월 내

6개월

1년+ 방치

보안 이슈

없음

대응 중

방치

외부 전송

없음

분석용

알 수 없는 서버

🔴 하나라도 있으면 설치 금지.

그리고 좋은 GitHub 프로젝트를 발견하면 → 엘라가 README/구조 분석 → 우리 개발할 때 참조 활용. 0에서 시작하지 않고 검증된 구조를 베이스로 개발하면 품질이 올라갑니다.

결과와 배운 점

Before vs After

항목

Before (구축만 한 상태)

After (하네스 적용 후)

에이전트 신뢰도

"했다"고 해도 진짜인지 모름

클코봇이 매일 검증 + 증빙 필수

크론잡 에러

며칠간 몰랐음

아침 점검에서 바로 발견

문서 찾기

폴더 뒤지기 30분

인덱스+검색으로 몇 초

시스템 개선

문제 느낄 때만 수동으로

매주 자동 진단 + 개선안

정보 수집

수동 검색

키워드 진화형 자동 수집

새 스킬 도입

느낌으로 설치

7단계 평가 + 보안 점검

배운 점

자동화는 만드는 게 30%, 운영/개선이 70% — 만들고 방치하면 썩습니다
에이전트는 자기 작업을 객관적으로 평가 못 함 — 반드시 평가자를 분리하세요 (Anthropic 공식 원칙)
"단순함으로 시작, 필요할 때만 복잡성 추가" — 처음부터 완벽하게 만들려 하지 마세요
파일 기반 통신이 가장 안정적 — API 호출보다 파일 핸드오프가 상태 추적이 명확합니다
최소 비용 최대 효율 — 한번에 다 하지 말고, 단계별로 필요할 때만

주의할 점

매번 문서 갱신하면 토큰 폭발 — 주간 단위로 모아서 일괄 갱신하세요
에이전트한테 "다 알아서 해" 하면 안 됨 — 구체적 완료 기준을 주세요
보안 없이 오픈소스 설치하지 마세요 — GitHub stars, 최근 업데이트, 코드 검사 필수

앞으로의 계획

AI 워크스페이스를 사용자 Need에 맞춰 재설계 — 인터뷰 기반으로 폴더 구조/스킬/에이전트 자동 생성
OpenSpace (자기진화 MCP) — 에이전트가 실패 패턴을 자동 학습하는 구조 검토 중
Harness 100 — 에이전트 팀 하네스 패턴 100개 학습 → 우리 팀에 맞는 것 선별 적용
옵시디언 + OpenClaw + Claude Code 지식 베이스 연결 — 검증된 사례(잔마왕님)를 참고해서 진행 예정
자기진단 루프가 몇 달 돌면 → 시스템이 알아서 "이건 비효율이에요" 보고하는 수준까지

도움 받은 글

참고한 자료

작성일: 2026-04-10 작성자: 김춘식 (GPTers 21기) 도구: Claude Code (Opus 4.6) + OpenClaw + 텔레그램

📣 23기 AI 스터디 대기자 모집 중!