소개
하네스를 설명할 때, 모델 = CPU, 컨텍스트 윈도우 = RAM, 에이전트 하네스 = 운영체제, 에이전트 = 애플리케이션 Phil Schmid(Hugging Face) 말이 적절한 비유 같습니다.
최근 GeekNews에 올라온 bkit - Vibecoding Kit 과 revfactory/harness 를 직접 써보면 좀 더 이해가 되지 않을까 싶어 비교하여 사용해 보았습니다.
두 개 솔루션 모두 클로드코드에서 Agent와 스킬들을 생성하고 개발 프로젝트를 진행하기 쉽도록 하네스를 제공합니다. 비교를 위해 pomodoro webapp을 구축하는 예시로 각각을 실행해 보았습니다.
# 1. bkit - Vibecoding Kit
https://github.com/popup-studio-ai/bkit-claude-code
Marketplace 등록
/plugin marketplace add popup-studio-ai/bkit-claude-codePlugin 설치
/plugin install bkit설치하면 뜨는 메뉴 아래의 스킬들이 뜬다.
/starter 부분으로 일단 선택했다.
/starter pomodoro webapp 만들어줘. 기술스택 선택이 가장 단순한 HTML 형식으로 선택하고 진행하면
추가적인 스킬들을 아래와 같이 선택할 수 있습니다.
특이한 점은
- Agent가 구성되고, 스킬파일들이 있을 줄 알았는데, 아무것도 안보이고, 결과 값만 나오는 구조였음.
- PDCA (Plan-Do-Check_Act)의 개발 프로세스 순으로 진행 하고 체크할 수 있어서 각 단계별 진행을 초보자도 직관적으로 알 수 있었음.
2. revfactory/harness
https://github.com/revfactory/harness
마켓플레이스 등록
/plugin marketplace add revfactory/harnessPlugin 설치
/plugin install harness@harness설치후 뜨는 메뉴
여기에
/harness pomodoro webapp을 위한 하네스를 만들어줘.
먼저 하네스를 만들고, 각각의 Agent가 차례로 불리면서 스킬들을 이 용해서 작업을 진행한다.
3. 솔루션 비교 분석
bkit — Vibecoding Kit
특징: PDCA(Plan-Do-Check-Act) 방법론과 CTO-Led Agent Teams를 결합한 Claude Code 플러그인으로, AI 네이티브 개발에 엔지니어링 규율을 부여하는 것을 목표로 합니다. github Context Engineering이라는 개념을 중심으로, 36개 스킬과 31개 에이전트, ~580+ 유틸리티 함수를 통해 LLM에게 체계적으로 최적의 컨텍스트를 제공합니다.
강점:
개발 프로세스 전체를 커버하는 종합적인 프레임워크 — PM 분석(43개 프레임워크)부터 설계, 구현, 검증, 리포트까지 일관된 흐름을 제공합니다.
Skill Evals을 통한 데이터 기반 스킬 품질 관리가 가능하며, A/B 테스트로 모델 업그레이드 시 스킬의 유용성을 정량적으로 평가합니다. github
상태 머신, 감사 로그, 품질 게이트(7단계), 자동 반복(90% 임계값) 등 엔터프라이즈급 거버넌스를 갖추고 있습니다.
3,175+ 테스트 케이스로 높은 안정성을 확보했으며, 39번의 릴리즈를 통해 활발히 발전 중입니다.
약점:
학습 곡선이 가파릅니다. 별도의 bkit-starter가 필요할 정도로 초기 진입장벽이 높습니다.
소프트웨어 개발에 특화되어 있어 비개발 영역에서의 활용이 제한적입니다.
코드베 이스가 대규모이고 복잡하여, 커스터마이징 시 전체 구조를 이해해야 하는 부담이 있습니다.
사전 정의된 에이전트/스킬 구조가 고정적이어서, 새로운 도메인 적용 시 유연성이 떨어질 수 있습니다.
Harness — Agent Team & Skill Architect
특징: 도메인에 맞는 에이전트 팀을 설계하고, 전문 에이전트를 정의하며, 에이전트가 사용할 스킬을 자동 생성하는 "메타스킬"입니다. github 하나의 프롬프트로 6단계 파이프라인을 거쳐 완성된 에이전트 팀 구성을 출력합니다.
강점:
6가지 아키텍처 패턴(Pipeline, Fan-out/Fan-in, Expert Pool, Producer-Reviewer, Supervisor, Hierarchical Delegation)을 지원하여 작업 특성에 맞는 팀 구조를 선택할 수 있습니다. github
도메인 비종속적이어서 개발뿐 아니라 유튜브 콘텐츠, 웹툰, 마케팅, 데이터 파이프라인 등 다양한 영역에 적용 가능합니다.
A/B 연구에서 Harness 적용 시 평균 품질 점수가 49.5에서 79.3으로 60% 향상되었으며, 15개 과제 전원 승리(100% win rate)를 기록했습니다. SkillsLLM
경량 구조(스킬 1개 + 레퍼런스 6개)로 설치와 이해가 매우 간단합니다.
harness-100이라는 100개 사전 구축 하네스 컬렉션이 별도로 제공됩니다.
약점:
초기 단계 프로젝트로 커뮤니티 규모가 작고(Star 2개), 릴리즈 태그가 아직 없습니다.
생성된 에이전트/스킬의 런타임 상태 관리, 감사 로그, 품질 게이트 같은 거버넌스 기능이 없습니다.
PDCA와 같은 반복적 개선 루프가 내장되어 있지 않아, 한 번 생성한 이후의 지속적 검증 체계가 부족합니다.
생성물(에이전트/스킬 .md 파일)의 품질은 궁극적으로 LLM의 생성 능력에 의존하므로, 결과물의 일관성 보장이 어려울 수 있습니다.
bkit은 "소프트웨어 개발을 위한 종합 운영체제"이고,
Harness는 "에이전트 팀을 찍어내는 공장"입니다.
bkit은 개발 프로세스의 깊이를, Harness는 적용 도메인의 넓이를 추구합니다. 두 솔루션은 경쟁보다는 보완 관계에 가까워서, Harness로 팀 구조를 설계한 뒤 bkit의 PDCA 워크플로우로 실행하는 조합도 가능합니다.
느낀점
Bbit은 전체 개발 과정이 아이디어 부터 배포까지 연결되는 프로세스가 연결되어 진행되서 개발을 아는 사람에게는 정말 머리 아프지 않고 진행 할 수 있다.
Harness는 특정 도메인의 harness를 만들고 내가 커스터마이징도 할 수 있다는 장점이 있어서 범용적인 사용이 좋아 보인다. 100개 Harness를 제공해 주는 것도 참고하면 하면 좋을 듯 합니다.
https://github.com/revfactory/harness-100