[Claude Code] "A 106 vs B 82" — Claude Code 보고서가 ChatGPT Deep Research를 24점 차로 이긴 이유 (4명 페르소나 동시 채점 후기)

소개

같은 prompt로 만든 두 보고서(Claude Code 끼리끼리 5명 팀 vs ChatGPT Deep Research)를 4명 AI 전문가 페르소나에게 동시에 채점시킨 후기 — (1) 컨설팅 파트너·메소돌로지스트·SCM 전문가·비즈니스 라이터 4명이 6개 축씩 1-5점으로 평가했고, (2) 그 결과 24개 점수 매트릭스에서 A 106점 vs B 82점, 그런데 SCM 산업 전문가만 B 우위 판정이 나오는 흥미로운 모순까지 자동으로 발견됐다.

1) 동일한 Prompt
User Persona: “물류/SCM 전략 기획자 또는 AI 혁신 담당자”
User Goal: “생성형 AI 기반 물류 혁신 사례를 심층 분석하여 실제 도입 전략과 인사이트 확보”
User Task: “글로벌 및 국내 생성형 AI 물류 활용 사례 조사·비교·분석 및 시사점 도출”
GPT Persona: “글로벌 물류·SCM 및 생성형 AI 산업 분석 전문 컨설턴트”

Prompt

You are a Global Logistics & Generative AI Research Consultant specialized in supply chain management, warehouse automation, transportation optimization, and AI-driven logistics innovation.

Your task is to conduct a deep-dive investigation into real-world use cases where Generative AI is being utilized in the logistics, supply chain, transportation, warehouse, fulfillment, or distribution industries.

Please analyze the topic systematically and professionally following the structure below.

1. Research Scope Definition

First, define the major categories where Generative AI is applied in logistics.
Include categories such as:

Supply Chain Planning
Warehouse Automation
Transportation & Route Optimization
Demand Forecasting
Customer Service & AI Agents
Procurement & Inventory Management
Autonomous Logistics Systems
Digital Twin & Simulation
Logistics Documentation Automation
Predictive Maintenance
Enterprise Knowledge Management
AI-powered Decision Support

For each category:

Explain the operational problem
Explain why Generative AI is valuable
Explain expected business impact
2. Global Case Study Investigation

Investigate at least 10 detailed real-world cases from global companies.

Include companies such as:

Amazon
DHL
Maersk
UPS
FedEx
Walmart
Coupang
CJ대한통운
현대글로비스
삼성SDS
Tesla Supply Chain
Flexport
NVIDIA
SAP
Microsoft
Oracle SCM
기타 relevant 기업

For each case, provide:

Company Overview
Industry
Logistics scale
AI maturity
AI Utilization Details
What Generative AI technology is being used?
Which workflow/process is being transformed?
Which LLM or AI model is being used?
Whether the system is internal or customer-facing
Operational Impact

Analyze:

Cost reduction
Lead time reduction
Productivity increase
Accuracy improvement
Customer experience improvement
Automation level improvement
Technical Architecture

Describe:

Data flow
AI architecture
Human-AI collaboration structure
Integration with ERP/WMS/TMS/MES systems
Challenges & Risks

Analyze:

Data security
Hallucination risk
Operational reliability
Workforce resistance
Governance issues
ROI uncertainty
Strategic Implications

Explain:

Why this matters strategically
Competitive advantages gained
Future scalability
3. Comparative Analysis

Create a comparative framework table comparing all investigated companies.

Compare:

AI adoption stage
AI investment scale
Operational impact
ROI
Automation depth
Human replacement level
Scalability
Risk level
Technology sophistication
4. Technology Trend Analysis

Analyze the future technology trends of Generative AI in logistics.

Include:

AI Agents in supply chain
Autonomous decision-making logistics systems
AI-powered digital twins
Multi-modal logistics AI
Robotics + LLM integration
Real-time supply chain orchestration
Synthetic logistics data generation
AI copilots for logistics operators

Predict:

3-year outlook
5-year outlook
10-year outlook
5. Korean Market Implications

Analyze implications specifically for Korea.

Include:

Korean logistics market structure
제조업 중심 공급망 특성
국내 물류 기업들의 AI 수준
한국형 생성형 AI 물류 전략
규제 및 데이터 문제
정부 정책 방향
중견기업/중소기업 적용 가능성
6. Actionable Strategy Recommendations

Provide strategic recommendations for companies wanting to adopt Generative AI in logistics.

Separate recommendations by company size:

Enterprise
Mid-sized companies
SMEs

For each:

Recommended first use cases
Required data infrastructure
Recommended AI stack
Organization structure
Investment priority
Risk management approach
KPI examples
7. Output Requirements

The final output must include:

Executive Summary
Key Insights
Deep-dive Case Studies
Comparison Tables
Strategic Recommendations
Future Outlook
Actionable Roadmap

Use:

Professional consulting tone
Structured markdown
Tables
Bullet points
Step-by-step analysis
Quantitative analysis where possible

Cite:

Official company announcements
Industry reports
McKinsey
Gartner
Deloitte
Accenture
World Economic Forum
Academic papers
Logistics technology vendors

If exact information is unavailable, clearly separate:

Verified facts
Industry estimates
Expert assumptions

Ensure the analysis is practical, strategic, and business-oriented rather than generic theoretical explanations.

Take a deep breath and lets work this out in a step by step way to be sure we have the right answer.

진행 방법

**사용한 도구**

- **AI 도구**: Claude Code (Opus 4.7)
- **사용 플러그인**: `kkirikkiri` (끼리끼리 — 4명 페르소나 동시 비교 리뷰)
- **추가 도구**: PowerShell + Word COM (ChatGPT .docx 한국어 추출), Edge headless (HTML→PNG 자동 캡처)

**진행 흐름 (총 35분)**

Step 1 — 같은 prompt로 두 보고서 만들기

ChatGPT Deep Research에 위 prompt 던져서 보고서 B 받음. 동시에 Claude Code에서 끼리끼리에 같은 prompt 던지니까 **5명 AI 팀**(팀장 + 글로벌 리서처 + 국내 리서처 + 프레임워크 리서처 + 라이터)이 자동 구성되어 보고서 A 생성. A는 35페이지 마크다운 + Word 변환까지 자동.

### Step 2 — ChatGPT 보고서를 디스크에 준비

ChatGPT .docx 파일을 Word COM으로 변환했더니 **한국어가 cp949로 깨짐**. 우회 방법:

```powershell
# .docx는 ZIP 파일 → 압축 해제 → word/document.xml 직접 파싱
Expand-Archive -Path $docxPath -DestinationPath $extractDir -Force
$xml = [xml](Get-Content "$extractDir\word\document.xml" -Raw -Encoding UTF8)
# w:p (paragraph) 노드별로 텍스트 추출 → UTF-8로 저장
```

### Step 3 — 끼리끼리 4명 페르소나 비교 리뷰 발사

평가 축이 겹치지 않게 페르소나 4명 설계:

| Persona | 6개 평가 축 |
|---|---|
| 👔 컨설팅 파트너 | 컨설팅 적합성 / 실행 가능성 / 분석 프레임 / 의사결정 지원 / 차별화 / deliverable 완성도 |
| 🔬 메소돌로지스트 | 출처 신뢰도 / 인용 검증 가능성 / 삼각측량 / 사실·추정 분리 / 표본 충분성 / 최신성 |
| 🚚 SCM 산업 전문가 | 사례 선정 / 운영 수치 현실성 / 카테고리 정확성 / 국내 시장 이해도 / GenAI vs 전통 AI 구분 / 현장 적용성 |
| ✍️ 비즈니스 라이터 | 구조 명료성 / Executive Summary / 시각 자료 / 가독성 / 결론 임팩트 / navigability |

4명이 동시에 백그라운드 가동 — 직렬로 시켰으면 약 11분, 병렬이라 가장 오래 걸리는 3분 15초로 끝. **3.4× 압축**.

![02_parallel_execution](./02_parallel_execution.png)
*(실제 Claude Code 터미널 — 4명 페르소나 백그라운드 발사 직후)*

### Step 4 — 4명 점수 종합 (결정적 깨달음)

리뷰가 다 끝나고 점수표를 종합했을 때:

> **컨설팅 파트너**: A 29 vs B 17 → A 압승
> **메소돌로지스트**: A 26 vs B 21 → A 우위
> **SCM 산업 전문가**: A 23 vs B 27 → **B 우위 (유일)**
> **비즈니스 라이터**: A 28 vs B 17 → A 압승

![03_persona_scores](./03_persona_scores.png)

**SCM 산업 전문가만 B 우위 판정**. 다른 3명은 A 우위인데 한 명만 다른 결론. 자세히 읽으니 진짜 가치 있는 발견이 있었다:

> "C.H. Robinson(견적 32초, 300만 task)은 **Generative AI in Logistics 현존 best benchmark**다. A에서 이 기업이 빠진 건 critical miss. SCM 본부장이 PoC 설계 시 가장 자주 인용할 단일 사례가 누락됐다."

다른 3명은 절대 못 잡았을 약점. **SCM 도메인 깊이가 있어야만 보이는 문제**. 이게 4명 동시 리뷰의 진짜 가치 — **인지 다양성에서 나오는 약점 발견**.

### Step 5 — 합의 발견 5가지 자동 추출

GPTers 원글에서 "2명 이상이 같이 지적한 합의 발견이 가장 신뢰도 높다"고 했는데, 4명이 동시에 봤더니 그 패턴이 자동으로 나왔다:

![04_consensus_findings](./04_consensus_findings.png)

1. **A의 deliverable 완성도 압도적** — B는 마크다운 pipe table 0개, A는 45-50개
2. **A의 한국 시장 분석이 깊다** — A 한국 기업 12개 + 4중 규제 vs B 4개
3. **B의 evidence discipline 인정** — URL 인용·"비공개" 정직 표기
4. **A의 C.H. Robinson 누락 = critical miss** — 2명 합의로 잡힘
5. **B의 narrative arc는 A가 흡수해야** — "문서→코파일럿→에이전트→트윈" 4단계

### Step 6 — 24축 종합 매트릭스

6축 × 4 페르소나 = 24개 점수. **A 우위 18개 vs B 우위 6개 = 75%에서 A가 이김**. 종합 **A 106/120 (88%) vs B 82/120 (68%) — 24점 격차**.

![05_24axis_matrix](./05_24axis_matrix.png)

### Step 7 — A → A+ 업그레이드 5단계 자동 도출

B에서 흡수할 5가지로 117/120 (97.5%) 도달 가능:

![06_aplus_upgrade](./06_aplus_upgrade.png)

| # | 흡수할 B 강점 | A 적용 방법 |
|---|---|---|
| 1 | C.H. Robinson 사례 | Tesla Optimus 자리에 교체 |
| 2 | CSX·KION-GXO 사례 | 한국 KORAIL·의왕ICD 시사 추가 |
| 3 | URL 인용 | 64개 bibliography에 1차 URL 첨부 |
| 4 | Narrative arc 도식화 | "문서→코파일럿→에이전트→트윈" ES §1 추가 |
| 5 | GenAI/전통 AI 3구분 | 각 사례 표에 "GenAI 영역 vs 전통 AI/OR" 한 줄 |

---

## 결과와 배운 점

### 배운 점 & 나만의 꿀팁 5개

**1. 페르소나마다 평가 축을 겹치지 않게 설계**

컨설팅 파트너·메소돌로지스트·SCM 전문가·비즈니스 라이터 각각 다른 6축씩 = 총 24축. 한 명이 놓친 걸 다른 명이 잡는 **인지 다양성**이 핵심. SCM 전문가만 잡아낸 "C.H. Robinson 누락"이 그 증거.

**2. 합의 발견(2명 이상 동의)을 명시적으로 요구**

페르소나마다 리뷰만 받으면 백 가지 의견 나옴. "**2명 이상이 같이 지적한 finding을 별도 정리**"라고 brief에 명시했더니 신뢰도 높은 5가지가 자동으로 추출됨.

**3. 점수 매트릭스 강제 (정량화)**

"A가 좋은 거 같다" 같은 정성 평가는 비교 불가. **1-5점 채점 + 6×4=24 매트릭스**가 있어야 비교가 객관화됨. 24점 격차의 핵심 원인 3가지가 점수표에서 자동으로 드러남.

**4. 다수결로 묻지 말고 모순(outlier)을 파헤치기**

SCM 전문가 1명만 B 우위 판정한 게 처음엔 "왜 한 명만 다른 결론?" 싶었는데, **그 모순이 진짜 가치**였음. 다수결로 묻으면 critical miss를 발견 못함.

**5. 권한·도구 우회 패턴**

ChatGPT 보고서 .docx에서 한국어가 cp949로 깨졌을 때 → .docx의 내부 XML 직접 파싱으로 우회. 도구가 실패해도 다른 방법으로 우회 가능하다는 걸 다시 확인.

### 과정 중 시행착오

**1. DOCX 한국어 깨짐 (cp949 함정)**

Word COM의 SaveAs(format=7, plain text)가 ANSI/cp949로 저장해서 한국어가 다 깨졌음. 처음엔 "ChatGPT가 망가진 파일을 만들었나" 싶었는데, Word의 기본 plain text 인코딩이 문제였음. → **.docx는 ZIP이라 내부 XML 직접 파싱**으로 해결.

**2. OneDrive 폴더 redirect 함정**

이미지를 캡처하고 사용자에게 보여주려고 했는데 `C:\Users\rockd\OneDrive\바탕 화면\...` 경로가 OneDrive 동기화 충돌로 안 열렸음. → **`C:\Users\rockd\Downloads\` (OneDrive 외부)** 로 복사해서 해결.

**3. 사례 선정에서 SCM 도메인 부족 발견**

처음 A 보고서에 Tesla Optimus를 사례로 넣었는데, SCM 전문가가 "Tesla는 logistics가 아니라 manufacturing이고 Optimus 1,000대는 D 등급 PR이라 SCM ROI 모델에 못 넣는다. B의 선택적 제외가 오히려 정확"이라고 짚어줌. **AI가 만든 첫 결과물도 도메인 검증 필수**.

### 도움이 필요한 부분

이번엔 4명 페르소나를 내가 직접 brief 설계했는데, 다음엔 **"이 비교 분석에 어떤 4명이 적합한가?"**부터 끼리끼리에게 시키는 메타 끼리끼리 패턴을 만들어보고 싶음. 페르소나 자동 설계까지 자동화할 수 있는지 알고 싶음.

### 앞으로의 계획

1. **A → A+ 업그레이드 5단계 실제 적용** — 117/120 도달이 가능한지 검증. 동일 4명 페르소나에게 다시 채점받았을 때 진짜 점수가 올라가는지 확인.

2. **메타 끼리끼리 — 페르소나 자동 설계** — "이 비교 분석에 어떤 4명이 적합?"부터 끼리끼리에게 시키는 한 단계 메타한 활용.

3. **다른 도메인 적용** — 보고서 비교 외에도 (1) 두 모델 비교(GPT-5 vs Claude vs Gemini), (2) 디자인 시안 비교, (3) 사업 계획서 비교, (4) 채용 후보 평가 등 4명 동시 평가 패턴을 어디까지 확장 가능한지 실험.

### 재사용 가능한 프롬프트 4종

**Prompt 1 — 끼리끼리 4명 페르소나 비교 리뷰 시작**

```
[비교 대상 1] 보고서와 [비교 대상 2] 보고서를 끼리끼리 4명 페르소나에게
비교 리뷰시켜줘.

페르소나 4명은 평가 축이 겹치지 않게 설계해줘
(예: 컨설팅 / 메소돌로지 / 도메인 전문가 / 라이팅).

각 페르소나가 6개 평가 축에서 1-5점으로 채점하고,
합의 발견(2명 이상 동의)과 모순(페르소나 간 점수 차이) 둘 다 식별해줘.
```

**Prompt 2 — 두 보고서 비교용 페르소나 brief 템플릿**

```
당신은 [페르소나 역할]입니다. 같은 [작업 종류]로 만든 두 [결과물]을
[당신의 관점]에서 비교 리뷰해야 합니다.

[A] 우리 [결과물]: [파일 경로]
[B] 비교 대상: [파일 경로]

다음 6개 축에서 1-5점 평가:
1. [축 1] / 2. [축 2] / 3. [축 3] / 4. [축 4] / 5. [축 5] / 6. [축 6]

작업 절차:
1. 두 [결과물] 모두 Read로 읽기
2. 각 축 1-5점 점수
3. 우월한 쪽 + 구체적 이유 (인용·예시 포함)
4. 양쪽 강점·약점 5개씩
5. 종합 평가 + 개선 권고 5개

인용 시 구체적 섹션·문장·수치 명시. 막연한 평가 금지.
```

**Prompt 3 — 4명 결과 통합 비교 리포트 작성**

```
4명 페르소나의 비교 리뷰를 통합해서 종합 비교 리포트를 만들어줘. 다음을 포함:

1. 30초 결론 (어느 쪽 승자 + 격차)
2. 4명 종합 점수 매트릭스 (24축 × 1-5점)
3. 합의 발견 (2명 이상 동의한 5가지)
4. 모순 (페르소나 간 점수 차이 큰 지점)
5. A·B 각각 핵심 강점·약점 4개씩
6. 시나리오별 어느 쪽 추천
7. A → A+ 업그레이드 5단계 (B 흡수)
```

**Prompt 4 — DOCX 한국어 깨짐 우회 (PowerShell)**

```
.docx 파일에서 한국어가 깨지지 않게 마크다운으로 추출하려고 해.
Word COM의 SaveAs(format=7)은 cp949로 저장돼서 안 됨.

.docx는 ZIP 파일이라 압축 해제 → word/document.xml 직접 파싱
→ w:p (paragraph) 노드별 텍스트 추출 → UTF-8로 저장하는
PowerShell 코드 짜줘.
```

---

## 도움 받은 글 (옵션)

- **GPTers 원본 사례글**: [내 AI 활용 수준이 7단계 중 2단계라고?](https://www.gpters.org/nocode/post/my-ai-utilization-level-12N9MraLpMovmqk) — 끼리끼리 4명 페르소나 리뷰 패턴 + "합의 발견" 개념을 처음 알게 된 글
- **Claude Code**: 공식 도구
- **끼리끼리(kkirikkiri) 플러그인**: gptaku-plugins 마켓플레이스
- **ChatGPT Deep Research**: OpenAI

📣 23기 AI 스터디 대기자 모집 중!

[Claude Code] "A 106 vs B 82" — Claude Code 보고서가 ChatGPT Deep Research를 24점 차로 이긴 이유 (4명 페르소나 동시 채점 후기)

소개

뉴스레터 무료 구독