AI 리서치 툴 대격돌! CNC 가공 기술조사에서 살아남은 자는?

소개

Llama3 기반 LLM을 활용해 CNC 선반 가공 데이터를 학습하고, 신규 부품 가공 조건 추천 시스템을 만들기 위한 사전 기술조사를 수행했다. 이 과정에서 다양한 AI 리서치 시스템의 성능을 비교해보기 위해 ChatGPT, Grok, Zenspark, Claude, Perplexity, Gemini 등 총 6개 시스템에 동일한 프롬프트를 입력해 분석 결과를 비교했다.

진행 방법

  1. 6개 시스템에 동일한 리서치 프롬프트를 입력해 결과 수집

    사용한 리서치 질문 프롬프트

당신은 스마트팩토리 및 디지털트윈 구현을 위한 AI 기술 리서처입니다. 다음 조건을 기반으로, 실제 LLM을 활용한 제조 시뮬레이션, CNC 가공 최적화, AI 추천시스템 구축 등에 관한 자료를 체계적으로 조사해 주세요.

### 조사 목적
LLM(Llama3 기반)을 활용해 CNC 선반 가공 데이터를 학습하고, 신규 부품 가공 조건 추천 시스템을 개발하기 위한 기술조사

### 조사 항목
1. 디지털트윈 제조 환경에서 LLM 적용 사례 (특히 조건 추천, 시뮬레이션 자동화 중심)
2. CNC 선반 프로그램의 가공 조건(회전수, 이송속도, 절입량) 토큰화 방식
3. BLEU 점수 또는 유사 품질지표가 활용된 LLM 성능 평가 사례
4. Llama3 기반 fine-tuning 전략 및 사용된 오픈소스 구조
5. 유사 조건 추천시스템 (Matrix factorization, embedding-based, GPT 적용 사례 포함)
6. 데이터 수집 → 전처리 → 학습 → 평가 → 피드백 루프 구성 흐름 예시

### 요구사항
- 각 항목에 대해 최소 2개 이상 논문/사례/오픈소스를 표로 정리
- 핵심 지표(BLEU, MAE 등)와 주요 구현 특징(언어모델, 데이터셋 등) 포함
- 참고 링크 포함 (논문, GitHub, 기술블로그 등)
- 마크다운 표 형식으로 정리

### 결과 형식
- Markdown 표 + 요약 해설
- 논문/사례명, 내용 요약, 적용 기술, 성능지표, 참고링크 포함

Let's think step by step. 먼저 디지털트윈과 LLM이 접목된 사례를 찾아보고, 그 다음 LLM을 학습하기 위한 데이터 구조(토큰화 방식), 마지막으로 추천 시스템의 평가 방식과 피드백 구조를 분석하자.
  1. 각 시스템 리서치 결과 링크 및 응답 캡쳐

    🧠 ChatGPT

    🧠 Claude

    🧠 Gemini

    🧠 Grok

    🧠 Perplexity

    🧠 Zenspark

  2. 수집된 결과를 word 파일로 저장하고 해당 파일을 다시 ChatGPT 첨부하여 아래 평가 프롬프트를 사용하여 응답 내용을 자가 평가하도록 수행함.

    사용한 평가 프롬프트

    당신은 AI 기반 리서치 평가 전문가입니다. 아래 6개의 시스템이 동일한 프롬프트로 수행한 딥리서치 결과를 비교해 주세요.
    
    ### 분석 대상 시스템
    1. ChatGPT
    2. Grok
    3. Zenspark
    4. Claude
    5. Perplexity
    6. Gemini
    
    ### 프롬프트 개요
    > [이곳에 사용된 딥리서치 프롬프트 또는 요약 삽입]
    
    ### 평가 기준
    각 시스템의 출력 결과에 대해 아래 항목별로 0~5점으로 평가하고, 총점을 계산해 주세요:
    1. **정확성 (Accuracy)**: 정보의 신뢰성, 최신성, 오류 여부
    2. **구조화 (Structure)**: 정보 구성이 논리적이며, 명확하게 정리되었는가
    3. **적합성 (Relevance)**: 프롬프트와 얼마나 직접 관련되어 있는가
    4. **풍부성 (Richness)**: 제공된 사례, 자료의 양과 질
    5. **형식 충실도 (Format Match)**: 프롬프트의 출력 형식을 잘 따랐는가
    6. **비판적 분석력 (Insightfulness)**: 분석, 비교, 통찰 제시 여부
    
    ### 출력 형식
    각 시스템에 대해 다음과 같이 출력해 주세요:
    
    #### 🧠 [시스템명]
    - 정확성: ? / 5
    - 구조화: ? / 5
    - 적합성: ? / 5
    - 풍부성: ? / 5
    - 형식 충실도: ? / 5
    - 비판적 분석력: ? / 5
    **총점: ?? / 30**
    
    **요약평가**: (장점, 단점, 종합 총평)
    
    ---
    
    마지막에 모든 시스템의 총점을 기준으로 **성능 순위**를 정렬하고, **가장 실무 적용에 적합한 시스템**을 추천해 주세요.

  3. 위의 프롬프트를 사용하여 나온 결과는 아래와 같습니다.

    LLM 시스템 평가 점수표

    위 표는 ChatGPT, Gemini, Grok, Zenspark, Claude, Perplexity의 6개 LLM 시스템이 동일한 기술조사 프롬프트에 대해 수행한 딥리서치 결과를 평가한 것입니다. 평가 항목은 정확성, 구조화, 적합성, 풍부성, 형식 충실도, 비판적 분석력이며 각 항목은 0~5점, 총점은 30점 만점입니다.

    ---

    ### 📊 종합 순위 (총점 기준)

    1. ChatGPT (29점) – 정보의 정확성, 출력 포맷, 구조화, 풍부한 사례 제시 모두에서 뛰어났으며, 분석적 해설도 명확했습니다.

    2. Gemini (29점) – ChatGPT와 동점이나 비판적 분석에서는 약간 약했고, 주로 체계적 정리와 산업 응용에 강점을 보였습니다.

    3. Grok (26점) – 실제 성능지표(MAE, F1-score 등)를 포함해 실무 중심의 사례 정리가 좋았고, 적합성과 비판적 해설도 양호했습니다.

    4. Zenspark (25점) – 전체 구성과 풍부한 자료 면에서는 우수하나, 적합성과 분석 면에서 다소 부족했습니다.

    5. Perplexity (16점) – 형식의 일관성과 구조 면에서 부족했고, 전반적으로 내용이 단순하거나 관련성이 약했습니다.

    6. Claude (총점 미포함) – 내용이 너무 짧고 구체성이 부족하여 평가 제외 수준으로 간주됨

    ---

    ### ✅ 실무 적용에 가장 적합한 시스템

    추천: ChatGPT 또는 Gemini

    - ChatGPT는 디지털트윈, 토큰화, 평가 지표, 추천 시스템 설계 등 모든 항목을 가장 균형 있게 다룬 시스템입니다.

    - Gemini는 최신 사례와 응용 가능성 면에서 강점을 보여주었으며, 학술성과 실용성을 모두 반영하였습니다.

결과와 배운 점

  • ChatGPTPerplexity는 풍부하고 논리적인 리서치 결과를 제공해 가장 높은 평가를 받음

  • Claude는 내용이 전반적으로 빈약했고, Grok과 함께 링크 내용이 실제와 불일치하는 경우가 잦았음

  • 포맷 충실도는 Claude와 ChatGPT가 우수했으나, 내용 품질 면에서는 큰 차이 존재

  • 이 실험은 단순한 리서치 정확성 외에도 AI의 자가 평가 능력을 실험한 점에서 의미 있었음

도움 받은 글 (옵션)

1
4개의 답글

👉 이 게시글도 읽어보세요