논리적 사고와 추론력 테스트의 1짱은 누굴까?

소개

3개의 LLM의 추론 모델들이 과연 얼마나 논리적으로 추론하고 정답을 유추할 지 궁금해서 2개의 논리 문제로 시도

🎯 난이도 하:

농부가 늑대, 염소, 양배추를 강 건너편으로 옮겨야 한다.
한 번에 한 가지만 옮길 수 있고, 늑대와 염소, 염소와 양배추를 단둘이 남겨둘 수 없다.
질문: 모두 무사히 옮기는 방법은?

🎯 난이도 중(생각하기 싫어하는 나한테는 중^^, LLM한테는 하)

A, B, C, D, E가 일렬로 앉아 있다.

  • A는 B 옆에만 앉을 수 있다.

  • C는 맨 끝에 앉지 않는다.

  • D는 E의 오른쪽에 앉아야 한다.

  • B와 E는 서로 옆에 앉지 않는다.
    모든 조건을 만족하는 좌석 배치의 경우의 수를 구하라.

진행 방법

  1. Chatgpt o4-mini, o3

  2. claude의 3.7 Sonnet 일반/심층 사고 모드

  3. Gemini 2.5 Flash

3개의 LLM에 각각 2개의 문제를 제시하였음.

✔️첫 번째였던 <농부, 염소, 양배추> 문제는 정답은 다 동일하지만,
최소 시간으로 깔끔한 처리는 지피티 승

<Chatgpt>
문제 입력하자 마자, 3초도 안되어 바로 결과 출력

3초만에 해결

<클로드> 지피티 보다는 2초 정도 더 걸렸지만, 역시 잘 풀어냄

한국어로 된 한국어 텍스트

<제미나이>

한국어 한국어 한국인 한국인 ��한국인

역시 말이 많음

결론적으로 모든 개체를 무사히 옮기는 방법은 다음과 같습니다.

  1. 염소 건너기

  2. 농부 돌아오기

  3. 늑대 건너기

  4. 염소 돌아오기

  5. 양배추 건너기

  6. 농부 돌아오기

  7. 염소 건너기

이 순서를 따르면 제약 조건을 위배하지 않고 모두를 안전하게 강 건너편으로 옮길 수 있습니다.

시간은 10여초 걸렸음. 혼자 열심히 써내려가더니, 다시 시작^^

하늘에서 비행기가 날아 다니는 검은 배경

이번에는 2번째 문제로 도전

<Chatgpt>
나름 어려웠는 지 46초동안 생각을 하네^^

(좀 이상함, 왜 3개 밖에 안나오지???)

<클로드>

한국어 테스트 한국어 언어 테스트 한국어 테스트 한국어 테스트 한국어 언어 테스트

어라, 6가지. 여기서 부터 지피티랑 답이 달라졌다

그럼 수다쟁이 제미나이는

실수 인정에, 어디서 나왔는 지 모르겠다고 솔직하게 인정ㅋㅋ
순간적으로 빵 터져서 혼자 웃었음ㅋ

이번엔 10가지,

3,6,10가지의 서로 다른 답을 준다. 그럼 교차검증을 해봐야지~~
그래서 지피티한테 제미나이의 답을 주고 따져 봄.

이번엔 클로드에게 분석 요청함

이렇게 해서 8가지라고 하는데.

계속 따지고 따지고 또 따졌더니,

클로드가 논리적인 사고에서는 계속 억지를 부리는 면을 보였음

결과와 배운 점

클로드가 생각보다 자신의 의견 번복이 너무 많아서 놀랐음.
반대 의견을 제시할 때마다, 주장 근거도 달라지고, 계속 다시 점검해보겠다고 해서, 추론 시간이 너무 오래 걸렸음.
아직 추론모델에서는 다른 2개에 비해 많이 부족해 보임.

지피티가 한글 문맥에 상당히 뾰족하게 반응해서 놀랐다.
‘A의 유일한 이웃이 B’(→ A는 반드시 맨 끝)로 해석했기 때문에 3가지만 남았던 것입니다.
"옆에만" 이라는 단어때문에 맨 끝으로 해석했다고 하는데, 확실히 한글에 대한 이해도가 예전보다 많이 달라졌다. 그런 의미가 아니라면 바로 10가지로 인정해 버림.

이번 논리력 테스트의 순위를 준다면

지피티-> 제미나이-> 클로드 이다

첨부터 정답을 도출한 제미나이가 1위였지만, 단어의 조사까지도 신중하게 접근하는 o3 모델에 대해 좀 더 점수를 주고 싶다.

2

👉 이 게시글도 읽어보세요