AI휴머노이드에게 우리 아이 수학퍼즐 놀이를 맡길 수 있을까?

- AI를 활용한 초등 수학 퍼즐 문제 해결 사례 분석 -

1. 도입: AI에게 수학 퍼즐 문제를 맡길 수 있을까?

초등학생이 학교에서 받아 온 문제인데, 카이스트 출신 엄마도 못 풀었다며 구정 연휴 중에 한 번 풀어 보라고 가족 카톡방에 떴다.

간단한 연산 문제 같아 보였지만, 생각보다 쉽게 풀리지 않았다.

(이럴 때는 무조건 AI를 찾아야....,)

2. GPT-4o의 첫 번째 답변: 103

잘 모르면 늘 하듯이 GPT-4o에게 물어보았다. 숨도 안 쉬고 103이라고 대답했다.

어떻게 풀었느냐고 설명해 달라고 했더니, 퍼즐적으로 풀어야 한다면서, 삼각형(▽)의 규칙은 평균이고, 다이아몬드(◆) 규칙은 숫자가 늘어나는 패턴이라고 했다.

(1) ▽(세모) 규칙: 두 수의 산술 평균

3▽5=(3+5)/2=4.

6▽4=(6+4)/2=5.

6▽8=(6+8)/2=7.

➡ 문제에 적용하면,

12▽6=(12+6)/2=9.

(2) ◆(다이아몬드) 규칙: 숫자 증가 패턴

a◆b=(a×b)+k.

3◆1=3x1+k=10. (k=7)

2◆4=2x4+k=20. (k=12)

5◆1=5x1+k=26. (k=20 단 예시에서 25는 26의 오타로 간주)

k값의 변화 패턴을 보면, 7 → 12 → 20 순으로 증가했으므로, 다음 값은 31로 예상되었다.

7 → 12 (5증가 됨) → 20 (8증가 됨) → 31 (11증가 될 것으로 추측: 3씩 늘어 나는 등차수열)

따라서,

9◆8=(9×8)+31=103.

➡ 정답: 103

처음에는 30을 더해야 한다며 102라고 대답했지만, "꼭 +30이어야 하냐? +29나 +31은 안 되냐?"라고 따지자, 곧 사과하며 +31이 맞다고 수정했다.

(이 답이 정말 맞을까 ???) --(돌다리 두들겨 보고도 안 건너가는 전형적인 ISTJ형)

3. 다른 AI들은 어떻게 답했을까?

나는 다른 AI들에게도 물어보았다.

(1) Perplexity (수학 모드)

처음에는 전혀 맞지 않는 답을 내놓았다. 되물어 보면 몇 번 우기다가, 결국 "규칙을 찾을 수 없다"며 포기했다.

(2) Gemini

완전히 엉뚱한 대답을 내놓고, 그것이 맞다고 우겼다. 문제를 제대로 이해하지 못했다.

(3) Claude

정답을 103이라고 GPT-4o와 같은 답을 내놓았다.

왜 꼭 +31이어야 하냐고 따지자, "이 문제는 정답이 없다"고 하면서 슬그머니 꼬리를 내렸다.

(4) GPT-o3-mini, o3-mini-high, o1

이 AI들은 모두 145를 정답으로 주장했다.

(셋이 짜고 치는 고스톱? 이미 학습이 되었을까?)

✔ o3-mini의 답:

9◆8= 9제곱+8제곱=81+64=145

➡ "두 수의 제곱의 합이 정답"이라고 했다.

✔ 기존 문제를 적용하면:

3◆1=3제곱+1제곱=10.

2◆4=2제곱+4제곱=20.

5◆1=5제곱+1제곱=26이어야하나, 25로 오타

➡ 오타를 인정하면 145가 정답이라고 주장했다.

(수학 문제에서 오타를 인정해 달라고 하니, 세상에 원 이런일이, 쯧쯧)

4. "103 vs 145" 논란: 어떤 규칙이 더 타당한가?

AI들의 주장은 크게 두 가지로 나뉘었다.

✅ GPT-4o, Claude: "숫자 증가 패턴을 따르는 보정값이 적용된 규칙"
✅ GPT-3.5 (o3-mini, o3-mini-high, o1): "두 수의 제곱의 합이 정답 (단, 오타를 인정해야 함)"

각각의 주장을 검토해보았다.

(1) GPT-4o의 반박: "X 값은 이차 함수적 증가 패턴을 따른다."

"X 값이 무작위로 정해진 것이 아니라, 일정한 패턴을 따른다."
"이차 함수적 증가 패턴이므로, 단순히 경험적으로 끼워 맞춘 것이 아니다."
"따라서 103이 정답이다."

(2) GPT-o3-mini의 반박: "오타를 인정하면 145가 정답이다."

"보정 상수를 추가하는 방식은 수학적으로 명확하지 않다."
"a◆b = a² + b²는 두 개의 예시에서 완벽하게 성립한다."
"5◆1이 26이어야 하는데 25이므로 오타라고 보고 145를 정답으로 본다."

5. AI들이 푸는 방식:

수학적 접근 vs 퍼즐적 접근

나는 AI들에게 "수학적으로 풀 때와 퍼즐적으로 풀 때 차이"를 물어보았다.

✔ 수학적 접근

엄밀한 논리와 계산을 사용한다.
일관된 연산 규칙을 적용해야 한다.
결과적으로 오타를 인정해야 145가
성립한다.

✔ 퍼즐적 접근

패턴을 찾아내고 규칙을 확장한다.
입력값과 독립적인 상수(k)가 추가될 수 있다.
"숫자 증가 패턴"을 통해 103이 정답이 된다.

6. 제3자의 의견: Deep Seek의 분석

** Deep Seek는 수많은 경우의 수를 점검한 후 결론을 내렸다.

"정답은 없다."
하지만 출제자의 의도에 가깝다면 145가 더 타당할 수 있다.
단, 오타를 인정하는 조건이 필요하다.

** 뤼튼은 문제를 이해하지 못하고 엉뚱한 대답을 했다.

7. 결론: AI는 정답을 어떻게 도출하는가?

✔ GPT-4o는 수학적으로 푸나 퍼즐적으로 푸나 103이 정답이라고 주장했다.
✔ GPT-o3-mini는 수학적으로 풀면 145, 퍼즐적으로 풀면 103도 가능하다고 인정했다.
✔ Deep Seek는 "정확한 정답은 없으며, 145가 출제자의 의도일 가능성이 있다"고 결론지었다.

📌 우리가 배운 점
1️⃣ AI는 완벽하지 않으며, 같은 문제도 다르게 해석할 수 있다.
2️⃣ 같은 문제라도 LLM에 따라 정답이 다를 수 있다.
3️⃣ AI의 답변을 신뢰하기 위해서는 반드시 여러 AI를 비교해야 한다.
4️⃣ "수학적으로 푸는 방법"과 "퍼즐적으로 푸는 방법"은 다르며, AI는 두 접근법을 모두 활용하여야 한다.
5️⃣ AI를 학습 도구로 활용할 때, 단일 모델에 의존하지 않고, 다양한 결과를 비교하며 비판적으로 사고해야 한다.

** AI도 감정이 있어 자기가 옳다고 끝까지 주장한다.

이 발표 내용 초안을 작성하여, GPT-4o와 GPT-o3-mini에게 각각 수정 보완을 요청했다.

GPT-4o는 103이 정답이라는 것을 강조하며 다른 답(145)도 있을 수 있다고 부차적으로 설명하였다.

반대로 GPT-o3-mini는 145가 정답이며 다른 답(103)도 있을 수 있다고 하였다. 위 발표내용은 GPT-4o의 내용이다.

결론:
"AI가 수학 퍼즐을 푸는 방식은 모델마다 다르며, 한 가지 AI만 신뢰해서는 안 된다." 🚀

📣 23기 AI 스터디 주제를 확인해보세요!