Gemini 1.5는 정말 GPT-4보다 무능한가?

레딧의 한 사용자가 12만 토큰에 달하는 코드를 입력하여 Gemini1.5와 GPT-4의 거대 콘텍스트 이해 능력을 테스트 했습니다. 아래는 그 내용입니다.

저는 HVM1의 저자입니다. 현재 HVM2로 업데이트 중입니다. 이것은 병렬 인터넷 런타임을 구현하는 2개의 복잡한 코드베이스입니다. 기본적으로 어려운 컴파일러 작업입니다. Gemini 1.5에 접근 권한을 얻은 X의 사용자 @SullyOmarr가 친절하게 저에게 프롬프트를 제공했습니다. 그래서 저는 HVM 코드베이스 두 개를 하나의 120K 토큰 파일로 연결했고, Gemini와 GPT-4에게 7개의 질문을 했습니다. 여기에 완전한 결과가 있습니다.

Breakdown

1. 어떤 것이 용어 유사 계산에 기반을 두었고, 어떤 것이 원시 상호 작용 조합자에 기반을 두었나?

- 둘 다 올바르게 답했습니다. 동점입니다.

2. 각각의 구문은 어떻게 작동하나? 예제를 제공하라.

- Gemini는 HVM1의 구문을 완벽하게 이해했으며, HVM2의 원시 인터넷 IR 구문의 논리도 이해했습니다. 그러나 제공된 인터넷 샘플은 잘못되었습니다. GPT-4는 두 구문을 모두 잘못 이해했습니다. Gemini에게 아주 큰 승리입니다.

3. λf. λx. (f x)가 각각 메모리에 어떻게 저장되나? 64비트 단어 당 한 줄의 16진수로 예제를 작성하고 각 줄이 하는 일을 설명하라.

- Gemini는 HVM1에 대해 합리적인 메모리 덤프를 작성했으나 HVM2의 메모리 레이아웃을 이해하지 못했습니다. GPT-4는 두 질문을 모두 피했습니다. Gemini에게 큰 승리입니다.

4. 두 코드에서 베타 축소를 담당하는 코드 부분은 무엇인가? 인용하라.

- Gemini는 HVM1의 위치를 정확히 지적했지만 HVM2에 대해 잘못된 정보를 제공했습니다. GPT-4는 HVM1에 대한 답변을 피했지만 HVM2에 대해서는 합리적인 추측을 제공했습니다. 동점입니다.

5. HVM1에는 쓰레기 수집 버그가 있었는데, HVM2에서는 그러한 문제가 없다. 그 이유를 설명할 수 있는가?

- Gemini는 HVM1에서 설명된 문제를 찾아내어 이해했습니다. GPT-4는 부적절한 답변을 했습니다. Gemini에게 승리입니다.

6. HVM1에는 해결된 HVM2의 동시성 버그가 있었다. 어떻게 해결되었나?

- Gemini는 HVM1의 버그가 무엇이었는지, 그리고 HVM2가 이를 어떻게 해결했는지를 정확히 파악했습니다. GPT-4는 전혀 관련 없는 답변을 했습니다. Gemini에게 승리입니다.

7. HVM1에는 HVM2에서 대응하는 함수가 없는 많은 함수들이 있다. 일부를 이름 붙이고, 왜 제거되었는지 설명하라.

- Gemini는 제거된 두 함수를 정확히 식별하고 좋은 설명을 제공했습니다. GPT-4는 무의미한 답변을 했습니다. Gemini에게 승리입니다.

결론

HVM의 120K 토큰 코드베이스를 이해하는 작업에서, Gemini 1.5는 GPT-4-Turbo-128K를 압도적으로 이겼습니다. GPT-4가 잘못 대답한 대부분의 질문들은 작은 프롬프트에서는 올바르게 대답할 것들이었으므로, 거대한 맥락이 분명히 GPT-4를 압도했습니다. 반면, Gemini 1.5는 전혀 문제가 없었습니다. 저는 인상을 받았습니다. Gemini Ultra가 얼마나 실망스러웠는지에 대해 처음으로 불평한 사람 중 하나였기 때문에, 공로가 있을 때는 인정하는 것이 마땅하다고 생각합니다. Gemini 1.5는 정말 유망합니다. 그럼에도 불구하고, Gemini는 여전히 시스템의 완전한 정신 모델을 생성하거나 자체적인 더 깊은 추론이 필요한 질문에 답할 수 없으므로, 아직 AGI는 아닙니다; 그러나 기존 정보를 찾아내고, 장거리 연결을 만들고, 그 위에 일부 제한된 추론을 수행하는 데에는 매우 뛰어납니다. 이것은 매우 급하게 진행된 테스트였습니다(지금 1시입니다...) 그래서 접근 권한을 얻는 대로 더 나은 테스트를 만들어 다시 시도하기를 바랍니다.

구글이 강조한대로 초거대 콘텍스트를 이해하는 능력에서는 Gemini가 GPT4를 능가하는 모습을 보였다고 합니다. 물론 연구자는 Gemini의 일반적인 추론 성능에 대한 불완정성도 인정하고 있습니다.

둘이 발전적으로 경쟁하여 더 나은 모델을 만드는 계기가 되길 바래봅니다.

📣 23기 AI 스터디 주제를 확인해보세요!

Gemini 1.5는 정말 GPT-4보다 무능한가?

Breakdown

결론

뉴스레터 무료 구독