챗GPT 업그레이드 후 수학 성능 저하

오픈AI의 인공지능 챗봇 챗GPT-4의 성능이 기존 버전인 챗GPT-3.5보다 일부 분야에서 떨어진 것으로 분석되었다. 특히 기본적인 수학 능력에서 성능 저하가 두드러졌다.
미국 스탠퍼드대와 캘리포니아대 버클리 연구팀은 8가지 항목에서 성능을 비교한 결과, 챗GPT-4의 성능이 6개 항목에서 하락했다. 숫자가 소수인지 구별하는 질문의 정확도는 84%에서 51.1%로 급감했다.
챗GPT-3.5의 성능은 일부 항목에서 개선되었으며, GPT-4보다 좋은 성능을 보인 분야도 있었다. 업계에서는 챗봇 성능 개선 중 오류가 발생해 성능이 오히려 나빠진 것으로 분석하고 있다.