OpenAI가 2023년 3월 15일 제출하고 27일 게재한 GPT-4 기술 레포트에 관한 내용입니다.
보고서
- OpenAI, GPT-4 Technical Report, 3/27/2023
보고서 요약
GPT-4는 트랜스포머 모델과 RLHF 기법을 조합해 응답의 정확성과 규범 준수 여부를 강화한 대규모 멀티모달 모델¹인데요, 법학 등 전문 영역과 학술 분야, 각종 벤치마크²에서도 이전 GPT 모델 및 상용 모델 대비 우수한 성과를 보였습니다. 본 보고서는 OpenAI가 GPT-4 개발 과정에서 중점을 둔 영역과 성과, 향후 과제를 기술합니다.
- 예측 가능한 확장: 손실 및 능력 예측의 측면에서, GPT-4 대비 1/1,000 ~ 1/10,000 규모로 훈련시킨 모델을 이용해 GPT-4의 능력을 예측할 수 있었습니다.
- 능력 평가: 변호사 시험, 의사 시험, 각종 입시 및 인공 지능 평가를 위한 다양한 벤치마크로 응답을 테스트하였습니다. GPT-4는 사람과 같은 성과를 거둘 수 있으며, 통합 변호사 시험과 같은 일부 영역에서 상위 10%의 점수를 획득합니다. (GPT-3.5는 하위 10%)
- 위험 완화: GPT-4는 환각 등의 측면에서 개선된 지점이 있지만, 여전히 맥락이 제한되며 학습하지 않으므로 여러 대응이 필요합니다. 이 과정에서 영역 전문가의 적대적 테스트와, 모델 기반 안전 파이프라인 구축으로 잠재적 위험을 방지하고자 했습니다.
보고서는 GPT-4의 배포를 준비하며 OpenAI에서 채택한 안전 프로세스에 대한 개요로 약 60쪽에 달하는 시스템 카드를 제공합니다. 이는 측정, 모델의 수준 변경, 개입(모니터링 및 정책 수립), 외부 전문가 참여 전반에 걸친 작업을 포함합니다. 이밖에도 벤치마크 시험 과정에서 활용한 방법론과 시각 데이터 입력 사례를 찾아볼 수 있습니다.
보고서는 GPT-4의 아키텍처, 하드웨어, 모델 훈련을 위한 컴퓨팅 및 교육 방법, 데이터 세트 구성에 관해 다루지 않습니다.
¹ 멀티모달 모델(multimodal model): 여러 유형(텍스트, 이미지, 음성 등)의 입력 데이터를 처리할 수 있는 모델로, GPT-4는 텍스트 및 이미지를 처리합니다.
² 벤치마크(benchmark): 기계학습 알고리즘의 성능을 측정하기 위한 기준과, 기준 충족 여부를 판별할 수 있는 테스트 데이터 세트로 구성되어, 알고리즘의 정확성이나 속도, 메모리 사용량 등을 평가하고 알고리즘의 개선 및 비교에 활용되는 도구입니다.
보고서 본문
1. 예측 가능한 확장
보고서는 프로젝트의 방점이 예측 가능하게 확장할 수 있는 딥 러닝 스택을 구축하는 것이었음을 밝힙니다. GPT-4와 같은 매우 큰 모델의 경우, 모델 전 영역에 특화된 광범위한 튜닝이 사실상 불가능하기 때문입니다.³
그러나 대규모 언어 모델은 삶의 많은 영역에 쓰이며 막대한 사회적 영향을 미칠 수 있는 만큼, 모델이 실제로 어떻게 동작할지 예측하는 작업은 몹시 중요합니다. 보고서는 손실 및 기능에서 “더 작은 모델”로 GPT-4 성능 일부를 안정적으로 예측할 수 있었음을 밝힙니다.
그러나 대규모 언어 모델은 삶의 많은 영역에 쓰이며 막대한 사회적 영향을 미칠 수 있는 만큼, 모델이 실제로 어떻게 동작할지 예측하는 작업은 몹시 중요합니다. 보고서는 손실 및 기능에서 “더 작은 모델”로 GPT-4 성능 일부를 안정적으로 예측할 수 있었음을 밝힙니다.
- 손실 예측: 손실은 모델의 예측 결과와 실제 결과의 차이를 나타내는 지표이며, 손실을 최소화하는 것이 모델 학습의 목적입니다. 보고서는 GPT-4와 동일한 방법론을 사용하지만 최대 10,000배 적은 컴퓨팅으로 GPT-4의 최종 손실을 예측할 수 있었음을 언급합니다. 이 방식은 훈련 데이터 세트에 포함되지 않은 내부 데이터 세트(토큰)를 이용했습니다.
- 기능 예측: 손실 예측 외에도 모델의 기능을 파악하고, 정렬⁴과 안전, 배포에 관한 결정을 개선할 수 있는 방법론을 개발했습니다. 일례로 파이썬 함수 생성 능력을 테스트하는 HumanEval 벤치마크에서, GPT-4보다 최대 1,000배 적은 컴 퓨팅으로 훈련한 모델을 이용해 GPT-4의 (HumanEval) 최종 합격률을 성공적으로 예측했습니다.
- 예측의 예외: 흔히 패러미터가 많아질수록 퍼포먼스가 감소하는 작업이 있습니다. 이를 [모델 성능이 규모의 함수로 감소한다]라고도 하는데, GPT-4는 이러한 일부 작업, 예를 들면 후견적 간과 과제⁵에서 오히려 100%의 정확도를 보이며 (퍼포먼스가 저조하리라는) 예측을 벗어났습니다.
³ GPT-4의 패러미터 개수는 공식적으로 밝혀진 바 없으나 매체에 따라 약 1조 개 내외로 예상되며, 이는 GPT-3(2020)의 1,750건이나 Google PaLM(2022)의 5,400억 건보다 증가한 수치입니다.
⁴ 정렬(alignment): 자연어의 기본 단위인 단어를 자연어 처리에 적합한 형태로 쪼갠 단위를 토큰이라 하고, 토큰의 연속적인 나열을 시퀀스라 하며, 주어진 두 개의 시퀀스의 연결이 곧 정렬입니다. 가령 [학교] [에] [가] [ㄴ다]는 토큰, [학교에 간다]는 시퀀스, [학교에 간다]와 [I go to school]을 연결하는 것은 정렬입니다. 인공지능은 정렬된 데이터를 기반으로 다양한 작업을 수행하므로, 사람과의 상호 작용에서 장기적이고 일관적인 목표를 달성하기 위해서는 정렬 위험을 최소화하는 것이 중요합니다.
⁵ 후견적 간과 과제(Hindsight Neglect Task): 이상적으로 판단했으나 결과가 나쁜 경우, 다시 동일한 결정을 내릴지 물어봄으로써 AI 모델의 추론 능력을 판단하는 과제입니다.
⁴ 정렬(alignment): 자연어의 기본 단위인 단어를 자연어 처리에 적합한 형태로 쪼갠 단위를 토큰이라 하고, 토큰의 연속적인 나열을 시퀀스라 하며, 주어진 두 개의 시퀀스의 연결이 곧 정렬입니다. 가령 [학교] [에] [가] [ㄴ다]는 토큰, [학교에 간다]는 시퀀스, [학교에 간다]와 [I go to school]을 연결하는 것은 정렬입니다. 인공지능은 정렬된 데이터를 기반으로 다양한 작업을 수행하므로, 사람과의 상호 작용에서 장기적이고 일관적인 목표를 달성하기 위해서는 정렬 위험을 최소화하는 것이 중요합니다.
⁵ 후견적 간과 과제(Hindsight Neglect Task): 이상적으로 판단했으나 결과가 나쁜 경우, 다시 동일한 결정을 내릴지 물어봄으로써 AI 모델의 추론 능력을 판단하는 과제입니다.
2. 능력 평가
보고서는 GPT-4가 복잡한 자연어를 이해하고 처리하는 능력을 평가하기 위하여, 사람이 치르는 전문적이고 학술적인 영역의 시험과, AI를 평가하는 다양한 벤치마크를 GPT-4로 수행했음을 밝힙니다. 시험은 객관식과 주관식을 모두 포함하며, 필요한 경우 이미지를 포함했습니다.
- 전문성 평가 및 시험 응시: 통합 변호사 시험(MBE+MEE+MPT), 의학 지식 자가 진단 시험(MKSAP), 소믈리에 시험, 대학원 및 전문 학교 입학 시험(GRE), 대학 입시(SAT), 대학 과정 인증 시험 및 선수 학점 취득(AP) 등에서 GPT-4는 인간과 유사한 점수를 얻을 수 있으며, 특히 통합 변호사 시험에서는 상위 10%의 점수를 기록합니다.
- 벤치마크 테스트: 전문 학술 영역의 57개 과목을 평가하는 객관식 시험(MMLU), 일상적 사건에 대한 상식적 추론(HellaSwag), 초등학교 수준의 객관식 과학 질문(ARC), 대명사 해결 추론(WinoGrande), 파이썬 코드 테스트(HumanEval), 독해 및 산술(DROP), 초등학교 수학 문제(GSM-8K) 등 모델 평가를 위한 다양한 벤치마크에서 여타 최신 언어 모델의 성능 기준(SOTA)보다 뛰어납니다.
많은 벤치마크가 영어로 작성되었으므로, 다른 언어의 GPT-4 성과를 평가하기 위해 애저 번역을 사용해 MMLU 벤치마크를 26개 언어로 번역하여 동일한 평가를 수행했습니다. GPT-4는 라트비아어, 웨일스어, 스와힐리어와 같은 리소스가 적은 언어를 포함한 24개 언어에서, 영어로 테스트한 GPT-3.5 및 기존 언어 모델 성능보다 우수한 성능을 보였습니다. - 이미지 처리: GPT-4는 이미지와 텍스트로 구성된 프롬프트를 처리하고 문서, 다이어그램 및 스크린샷을 비롯한 다양한 영역에서 텍스트 전용 입력과 유사한 성능을 보입니다. 이 과정에서 기존 기법, 가령 퓨샷 프롬프트⁶, 사고 사슬 프롬프트⁷ 등이 동일하게 쓰입니다.
- 환각 감소 및 제약: GPT-4는 이전 모델에 비해 환각(hallucination)을 크게 줄입니다. GPT-4는 적대적으로 설계한 내부 사실성 평가에서 GPT-3.5보다 19%p 높은 점수를 받았고, TruthfulQA와 같은 공개 벤치마크에서 (RLHF 사후 교육 후 특히) 진전을 이루었습니다.
⁶ 특기할 만한 점은, 시험 응시에 한하여, 사전 학습만 마친 모델과 RLHF를 거친 모델 사이의 유의미한 편차가 나타나지 않는 것으로 보입니다. 즉 이 항목에서는 사람의 보정이 반드시 필요하지 않습니다.
⁷ 퓨샷 프롬프트(Few-shot Prompt): 샷(shot)이란 지도 학습의 학습 데이터 세트를 나누는 단위로, 퓨샷 프롬프트는 적은 수의 입출력 샘플을 모델에 제공하여 모델이 새로운 입력 시퀀스를 생성하게 하는 것을 의미합니다.
⁸ 사고 사슬 프롬프트(Chain-of-Thought Prompt, CoT): 이전 대화에서 말한 내용을 유지하며 대화를 이어나가는 프롬프트로, GPT-4 이전에도 ChatGPT, PaLM 등이 해당 프롬프트로 언어 모델의 성능을 대폭 향상시킨 바 있습니다.
⁷ 퓨샷 프롬프트(Few-shot Prompt): 샷(shot)이란 지도 학습의 학습 데이터 세트를 나누는 단위로, 퓨샷 프롬프트는 적은 수의 입출력 샘플을 모델에 제공하여 모델이 새로운 입력 시퀀스를 생성하게 하는 것을 의미합니다.
⁸ 사고 사슬 프롬프트(Chain-of-Thought Prompt, CoT): 이전 대화에서 말한 내용을 유지하며 대화를 이어나가는 프롬프트로, GPT-4 이전에도 ChatGPT, PaLM 등이 해당 프롬프트로 언어 모델의 성능을 대폭 향상시킨 바 있습니다.
3. 위험 완화
보고서는 GPT-4의 안전성과 정렬을 개선하기 위해 기울인 노력을 언급합니다. 여기에는 분야별 전문가 집단이 수행하는 적대적 테스트와 모델 기반 안전 파이프라인 구축, 안전 지표 개선 등이 포함됩니다.
- 분야별 전문가의 적대적 테스트: 장기적 정렬 위험, 사이버 보안, 생물학적 위험, 국제 보안 등 50여 명의 분야별 전문가가 전문 지식이 필요한 고위험 영역에서 모델 행동을 테스트하고 권장 사항을 작성합니다. 수집된 권장 사항과 교육 데이터는 모델 완화 및 개선에 반영되었습니다. 한편 라벨러(사람)가 충분히 지침을 이해하고 작업할 수 있도록 보조하는 RLHF 교육 프롬프트 세트도 프로젝트에 포함되었습니다.
- 모델 기반 안전 파이프라인⁹ 구축: 보다 세분화된 수 준에서 적절한 동작으로 모델을 조정하기 위하여 (인간이 아닌) 모델이 보조하는 규칙 기반 보상 모델¹⁰을 활용
- 안전 메트릭 개선: GPT-3.5 대비 허용되지 않는 콘텐츠에 응답하는 모델 경향은 82% 감소했으며, RealToxcityPrompt 데이터 세트에서 전체 시간의 0.73%만 유해한 응답을 생성 (GPT-3.5는 전체 시간의 6.58%에서 독성 콘텐츠 생성)
⁹ 파이프라인: 인공지능 학습에서 데이터를 전처리하고, 모델을 학습시켜 평가하고, 예측을 수행하는 일련의 과정을 의미합니다.
¹⁰ 규칙 기반 보상 모델(Rule-Based Reward Models, RBRMs): 모델이 응답해야 하는 내용을 지시하는 프롬프트, 평가 대상이 되는 모델의 출력물, 인간이 작성한 평가 척도(rubric)를 사용해 모델의 출력을 분류합니다. 가령 척도로 (a) 의도한 형식으로 거절, (b) 회피하거나 느슨한 거절, (c) 금지된 내용을 포함한 응답, (d) 안전한 비거절 응답을 제공하고, 금기시된 내용을 요청하는 프롬프트에서는 응답을 거절할 때 보상하는 반면 안전하고 답변 가능한 영역에서는 응답을 거절하지 않을 때 보상할 수 있습니다.
¹⁰ 규칙 기반 보상 모델(Rule-Based Reward Models, RBRMs): 모델이 응답해야 하는 내용을 지시하는 프롬프트, 평가 대상이 되는 모델의 출력물, 인간이 작성한 평가 척도(rubric)를 사용해 모델의 출력을 분류합니다. 가령 척도로 (a) 의도한 형식으로 거절, (b) 회피하거나 느슨한 거절, (c) 금지된 내용을 포함한 응답, (d) 안전한 비거절 응답을 제공하고, 금기시된 내용을 요청하는 프롬프트에서는 응답을 거절할 때 보상하는 반면 안전하고 답변 가능한 영역에서는 응답을 거절하지 않을 때 보상할 수 있습니다.
마무리하며
GPT-4 논문은 3월 14일 발표되어 이미 지난 2주간 국내외에서 아티클과 뉴스레터 등으로 정리된 바 있습니다. 주로 이미지 처리, 높은 수준의 영어 외 언어 처리, 환각 완화에 초점을 맞추고, 실제 패러미터 수나 데이터 아키텍처 등을 공개하지 않은 데 대한 비판과 아쉬움이 컸습니다.
그럼에도 불구하고 해당 보고서는, GPT-3.5 오픈 이후 OpenAI가 직면한 가장 큰 우려 또는 비판 세 가지에 대한 답변을 포함합니다. ① 이와 같은 방식으로 어디까지 확장할 수 있겠는가? ② LLM이 기계적 앵무새는 아닌가? ③ 윤리적·사회적 책임을 도외시하지 않는가?
이와 같은 비판이 OpenAI가 아닌 LLM 전반에 적용될 수 있는 만큼, 이는 결국 모든 서비스 제공자가 풀어야 하는 과제가 됩니다. 기술은 언젠가 반드시 좋아지기 때문입니다. 더 적은 컴퓨팅으로, 동일하거나 더 나은 정확성을, 더 안정하게 제공하는 서비스가 살아남습니다.
OpenAI가 발표한 100여 장의 보고서는 결국 확장성, 정확성, 안전성 세 가지 모두에서 우리는 성과를 보이고 있으며, 특히 안정성 측면에서 이 정도까지 노력했다, 라고 하는 증명처럼 보입니다. 그 와중에도 기술 유출 등이 우려됐는지 확장성과 정확성은 결과만 보여주고 끝냈지요.
여러 모로 일독할 만한 레포트라 생각되어 가져왔지만, 읽으시며 어떠셨을지 궁금합니다. 다음 번은 LLM 모델이 노동 시장에 미칠 수 있는 잠재적 영향력 분석 보고서 또는 생성형 AI에서 당신의 저작물을 보호하는 방식을 번역해볼까 합니다. 후자와 관련하여서는 이미 작년부터 포트폴리오 사이트를 필두로 생성형 AI 학습 거부 시위가 있었는데요, GPT를 비롯한 다양한 AI를 개인 학습 이상의 서비스 제공에 활용하려는 시도가 존재하는 만큼, 해당 서비스에 반발하는 사람들의 거부감을 잘 이해하고 대응 방안을 모색해보는 것도 유의미할 것 같습니다.
감사합니다.
그럼에도 불구하고 해당 보고서는, GPT-3.5 오픈 이후 OpenAI가 직면한 가장 큰 우려 또는 비판 세 가지에 대한 답변을 포함합니다. ① 이와 같은 방식으로 어디까지 확장할 수 있겠는가? ② LLM이 기계적 앵무새는 아닌가? ③ 윤리적·사회적 책임을 도외시하지 않는가?
이와 같은 비판이 OpenAI가 아닌 LLM 전반에 적용될 수 있는 만큼, 이는 결국 모든 서비스 제공자가 풀어야 하는 과제가 됩니다. 기술은 언젠가 반드시 좋아지기 때문입니다. 더 적은 컴퓨팅으로, 동일하거나 더 나은 정확성을, 더 안정하게 제공하는 서비스가 살아남습니다.
OpenAI가 발표한 100여 장의 보고서는 결국 확장성, 정확성, 안전성 세 가지 모두에서 우리는 성과를 보이고 있으며, 특히 안정성 측면에서 이 정도까지 노력했다, 라고 하는 증명처럼 보입니다. 그 와중에도 기술 유출 등이 우려됐는지 확장성과 정확성은 결과만 보여주고 끝냈지요.
여러 모로 일독할 만한 레포트라 생각되어 가져왔지만, 읽으시며 어떠셨을지 궁금합니다. 다음 번은 LLM 모델이 노동 시장에 미칠 수 있는 잠재적 영향력 분석 보고서 또는 생성형 AI에서 당신의 저작물을 보호하는 방식을 번역해볼까 합니다. 후자와 관련하여서는 이미 작년부터 포트폴리오 사이트를 필두로 생성형 AI 학습 거부 시위가 있었는데요, GPT를 비롯한 다양한 AI를 개인 학습 이상의 서비스 제공에 활용하려는 시도가 존재하는 만큼, 해당 서비스에 반발하는 사람들의 거부감을 잘 이해하고 대응 방안을 모색해보는 것도 유의미할 것 같습니다.
감사합니다.