[23.04.12] MS 모델 훈련 방법 오픈소스 공개

ChatGPT 유사 모델: 사전 훈련된 허깅페이스 모델을 딥스피드-RLHF 시스템과 함께 사용하여 3단계의 InstructGPT 훈련을 실행하고, 추론 API를 통해 대화 상호작용을 테스트할 수 있습니다.
딥스피드-RLHF 파이프라인: InstructGPT 백서의 3단계 훈련 과정(감독 미세 조정, 보상 모델 미세 조정, 인간 피드백 강화 학습)을 복제하고, 데이터 추상화 및 블렌딩 기능을 제공하여 다양한 데이터 소스로 학습할 수 있습니다.
딥스피드-RLHF 시스템: DeepSpeed와 RLHF를 결합한 하이브리드 엔진으로, 추론과 훈련 모드 간 원활한 전환, 다양한 최적화 기능, 메모리 최적화 전략의 이점을 제공하며, 전체 RLHF 파이프라인의 메모리 관리와 데이터 이동 최적화를 지원합니다.

MS가 오픈소스로 풀어낸 덕에 개인화된 AI모델들이 더 빠른 속도로 출시될 수 있는 기반이 마련되었네요. 그만큼 GPT모델에 자신이 있다는 MS의 생각일까요?