AI2, OLMo 모델에 다양화된 데이터셋과 이중 교육 과정 도입

  • 앨런 인공지능 연구소(AI2)에서 OLMo 오픈 소스 언어 모델 업데이트 발표: 더 다양하고 포괄적인 Dolma 데이터셋과 향상된 교육 과정 적용

  • OLMo 1.7-7B 모델은 이제 더 긴 컨텍스트 길이(2,048에서 4,096 토큰으로)를 지원하며, 구조적 개선을 통해 성능 향상

  • 새로운 데이터셋 Dolma 1.7은 특수 지식, 복잡한 추론, 코딩 작업을 위한 콘텐츠를 다양한 소스에서 추출

OLMo 모델과 Dolma 데이터셋의 진화 - OLMo는 앨런 인공지능 연구소(AI2)에서 개발한 완전한 오픈 소스 대형 언어 모델로, 처음으로 2024년 2월에 발표되었습니다. 최신 버전인 OLMo 1.7-7B는 이전 버전인 Dolma 1.5 데이터셋에서 더 나아가, Dolma 1.7을 사용합니다. 이 데이터셋은 웹 데이터, Refined Web, StarCoder, C4, Stack Exchange, OpenWebMath, Project Gutenberg, Wikipedia 등 다양한 출처의 2.3조 토큰을 포함하고 있습니다.

새로운 교육 접근 방식 - OLMo 1.7은 두 단계 교육 과정을 채택합니다. 첫 단계에서는 모델을 처음부터 훈련시키고, 두 번째 단계에서는 Dolma 1.7의 선별된 고품질 하위 집합을 사용하여 추가적으로 50조 토큰을 훈련합니다. 이 과정에서 학습률이 선형적으로 감소합니다. 이러한 방식으로 AI2는 모델의 성능을 기존 모델들보다 우수하게 만들었다고 주장합니다.

원문보기

1