ChatGPT 시리 - 인간 피드백형 강화학습

  • ChatGPT의 RLHF가 가진 특이사항
    • 기존 RL 알고리즘에 새로운 정보를 받아들일 수 있는 Correction이 반영되었고
    • 새롭게 추가되는 작은 데이터 셋으로 기본 모델을 만드는 작업으로 예전 모델을 수정·보완하는데 활용하고,
    • 모델 업데이트 되는 구조를 Bandit 형태로 접근하되,
    • 오차 보정에 ε-greedy algorithm, UCB, Thomson sampling 대신 KL Divergence를 쓴다
    • 텍스트 기반의 채팅 데이터이기 때문이다
  • ChatGPT 모델이 가진 학문적 한계
    • Lack of control study: SFT를 기반으로 하고 최종 PPO를 뽑는 과정에서 대조군이 없음
    • Lack of ground truth for the comparison data: 모델의 데이터 선택자 의지에 영향을 받음
    • Human preferences are just not homogeneous: 이용하는 사람들마다 의견이 다 다름
    • Prompt-stability testing for the reward model: 인간 선택이 얼마나 큰 영향을 미치는지 정도를 알 수가 없음
    • Wireheading-type issues: 특정 결과물에 쏠림 현상 나타나는 점

📚 모집 중인 AI 스터디