ChatGPT 시리 - 인간 피드백형 강화학습

ChatGPT의 RLHF가 가진 특이사항
- 기존 RL 알고리즘에 새로운 정보를 받아들일 수 있는 Correction이 반영되었고
- 새롭게 추가되는 작은 데이터 셋으로 기본 모델을 만드는 작업으로 예전 모델을 수정·보완하는데 활용하고,
- 모델 업데이트 되는 구조를 Bandit 형태로 접근하되,
- 오차 보정에 ε-greedy algorithm, UCB, Thomson sampling 대신 KL Divergence를 쓴다
- 텍스트 기반의 채팅 데이터이기 때문이다
ChatGPT 모델이 가진 학문적 한계
- Lack of control study: SFT를 기반으로 하고 최종 PPO를 뽑는 과정에서 대조군이 없음
- Lack of ground truth for the comparison data: 모델의 데이터 선택자 의지에 영향을 받음
- Human preferences are just not homogeneous: 이용하는 사람들마다 의견이 다 다름
- Prompt-stability testing for the reward model: 인간 선택이 얼마나 큰 영향을 미치는지 정도를 알 수가 없음
- Wireheading-type issues: 특정 결과물에 쏠림 현상 나타나는 점