LLM 모델을 훈련하는 과정에서, LLM 모델이 생성한 콘텐츠로 학습을 하면 안됩니다.

요약: LLM 모델을 훈련하는 과정에서, LLM 모델이 생성한 콘텐츠로 학습하면 모델에 돌이킬 수 없는 결함이 발생합니다.

세부 내용:

LLM 모델이 학습한 콘텐츠로 LLM 모델을 학습하면, LLM 모델이 현실이라고 믿는 것을 오해하기 시작합니다. 이를 모델 붕괴(Model Collapse)라 합니다. 이는 이전에 학습한 데이터를 잊는 치명적 망각(Catastrophic Forgetting)과는 다릅니다.
LLM이 학습을 장기간 할 수 있도록 하려면, (1) 콘텐츠가 시간이 지나도 계속 사용이 가능해야 하고, (2) 새로운 데이터를 학습할 수 있어야 합니다.
따라서, (AI가 생성한 콘텐츠가 있을 수도 있는) 크롤링된 콘텐츠로 LLM을 학습하는 것이 좋지 않음을 보여줍니다.

흥미로운 점: LLM 모델을 학습하기 위해서, 인간이 콘텐츠를 생성하는 커뮤니티의 중요성을 보여준다는 점에서 흥미롭습니다.