LLM 파인튜닝시 맥락을 제공해야 하나요?

안녕하세요, LLM 파인튜닝과 관련해 궁금한 점이 있어 질문 드립니다.


OpenAI의 파인튜닝 API를 보면 데이터로 (prompt, completion) 쌍이 필요하다고 제시하고 있습니다.

만약 날씨 데이터를 분석해 다음날 날씨를 예측하도록 파인튜닝한다고 할 때, (과거 날씨에 대한 CSV 데이터, 다음날 날씨)와 같이 데이터만 제공해도 되나요?

아니면 프롬프트 엔지니어링처럼 (역할 - 맥락 - 과거 날씨 데이터, 다음날 날씨)와 같이 제공해야 하나요?

[예시]

«데이터만 제공»

Prompt:

날짜,날씨,기온

2024-03-01,맑음,23

2024-03-02,흐림,12

Completion

날짜,날씨,기온

2024-03-03,흐림,15


«맥락까지 제공»

Prompt:

너는 기상분석관으로 다음 제공된 데이터를 분석해 다음 날 날씨를 예측해야 한다.

{데이터}

Completion

2024-03-03,흐림,15


PS.

맥락까지 제공하는 경우, 파인튜닝된 모델을 사용함에 있어 동일한 포맷을 유지해야 하는게 맞나요?

1

👀 답변을 기다리고 있어요!

🙌 새로운 멤버들을 맞아주세요!