긴문장 처리할때 input, output 계산 방법 및 처리 방법

ChatGPT API 의 경우 model 에 따라 최대 토큰수가 정해져 있는데요.

궁금한게…

제가 알기로 짧은 대화 기준으로

질문 : 100 token

답변 : 100 token

다시질문 : 100 token + (기존질문+기존답변) = 300 token

답변 : 100 token

또질문 : 100 token + (기존질문*2) + (기존답변*2) = 500token

이런식으로 누적해서 사용이 되는것으로 알고 있습니다.

그럼 토큰수를 높여서 좀더 많은양 (128,000 token) 에 해당 하는 내용을 한번 질의하고

이후 질문은 연속성 때문에 항상 먼저 입력된 대량의 텍스트를 다시 보내고 답변 받고

이렇게 되는게 맞는건가요??

fine-tuning 과는 별개로요.

PDF 전송 후 이후 문서내용 관련 질의를 할 수도 있는것으로 아는데 위와 같이 하면

소모되는 토큰이 너무 많아서요.

검색으로는 궁금증을 해결이 안되어서 질문 드려요.

도움 부탁 드립니다.

감사합니다 (_ _)