[Agent builder 친구먹기 4탄] 문과생의 개발자 놀이 (feat. 프롬프트 엔지니어링+Agent Evaluation 콤보)

만든 agent의 성능을 높여야 하는 상황이었고,

agent를 제작 한 후에 어떤 식으로 성능을 upgrade해야 하는지 궁금하기도 했는데

스터디장님들의 comment에 힌트를 얻어서

크게 두 가지를 연습하고 적용해 봤습니다.

프롬프트 엔지니어링과 Agent evaluation을 통한 agent 평가 및 개선

우선 상담가 agent가 상담 받으러 온 내담자와 티키타카를 하지 않고

한 번에 모든 대답을 쭈욱 뱉어내는 문제를 고치고자

지침에 들어가는 프롬프트를 수정했습니다.

그리고 상담 예시도 shot으로 지침에 추가했습니다.

대답하는 분량 제한도 걸었습니다.

이 작업을 하면서 배우고 느낀 점은

아! 지침 프롬프트를 어떻게 설정하냐에 따라서 답변이 달라지고

그러므로 내가 지침을 어떻게 설정하냐가 중요하구나!라는 점을 깨달음

그리고 여러 가지 버전으로 지침을 만들고 test 해보면서

제작하고 싶은 agent의 결과물이 나오도록 수 많은 반복 작업을 해 봐야 한다는 점을 깨달음

그래서 프롬프트 엔지니어링을 하는거구나 라는 것도 느낌

살짝 개발자 흉내 내는 기분이었음....ㅎㅎ

오은영 박사 상담가는 widget이 호출이 되다가 안되는 문제가 발생해서

ChatGPT와 의논하면서 씨름하다가 여러 번 에러 발생했는데

나중에 widget 이름을 한글로 해 놓은 경우 에러가 발생하는 것 같다는 조언을 듣고

영어로 변경했더니 제대로 widget으로 답변이 출력이 됩니다.

다른 분들도 참고하시면 좋을 것 같습니다.

위젯 내에서도 스크롤하니까 전체 답변 내용이 무엇인지 확인할 수 있더군요.

위젯 개념이 좀 친숙해지는 것 같음

이번에는 Agent의 성능을 평가하는 evaluation을 해 봄

Evaluate 누르고

Graders 지침을 넣어주고 add 눌러서 agent들에 대한 평가 기준을 등록시킴

이후에 Grade all을 누르니 평가 결과가 뜸

10개의 대화에 대해서 70%의 pass 율을 보임

눌러보면 세부 내용도 나옴

더 세부적으로 보면

평가 기준별로 평가 내용과 근거들을 보여줌

이런 식으로 내가 원하는 Agent의 모습에 대한 기준들을 설정하고

내가 실제 만든 Agent들이 기준에 맞게 동작하는지 평가해서

Agent들을 개선하고 성능을 올리는 것이라는 점을 알 수 있었습니다.

역시나 개발자 흉내를 내 보는 기분이 들더군요.

재미있었습니다.

배포된 Agent 테스트해보니 예전 버전보다는 내가 원하는 느낌에 좀 더 가까워진 것 같네요

이런 식으로 계속 노가다 작업을 해서 fine tuning을 하고 agent를 업그레이드 하는 것이

주요한 일이겠구나라는 점을 알 수 있었습니다.

감사합니다.

뉴스레터 무료 구독