GPT-4, GPT-3.5, Bard에게 똑같은 prompt를 주고 글을 작성하게 하고, 작성된 글을 ChatGPT(GPT-4)로 비교 평가 하는 일련의 작업을 진행해 보았습니다.
참고로 Coursera의 “ChatGPT Advanced Data Analysis(Jules White)” 강의 내용을 연습 차원에서 활용하였습니다.
먼 저, 3개의 모델에게 공통으로 주어진 글쓰기 관련 Prompt는 다음과 같습니다.
"생성형 AI로 인한 일상의 변화"를 주제로 블로그 글을 작성하고 싶습니다.
다음의 [Template] 형식과 [Requirement]를 참고해서 생성해 주세요.
-----------------------
[Template]
- **title**: <title>
- **contents**: <contents>
-----------------------
[Requirement]
- 한글로 작성할 것.
- 제목의 길이는 최대 20자
- 본문의 길이는 최대 500자
- 본문의 구성 : <들어가며>, <본문>, <맺는 말>
- 본문 작성 시 블릿 리스트 스타일로 작성할 것.
- 친근하고 정중한 느낌이면서, 구체적인 문체로 작성할 것.
이 Promt를 가지고 3개의 모델이 작성한 글은 각각 다음과 같습니다.
[Content 1]
[Content 2]
[Content 3]
이제 이 3개의 블로그 글을 비교 평가 위한 평가 항목을 제안해 달라고 했습니다.
총 7가지 평가 항목으로 정리가 되었습니다.
이 7가지 평가 항목을 “흥미롭고, 기억하기 쉬운 약어식 표현”으로 만들고 싶다고 하고, 제안을 해 달라고 하니 1차로 “RIAD-FCS”를 제안해 줍니다.
다시 한번 제안을 해 달라고 했더니, 이번에는 “CRAFTED”라는 낯익은 단어가..
ChatGPT에게 “CRAFTED”의 뜻을 물어 보니, “솜씨 있게 만들어진" 또는 “정교하게 제작된”이라는 뜻으로 재미 삼아 해 본 것 치고는 괜찮은 의미를 단어가 나온 듯 합니다. ㅎㅎ
다음으로 이 7가지 평가 항목으로 평가 배점 표를 만들었습니다.
(배점 조정 과정에서 ChatGPT 특유의 어리버리함으로 몇 차례 수정 작업을 진행함.)
최종 완성된 CRAFTED 평가지를 가지고 1차 평가를 진행하였고,
평가 결과는 Content 3(85) > Content 2(81) > Content 1(80)로 나왔습니다.
원래는 1차 평가 결과 나오면 시각화 단계로 넘어 가려고 하였으나, 평가 결과가 예상과는 달라서,
ChatGPT에게 다시 한번 평가를 해 달라고 요청을 하였습니다. (이유는 뒤에 나옵니다.)
다시 평가한 결과도 1차 평가와 크게 다르지 않게 나왔습니다.
드디어 ChatGPT에게 블로그 글 3개의 작성자를 알려 줍니다.
이렇게 작성자를 알려 주고 난 평가 결과는 어떻게 나왔을까요 ??
작성자를 알려 준 다음의 평가 결과는
Content 1(GPT-4) 94 점 > Content 3(Bard) 93점 > Content 2(GPT-3.5) 84점
그래도 염치가 있는 걸까요 ? Bard를 2위로 평가를 해 주었습니다. ㅎㅎ
이제 이 결과를 가지고 시각화 그래프를 그려 보았습니다.
먼저, 작성자별 총점 그래프입니다.
전체 평가 항목별 점수 그래프를 그리기 위해서 평가항목을 축약어 형태로 변형 작업을 진행하였습니다.
마지막으로 작성자(AI 모델)별 평가항목 점수 그래프입니다.