ChatGPT로 블로그 글 비교 평가 하기(v1)

GPT-4, GPT-3.5, Bard에게 똑같은 prompt를 주고 글을 작성하게 하고, 작성된 글을 ChatGPT(GPT-4)로 비교 평가 하는 일련의 작업을 진행해 보았습니다.


참고로 Coursera의 “ChatGPT Advanced Data Analysis(Jules White)” 강의 내용을 연습 차원에서 활용하였습니다.


ChatGPT Advanced Data Analysis



먼저, 3개의 모델에게 공통으로 주어진 글쓰기 관련 Prompt는 다음과 같습니다.

"생성형 AI로 인한 일상의 변화"를 주제로 블로그 글을 작성하고 싶습니다. 
다음의 [Template] 형식과 [Requirement]를 참고해서 생성해 주세요. 
-----------------------
[Template]
- **title**: <title>
- **contents**: <contents>
-----------------------
[Requirement]
- 한글로 작성할 것. 
- 제목의 길이는 최대 20자
- 본문의 길이는 최대 500자
- 본문의 구성 : <들어가며>, <본문>, <맺는말>
- 본문 작성 시 블릿 리스트 스타일로 작성할 것. 
- 친근하고 정중한 느낌이면서, 구체적인 문체로 작성할 것. 


이 Promt를 가지고 3개의 모델이 작성한 글은 각각 다음과 같습니다.

[Content 1]

[Content 2]

[Content 3]


이제 이 3개의 블로그 글을 비교 평가 위한 평가 항목을 제안해 달라고 했습니다.


총 7가지 평가 항목으로 정리가 되었습니다.

이 7가지 평가 항목을 “흥미롭고, 기억하기 쉬운 약어식 표현”으로 만들고 싶다고 하고, 제안을 해 달라고 하니 1차로 “RIAD-FCS”를 제안해 줍니다.

다시 한번 제안을 해 달라고 했더니, 이번에는 “CRAFTED”라는 낯익은 단어가..

ChatGPT에게 “CRAFTED”의 뜻을 물어 보니, “솜씨 있게 만들어진" 또는 “정교하게 제작된”이라는 뜻으로 재미 삼아 해 본 것 치고는 괜찮은 의미를 단어가 나온 듯 합니다. ㅎㅎ

다음으로 이 7가지 평가 항목으로 평가 배점 표를 만들었습니다.

(배점 조정 과정에서 ChatGPT 특유의 어리버리함으로 몇 차례 수정 작업을 진행함.)


최종 완성된 CRAFTED 평가지를 가지고 1차 평가를 진행하였고,

평가 결과는 Content 3(85) > Content 2(81) > Content 1(80)로 나왔습니다.

원래는 1차 평가 결과 나오면 시각화 단계로 넘어 가려고 하였으나, 평가 결과가 예상과는 달라서,

ChatGPT에게 다시 한번 평가를 해 달라고 요청을 하였습니다. (이유는 뒤에 나옵니다.)

다시 평가한 결과도 1차 평가와 크게 다르지 않게 나왔습니다.


드디어 ChatGPT에게 블로그 글 3개의 작성자를 알려 줍니다.

이렇게 작성자를 알려 주고 난 평가 결과는 어떻게 나왔을까요 ??


작성자를 알려 준 다음의 평가 결과는

Content 1(GPT-4) 94 점 > Content 3(Bard) 93점 > Content 2(GPT-3.5) 84점


그래도 염치가 있는 걸까요 ? Bard를 2위로 평가를 해 주었습니다. ㅎㅎ


이제 이 결과를 가지고 시각화 그래프를 그려 보았습니다.

먼저, 작성자별 총점 그래프입니다.


전체 평가 항목별 점수 그래프를 그리기 위해서 평가항목을 축약어 형태로 변형 작업을 진행하였습니다.


마지막으로 작성자(AI 모델)별 평가항목 점수 그래프입니다.

9
6개의 답글