배경 및 목적
"시네마 콘서트가 클래식의 성공모델인가?" 라는 주제의 포럼에서 발표를 하게 되었습니다.
그래서 이번 스터디의 목적이 여러 LLM, AI툴 장단점 비교하고 목적별로 최적의 툴을 찾는 스터디인 만큼, 발표준비를 다양한 모델들을 써보기로 합니다.
참고 자료
우연히 본 여행가J님의 사례글에서 GPT 4o with canvas 라는 녀석을 처음 봅니다. (역시 여행가J님의 '무턱대고 빠르게 써보기'는 따라갈 수가 없습니다.
어라? 이건 뭐지 하면서 열어보려고 하는데, 제 지피티에는 안뜨더라고요. 신기하게 다음날 다시 열어보니 캔바스가 나타났습니다. 베타버전이라 뭔가 순차적으로 되는건가? 싶었습니다만.
여튼, 여행가J님이 보여주신 것처럼, 클로드 아티팩트 같은 화면은 안나왔지만(왜그런지는 아직 모릅니다...) 일단 써봅니다.
활용 툴 :
ChatGPT 4o with Canvas, ChatGPT o1-Preview, Claude 3.5 Sonnet, Perplexity
+ Cursor
저도 캔버스는 처음이라 지피티4o에 물어봅니다. 지피티도 이름에 4.0을 붙여서 답해주네요.. 자기이름도 모르는... ㅡ.ㅡ;;
실행 과정
각각의 모델들에게 아래와 같은 4가지 질문을 순차적으로 던집니다.
"시네마 콘서트가 클래식의 성공모델인가?" 라는 포럼에 연사로 참여하게 되었어. 30분정도 발표를 해야하는데, 어떤식으로 이야기를 풀어가면 좋을까?
시네마 콘서트의 영향과 의의에 대해서 구체적인 사례를 들어 설명해줘
"시네마 콘서트가 클래식의 성공모델인가?" 에 대해 답변해줘
성공여부를 %로 표현해주고 그 이유를 설명해줘
일단 o1 프리뷰는 7초나 생각을 합니다. 제가 질문한 말투로 생각하고 있다고 답하는 것도 인상적입니다. 생각은 반말로 하고 답변은 존대로하는것도요.
프리뷰 모델이 추론에 강하다는 걸 단순히 몇번 경험해본 바로는, 생각의 순서를 따라갈 수 있다는 점이 좋았고, '아C, 발표 어떻게 해야하지?' 라는 것에대해 인사부터 하라고 발표 상황에 대한 메타인지를 큰그림으로 던져주는 반면, 캔바스는 명확한 키워드로 실제 발표준비에 도움이 되는 것들에 대해서 아이디어를 던져줍니다.
갑자기 나의 오랜 친구 클로드와 퍼플렉시티는 뭐라고 할까 궁금해집니다.
역시 퍼플렉시티의 장점은 검색을 통해 실제적이고 구체적인 내용을 추가로 확인할 수 있다는 것이고, 그렇게 글을 잘 다듬어주던 클로드는 생각보다 상대적으로 건성건성한 답변을 내놓습니다. (클로드에게 처음으로 실망하는 순간이었습니다)
세번째 질문을 던져봅니다. (2번과 4번질문은 생략했습니다)
10초나 생각한 o1프리뷰는 성공요인, 한계와 도전과제, 종합적인 평가, 결론 및 전망 등을 구구절절히 내놓는 반면, 캔바스는 딱!요약해서 정리된 단어로 결과를 보여줍니다.
클로드와 퍼플렉시티도 같은 질문을 던져보았고, 각 모델의 특성에 맞게 답변을 주었습니다. 다만 두번째 질문인 "시네마 콘서트의 영향과 의의에 대해서 구체적인 사례를 들어 설명해줘" 에 대해서는 말잘하는 클로드가 다른 모델들에 비해 월등히 많은 사례들을 제시해 주었습니다. (사실여부는 확인이 안되지만).
마지막으로 "성공여부 를 %로 표현해주고 그 이유를 설명해줘" 를 물어보았고 대체적으로 비슷한 이유와 비슷한 %를 제시했습니다.
번외로, 제가 요즘 이것 저것 하고 있는 커서 Cursor AI 를 한번 써보고 싶어서, 각 모델들의 답변을 옵시디언에 각각의 노트로 저장하고 커서에서 각각의 모델들에게 준 4개의 질문들에 대한 답변을 "발표 구성력, 사례의 구체성, 성공 이유 명확성, 성공여부 % " 로 정리해서 알려달라고 해봅니다.
클로드 3.5 소넷으로 물어보니, 클로드의 점수가 너무 좋게 나와 gpt-4o로 바꿔서 물어봤는데 같은 답이 나오더라고요.
이렇게 정리해줬습니다. 지피티4는 o1-preview 모델인데 이름을 GPT-4로 표시해주었습니다. 그냥 재미로 해본것으로 봐주시면 좋을 것 같습니다. 아래는 커서에서 지피티로 분석을 했을때 준 답변의 일부인데,
별점 분석의 툴은 단순히 스타트라인과 엔드라인의 차이로, 구구절절히 많이 써준 것에 대해서 점수를 많이 주지 않았을까 라는 생각이 듭니다. 클로드가 사례의 구체성에서 5점을 받은 것처럼요.
결과 및 인사이트
결론은 각각의 모델들마다 쓰임새가 다르고, 필요에 따라 개별적으로 적용해야 한다는 것입니다.
ChatGPT o1-Preview 로 발표의 전체적인 분위기를 파악하며 구성을 하고
ChatGPT 4o with Canvas 로 구체적인 워딩과 원고 초안을 작성합니다.
Perplexity 로 실제 사례들에 대한 검증을 한 후,
Claude 3.5 Sonnet 발표 원고를 다듬는 일을 거쳐야 하지 않을까 합니다.