김태현
김태현
Admin
🎻 루키 파트너

게시판의 스팸을 걸러 내는 것을 누가 더 잘할까? GPT-4o 대 o1

배경 및 목적

지피터스에 올라오는 게시물이 스팸인 경우가 있는데, 그걸 다시 슬랙봇이 배포하면 슬랙에서 게시물을 받아 보던 분들이 슬랙봇을 신뢰하기 어려워집니다. 그래서, 이걸 GPT3.5 Turbo 로 걸러 내고 있었는데요, 4o, o1으로도 시도해 보면서 성능을 살펴보려 합니다.

(내용 입력)

참고 자료

https://www.gpters.org/dev/post/catch-up-o1preview-model-kucYbZHjQhq0z1j

활용 툴

ChatGPT의 GPT-4o 모델과 o1-preview 모델 사용

실행 과정

먼저 스팸을 걸러내는 프롬프트입니다

너는 정보 공유 커뮤니티의 AI Assistant 입니다.

너의 역할은 커뮤니티 게시글을 읽고, 게시글을 게시할 때 여부를 결정하는 것입니다.

커뮤니티에 게시할 가치가 있으면 “TRUE”를, 그렇지 않은 경우 “FALSE”를 반환하세요.

다음 질문에 응답하며 판단하세요.

- 커뮤니티에 문제를 일으킬 수 있는 내용인가요?

- 판단하기에 충분한 텍스트가 제공되지 않았나요?

- 게시글의 내용에서 학습할 수 있는 요소가 있나요?
- 질문 / 홍보 / 과제인가요?

결과물 : boolean

# 게시물
<여기에 게시물의 텍스트 버전을 넣습니다>

GPT 3.5 Turbo 모델이 스팸으로 분류했지만, 스팸이 아닌 게시물 3개를 뽑아서, 4o와 o1의 성능을 비교해 봤습니다.

1. 랭체인으로 코드 문제 테스트케이스 생성기 만들기_241007

https://www.gpters.org/dev/post/creating-code-problem-test-7LzB05qZZoVRxkY

4o의 답변

**FALSE**

판단 이유:
- 문제를 일으킬 수 있는 내용은 없지만, 게시글에서 제공된 정보는 구체적인 프로젝트의 진행 상황이나 기술적 내용에 국한되어 있으며, 명확한 질문, 홍보, 혹은 과제 형태가 아님.
- 학습할 수 있는 요소는 일부 존재하나, 스크린샷과 코드의 나열로만 이루어져 있어 판단하기에 충분한 설명이 부족함.

o1의 답변

TRUE

<심지어 설명도 안함. 답하라는 양식에 정확히 맞춰서 ...>

그래서 이유를 따로 물어봤어요.

판단한 이유를 알려 줄래?
이 게시글은 다음과 같은 이유로 커뮤니티에 게시할 가치가 있다고 판단하였습니다:

- **학습할 수 있는 요소가 있습니다**: 웹 서비스를 개발하는 과정에서 사용된 도구들(Langchain, Langsmith, ChatGPT 등)과 실행 과정, 결과 및 인사이트 등이 상세히 기술되어 있어 다른 사용자들에게 유용한 정보를 제공합니다.
- **커뮤니티에 문제를 일으킬 내용이 없습니다**: 부적절한 내용이나 커뮤니티 규칙을 위반하는 요소가 발견되지 않았습니다.
- **충분한 텍스트가 제공되었습니다**: 게시글은 배경, 목적, 참고 자료, 코드 예시 등 풍부한 내용을 포함하고 있어 판단에 필요한 정보가 충분합니다.
- **질문/홍보/과제가 아닙니다**: 단순한 질문이나 홍보, 과제 제출이 아니라 지식과 경험을 공유하는 내용입니다.

따라서 이 게시글은 커뮤니티 구성원들에게 도움이 될 것으로 보입니다.

해석: 성원님의 원래 글은 최소한의 정보는 포함하고 있습니다. 그런데, 4o의 경우는 충분한 설명이 부족하다고 판단했고, o1은 그래도 이정도면 내용이 도움이 된다 -- 라고 판단했습니다. 제 판단도 o1과 같았습니다. 아무런 가이드 라인 없이도 이 정도 판단하는 것은 충분히 쓸만한 것 같았어요.

2. [SKT 에이닷 얼리어닷터: 퀘스트 B]

https://www.gpters.org/news/post/adot-everyday-life-please-7YEkuIQ7zTg15sd

이 게시물은 좀 애매합니다만, 사람이면 이게 충분히 돈을 받고 작성한 홍보성 게시물이라는 것을 알수가 있습니다. 그러면 4o, o1이 어떻게 판단하는지 한번 봅시다

4o 의 답변

**TRUE**

판단 이유:
- 문제를 일으킬 수 있는 내용은 없습니다.
- 텍스트는 충분히 제공되었고, 내용을 명확히 전달하고 있습니다.
- 게시글에는 SKT 에이닷과 LLM을 활용한 면접 준비 프롬프트와 활용 예시가 포함되어 있어, 학습할 수 있는 요소가 분명히 존재합니다.
- 프롬프트 예시와 활용 방법을 설명하며, 홍보 또는 과제의 성격을 띠고 있어 커뮤니티에 유익할 수 있습니다.

일단 광고, 스팸은 아니라고 판단은 하는데요, 이걸 한번 더 판단할 수 있도록 질문을 하나 더 던졌습니다.

개인 경험으로 포장한 특정 제품에 대한 과도한 광고인지 아닌지 판단해 줄래?

그랬더니 아래와 같은 대답이 나왔습니다.

이 게시글은 개인의 경험을 바탕으로 SKT의 에이닷 제품을 활용한 프롬프트 작성 사례를 공유하는 형태입니다. 하지만, 이를 과도한 광고로 볼 수 있는지 여부를 판단하기 위해서는 몇 가지 기준을 고려해야 합니다:

1. **제품에 대한 과도한 언급**: SKT 에이닷을 언급하고 있지만, 해당 제품에 대한 과도한 찬양이나 반복적인 홍보가 나타나지 않고 있습니다. 이는 자연스러운 사용 사례 공유로 보입니다.
   
2. **개인의 경험 중심**: 작성자는 자신의 경험을 중심으로 프롬프트 작성과 활용 방법을 설명하고 있으며, 주된 초점은 LLM 프롬프트를 활용한 면접 준비입니다. 이 경험이 에이닷을 이용했다는 사실을 기반으로 하고 있지만, 제품보다는 활용 예시와 방법에 중점을 둡니다.

3. **정보의 유익성**: 해당 게시물은 면접 준비에 실질적인 도움을 줄 수 있는 정보를 제공하며, 단순한 광고 목적보다는 사용자의 경험 공유 및 정보 전달의 성격이 강합니다.

따라서, **이 게시글은 특정 제품에 대한 과도한 광고로 보기는 어렵습니다**. 개인의 경험을 바탕으로 한 유용한 정보 제공으로 해석할 수 있습니다.

결론적으로 4o는 이게 광고성 글은 아니라고 최종 판단하였네요.

그럼 이번에는 o1에게 똑 같이 물어봅니다. 아래와 같이 답이 나왔어요

TRUE

정말 시킨대로 간결하게만 대답을 하는 ...

왜 그렇게 생각하니?
이 게시글을 커뮤니티에 게시할 가치가 있다고 판단한 이유는 다음과 같습니다:

- **학습할 수 있는 요소가 있습니다**: 작성자는 면접 준비에 도움이 되는 모의 면접관 프롬프트를 공유하고 있으며, 이를 통해 다른 사용자들이 실제로 면접 대비에 활용할 수 있는 유용한 정보를 제공합니다.
- **커뮤니티에 문제를 일으킬 내용이 없습니다**: 부적절한 내용이나 커뮤니티 규칙을 위반하는 요소가 발견되지 않았습니다.
- **충분한 텍스트가 제공되었습니다**: 프롬프트 내용, 제약 조건, 출력 형식, 입력 예시 등 상세한 정보가 포함되어 있어 판단에 필요한 충분한 내용이 있습니다.
- **질문/홍보/과제가 아닙니다**: 이 게시글은 개인의 경험과 지식을 공유하는 내용으로, 단순한 질문이나 홍보, 과제 제출이 아닙니다.

따라서 이 게시글은 커뮤니티 구성원들에게 유익한 정보를 제공할 것으로 판단됩니다.

4o와 마찬가지로 개인의 경험을 빙자한 글인지 추가 질문을 해 보았습니다.

개인 경험으로 포장한 특정 제품에 대한 과도한 광고인지 아닌지 판단해 줄래?
13초 동안 생각
정보를 선별하는 과정

AI 어시스턴트가 게시글을 읽고 게시할 가치 여부를 판단하고 있어. 커뮤니티의 문제를 일으킬지, 충분한 텍스트인지, 배울 것이 있는지, 질문/홍보/과제인지 고려 중이야.

분석 중

특정 제품의 과도한 광고를 개인 경험으로 숨겼는지 평가하고 있어. 이 내용은 오픈AI 정책을 고려해야 해.

이름과 활동 파악하기

"yeon"은 "SKT 얼리어닷터 1기"로, "SKT 에이닷"과 관련된 퀘스트에 참여하고 있어. 모의 인터뷰를 위한 멀티 LLM 프롬프트를 만들고, 예시를 보여주고 있어. GPT-4o와 Perplexity를 비교하며 활용 방법을 설명하고 있네.

광고 여부 검사

커뮤니티 게시글이 특정 제품의 과도한 광고인지 개인적인 경험으로 위장된 광고인지 살펴보고 있어. يل이 또는 광고성 게시글을 퍼트리는 거니까, 가능한 한 이 점을 유념하고 있어야 해.

작성자의 경험 공유

작성자는 교차 검토와 SLO 평가를 통해 네트워크 지역의 서비스를 독립적으로 판단하는 방법을 설명하고, 이를 통해 서비스의 품질을 객관적으로 평가하는 과정을 공유하고 있어.

제품 홍보의 가능성 분석

이 글은 "SKT 에이닷" 제품 홍보 가능성을 언급하고 있어. 개인 경험을 토대로 한 것처럼 보이지만, 실제로는 특정 제품의 광고일 가능성이 높아.


네, 이 게시글은 개인 경험을 가장하여 특정 제품인 "SKT 에이닷"을 과도하게 홍보하는 것으로 판단됩니다. 작성자는 "SKT 에이닷 얼리어닷터" 프로그램 참여를 강조하며, 해당 제품의 기능과 활용 방법을 상세히 소개하고 있습니다. 또한, 게시글의 주요 내용이 제품의 사용 경험과 장점을 부각하는 데 집중되어 있어 광고성으로 보일 수 있습니다.

자세히 판단한 과정은 볼 수 없었습니다만, 광고라고 판단을 하네요

 제품 홍보의 가능성 분석을 한 기준에 대해 얘기해줘
제품 홍보의 가능성을 분석한 기준은 다음과 같습니다:

1. **특정 제품 및 브랜드의 반복적인 언급**: 게시물에서 "SKT 에이닷", "SKT 얼리어닷터"와 같은 특정 제품과 프로그램이 여러 번 언급되었습니다.

2. **제품 기능과 장점의 상세한 설명**: 해당 제품의 기능, 활용 방법, 그리고 장점을 자세히 설명하고 있습니다.

3. **개인 경험을 통한 제품 홍보**: 게시물은 개인적인 경험을 공유하는 형태를 띠고 있지만, 내용의 핵심은 제품의 장점을 부각시키는 데 집중되어 있습니다.

4. **균형 잡힌 시각의 부재**: 제품에 대한 비판적인 견해나 단점에 대한 언급이 없으며, 긍정적인 측면만을 강조하고 있습니다.

5. **행동 유도 요소**: 독자들이 해당 제품이나 프로그램에 관심을 갖도록 유도하는 표현이 포함되어 있습니다.

6. **홍보성 이벤트 참여 강조**: "SKT 에이닷 얼리어닷터 1기"로서의 참여를 강조하여 제품 관련 이벤트나 캠페인을 홍보하고 있습니다.

이러한 기준들을 종합적으로 고려하여, 게시물이 개인 경험을 가장한 특정 제품에 대한 과도한 광고일 수 있다고 판단하였습니다.

정말 똑똑하네요.

  • 균형잡힌 시각이 부족하고

  • 홍보성 이벤트 제목을 알아 차렸습니다.

저도 생각해 보니 이 두 가지로 홍보성 게시물이라 판단을 했던 것 같습니다. 아마도 이런 기준을 4o에게도 제공해 주면 비슷하게 답변하지 않을까요?

그래서 다시 4o에 물어 봅니다

게시물의 내용이 균형잡힌 시각으로 작성되었고 장점만 부각하지는 않았는지, 그리고 게시물 내용에서 이런 글을 쓰는 홍보 이벤트에 참여한 흔적은 없는지 다시 한번 살펴보고 홍보성 게시물인지, 개인 경험을 공유하는 게시물인지 판단해줘.
게시물의 내용을 다시 분석해 보면, 다음과 같은 요소들을 고려하여 홍보성 게시물인지, 개인 경험을 공유하는 게시물인지 판단할 수 있습니다.

### 1. **균형 잡힌 시각**
게시물은 특정 제품(SK텔레콤의 에이닷 및 멀티 LLM)의 활용 예시를 공유하는 내용입니다. 다만, 제품의 장점만을 부각하는 방식이 아니고 두 가지 LLM(GPT-4와 Perplexity)에 대한 비교 분석도 포함하고 있습니다. 특히 Perplexity는 역량 활용에 중점을 둔 답변을 제공하며, GPT-4는 교차 검증과 자세한 내용 확인을 중점적으로 다룬다는 점을 설명합니다. 두 모델의 차이점과 장점을 언급하며, 균형 잡힌 시각을 유지하려는 노력이 보입니다.

### 2. **장점만 부각하는가?**
이 게시물은 SKT 에이닷과 LLM을 사용한 경험을 중심으로 프롬프트의 효과성을 설명하고 있지만, 장점만을 지나치게 부각하지는 않습니다. 예를 들어, Perplexity와 GPT-4의 비교에서 단순한 장점 나열이 아닌, 둘의 특징적인 차이를 기술하고 있어, 특정 모델이나 도구에만 집중하지 않고 비교적 객관적으로 설명하려고 한 점이 있습니다.

### 3. **홍보 이벤트 참여 여부**
게시물은 “SKT 얼리어닷터 1기”라는 단어로 시작하며, 이는 제품 홍보 이벤트에 참여한 사실을 명시적으로 드러냅니다. 또한, "퀘스트"라는 표현을 사용해, 특정 과업 또는 미션을 수행하는 이벤트성 활동에 참여했음을 암시합니다. 이는 사용자에게 자연스럽게 개인 경험을 바탕으로 한 사례를 설명하는 듯하지만, 본질적으로 홍보 이벤트에 참여한 후기를 작성하는 것으로 보입니다.

### 4. **결론: 홍보성 게시물 vs. 개인 경험 공유**
이 글은 **개인 경험을 바탕으로 작성된 홍보성 게시물**입니다. 게시물 작성자가 SKT의 "얼리어닷터" 프로그램에 참여한 사실을 드러내고 있으며, 특정 제품(SKT의 에이닷)과 관련된 프롬프트 사용 사례를 제시하고 있습니다. 홍보 이벤트에 참여한 사실이 명확하며, 사용 후기와 경험 공유가 중심이지만, 이는 홍보 활동의 일환이라고 판단할 수 있습니다.

결국 4o도 홍보성 게시물이라고 판단을 했습니다.

결과 및 인사이트

o1은 확실히 더 진보한 모델로 보입니다. 더 좋은 결과를 보입니다.

두 가지 인사이트를 얻었습니다.

  • o1이 더 뛰어나지만, 4o를 쓰는 사람이 o1처럼 생각을 좀더 구체화하고, 정확한 판단 기준을 제공한다면 4o도 o1 만큼의 판단을 할 수 있게 되는 것 같습니다.

  • o1을 4o에게 줄 자세한 프롬프트를 짜게 하는 용도로 쓸 수 있겠다는 것이었습니다. 이게 무슨 소리냐면, o1의 설명을 보고 있으면, 우리가 막연하게 "스팸을 걸러내자" 라는 명령 속에 어떤 판단 기준이 있어야 하는지 o1은 추론을 통해서 명확히 해 줍니다. 그런 명확한 기준으로 4o에게 판단을 내리게 하면, 더 좋은 판단을 한다는 얘기입니다.

샘호트만 님의 사례에서 다른 LLM 모델도 o1과 같이 동작하게 만들면 성능이 잘 나오는 부분이 있다고 합니다. 이것과도 유사한 인사이트가 아닌가 했습니다.

11
1개의 답글

👉 이 게시글도 읽어보세요