커맨드스페이스 지식관리체계 평가 Part 1. GPT, Claude, Gemini에게 내 자료 평가 맡기기

배경 및 목적

사람이 만든 논리 구조를 얼마나 잘 평가할 수 있을까? 한번 시켜보자.

<커맨드스페이스 구요한의 옵시디언 그래프뷰>

커맨드스페이스 는 생성형 AI와 개인지식관리와 관련된 연구, 프로젝트, 강의를 하는 회사임
기본적으로 공공재처럼 퍼져있는 구요한의 옵시디언 지식관리체계 세팅에 대한 평가를 맡겨보고 싶었음
근데 한 친구 말만 듣기는 그러니까 다 시켜보자

참고 자료

개인지식관리 체계 구축을 위해 만들어놓은 자료들이 많았다
그 중에서도 목차와 내 지식관리체계를 사용하기 위한 사용 가이드 문서가 적절할 것으로 판단
평가에 사용된 원본 지식관리체계
- CMDS 목차 구조
- CMDS Guide

활용 툴

평가에 사용된 언어모델
- OpenAI
  - ChatGPT o1-preview
  - ChatGPT o1-mini
  - ChatGPT 4o
  - GPT-40 mini
- Anthropic
  - Claude 3.5 Sonnet
- Google
  - Gemini 1.5 Pro
  - Gemini 1.5 Pro (API) #추후기술

실행 과정

우선 내가 어떤 목적으로 프롬프트를 시작하는지 명시해야하니 상세히 작성
프롬프트의 구조는 2개의 큰 틀로 구성됨
중요한 포인트
- 전체 구조와 내용을 파악할 것
- 구체적인 평가와 상세한 피드백을 줄 것

아래는 내가 만든 나만의 지식체계야. 내 관심사와, 내가 관리하고 싶은 지식의 분야와 형태가 표현되어 있어. MOC는 목차와 같이 사용할거야. 옵시디언에서의 [[마크다운 링크]] 를 통해 노트를 연결하고 목차 처럼 쓸거야. 전체 구조와 내용들을 파악하고 구체적인 평가와 상세한 피드백 부탁해.

(CMDS 목차 구조 첨부)
- CMDS(상세 구조)
- CMDS Process

두 번째 구조에서는 지식관리체계를 사용하기 위한 설명서(guideline)를 첨부하며 설명을 덧붙임
단순히 지식관리구조만 넣었다면 평가 성능이 올라가지 않을 것으로 예상하고 상세 가이드 내용을 넣어주었음

아래의 내용은 내가 옵시디언에서의 지식관리를 수행하기 위해 만든 가이드라인이야. 노트의 연결 뿐만아니라 태그, 그래프, 필터, 파일명 등 다양한 지식의 연결을 통한 Organizing dimensions 관리를 담아냈어. 이것도 함께 평가와 피드백 부탁해.

(CMDS Guide 첨부)
- 목차 구조, 파일명 규칙, 메타데이터 등 다양한 항목 정리

결과 및 인사이트

자, 이제 결과를 살펴보자

평가 시작! (ft. ChatGPT o1-preview)

처음으로 돌렸던 것이 o1이었는데
음 이친구 어느 정도 디테일한 내용도 잘 파악한다는 것을 느낌
사실 목차를 평가하는 것을 메인으로 생각했었는데 목차와 가이드를 20:80 정도로 보아줬다고 느껴짐
엄밀히 말하면 목차는 컨텐츠이고 가이드에 구조와 철학이 담겨있으니 그게 더 맞는 것일까?

나에게 15초만 할애했다는 것에 안타까움을 금할 수 없었지만..
그래도 맥락에 대한 이해는 참 잘한다고 생각됨

점수를 매겨달라고 할 수 있지 않을까?

이쯤해서 문득 들었던 생각은, 이걸 정량지표로 받아보면 어떨까?
바로 실행에 들어가자
평가에서 중요한 것은 평가 루브릭. 프롬프트에 바로 반영한다

평가 기준을 만들고 구조화한 다음 내 체계를 평가해줘. 점수와 피드백 내용 함께 포함시켜줘.

o1의 추론 기능은 GPT가 어떤 방식으로 논리를 전개하는지를 보여주기 때문에 매우 유용하다
참고로 o1의 기준은 매우 상세했으며 적절했다

o1-preview 모델이 만들어준 평가 기준표

친구야, 그래서 내 점수는요?

5점을 준 항목들은 매우 감사했으며, 4점을 준 내용과 피드백은 동의할 만한 내용이었음
인상적이었던 것은 내가 언급만 하고 상세 내용을 기술하지 않은 ChatGPT 자동화 등의 항목을 3점으로 평가했다는 것
그리고 실제 지식관리체계 설계 단계에서 고민하고 생각을 남겨놨던 것들이 피드백으로 나와서 놀라웠다
그래서 총점은?
- 86점.
- 이 단호한 자식

결론

사람이 만든 지식구조를 언어 모델이 평가한다는 것이 재미있었다
실제로 고민을 많이 하고 만들었던 체계인데 이친구가 나름 그 고민의 흔적을 알아주는 것 같다랄까?
감점을 하고 피드백을 준 항목들은 고민해볼 필요가 있는 유의미한 피드백이었다
o1 좀 하네
그럼 다른 모델들은?

(다른 모델들의 평가 결과는 후속편에서 계속)

⏰ AI스터디 17기 사전 모집 START (7월 시작 예정) | 빠르게 합류하세요 🚀

커맨드스페이스 지식관리체계 평가 Part 1. GPT, Claude, Gemini에게 내 자료 평가 맡기기

배경 및 목적

참고 자료

활용 툴

실행 과정

결과 및 인사이트

평가 시작! (ft. ChatGPT o1-preview)

점수를 매겨달라고 할 수 있지 않을까?

o1-preview 모델이 만들어준 평가 기준표

친구야, 그래서 내 점수는요?

결론

👉 이 게시글도 읽어보세요