구요한
구요한
🎖️ 마스터 파트너

커맨드스페이스 지식관리체계 평가 Part 1. GPT, Claude, Gemini에게 내 자료 평가 맡기기

배경 및 목적

사람이 만든 논리 구조를 얼마나 잘 평가할 수 있을까? 한번 시켜보자.

<커맨드스페이스 구요한의 옵시디언 그래프뷰>

  • 커맨드스페이스 는 생성형 AI와 개인지식관리와 관련된 연구, 프로젝트, 강의를 하는 회사임

  • 기본적으로 공공재처럼 퍼져있는 구요한의 옵시디언 지식관리체계 세팅에 대한 평가를 맡겨보고 싶었음

  • 근데 한 친구 말만 듣기는 그러니까 다 시켜보자

참고 자료

  • 개인지식관리 체계 구축을 위해 만들어놓은 자료들이 많았다

  • 그 중에서도 목차와 내 지식관리체계를 사용하기 위한 사용 가이드 문서가 적절할 것으로 판단

  • 평가에 사용된 원본 지식관리체계

활용 툴

  • 평가에 사용된 언어모델

    • OpenAI

      • ChatGPT o1-preview

      • ChatGPT o1-mini

      • ChatGPT 4o

      • GPT-40 mini

    • Anthropic

      • Claude 3.5 Sonnet

    • Google

      • Gemini 1.5 Pro

      • Gemini 1.5 Pro (API) #추후기술

실행 과정

  • 우선 내가 어떤 목적으로 프롬프트를 시작하는지 명시해야하니 상세히 작성

  • 프롬프트의 구조는 2개의 큰 틀로 구성됨

  • 중요한 포인트

    • 전체 구조와 내용을 파악할 것

    • 구체적인 평가와 상세한 피드백을 줄 것

아래는 내가 만든 나만의 지식체계야. 내 관심사와, 내가 관리하고 싶은 지식의 분야와 형태가 표현되어 있어. MOC는 목차와 같이 사용할거야. 옵시디언에서의 [[마크다운 링크]] 를 통해 노트를 연결하고 목차 처럼 쓸거야. 전체 구조와 내용들을 파악하고 구체적인 평가와 상세한 피드백 부탁해.

(CMDS 목차 구조 첨부)
- CMDS(상세 구조)
- CMDS Process
  • 두 번째 구조에서는 지식관리체계를 사용하기 위한 설명서(guideline)를 첨부하며 설명을 덧붙임

  • 단순히 지식관리구조만 넣었다면 평가 성능이 올라가지 않을 것으로 예상하고 상세 가이드 내용을 넣어주었음

아래의 내용은 내가 옵시디언에서의 지식관리를 수행하기 위해 만든 가이드라인이야. 노트의 연결 뿐만아니라 태그, 그래프, 필터, 파일명 등 다양한 지식의 연결을 통한 Organizing dimensions 관리를 담아냈어. 이것도 함께 평가와 피드백 부탁해.

(CMDS Guide 첨부)
- 목차 구조, 파일명 규칙, 메타데이터 등 다양한 항목 정리 

결과 및 인사이트

자, 이제 결과를 살펴보자

평가 시작! (ft. ChatGPT o1-preview)

  • 처음으로 돌렸던 것이 o1이었는데

  • 음 이친구 어느 정도 디테일한 내용도 잘 파악한다는 것을 느낌

  • 사실 목차를 평가하는 것을 메인으로 생각했었는데 목차와 가이드를 20:80 정도로 보아줬다고 느껴짐

  • 엄밀히 말하면 목차는 컨텐츠이고 가이드에 구조와 철학이 담겨있으니 그게 더 맞는 것일까?

검은색 텍스트가 있는 검은색 화면
  • 나에게 15초만 할애했다는 것에 안타까움을 금할 수 없었지만..

  • 그래도 맥락에 대한 이해는 참 잘한다고 생각됨

점수를 매겨달라고 할 수 있지 않을까?

  • 이쯤해서 문득 들었던 생각은, 이걸 정량지표로 받아보면 어떨까?

  • 바로 실행에 들어가자

  • 평가에서 중요한 것은 평가 루브릭. 프롬프트에 바로 반영한다

평가 기준을 만들고 구조화한 다음 내 체계를 평가해줘. 점수와 피드백 내용 함께 포함시켜줘.
  • o1의 추론 기능은 GPT가 어떤 방식으로 논리를 전개하는지를 보여주기 때문에 매우 유용하다

  • 참고로 o1의 기준은 매우 상세했으며 적절했다

o1-preview 모델이 만들어준 평가 기준표

친구야, 그래서 내 점수는요?

  • 5점을 준 항목들은 매우 감사했으며, 4점을 준 내용과 피드백은 동의할 만한 내용이었음

  • 인상적이었던 것은 내가 언급만 하고 상세 내용을 기술하지 않은 ChatGPT 자동화 등의 항목을 3점으로 평가했다는 것

  • 그리고 실제 지식관리체계 설계 단계에서 고민하고 생각을 남겨놨던 것들이 피드백으로 나와서 놀라웠다

  • 그래서 총점은?

    • 86점.

    • 이 단호한 자식

단어 목록이 표시된 검은색 화면의 스크린샷

결론

  • 사람이 만든 지식구조를 언어 모델이 평가한다는 것이 재미있었다

  • 실제로 고민을 많이 하고 만들었던 체계인데 이친구가 나름 그 고민의 흔적을 알아주는 것 같다랄까?

  • 감점을 하고 피드백을 준 항목들은 고민해볼 필요가 있는 유의미한 피드백이었다

  • o1 좀 하네

  • 그럼 다른 모델들은?

(다른 모델들의 평가 결과는 후속편에서 계속)

5

👉 이 게시글도 읽어보세요