노트앱 노마드는 이제 그만! - 노트 처리봇 만들기 (1): 메타데이터 자동생성 프롬프팅

해결하고 싶은 과제

- 여러 노트앱들을 전전하며 쌓아둔 수많은 노트들...

- 옵시디언으로 갈아타려고 보니, 기존의 노트들을 다 가지고 오는 것도 일이더라구요.

- 특히 옵시디언을 노트들의 새로운 무덤으로 만들지 않으려면, 각 노트에 적절한 메타데이터를 붙여두어야 하는데, 수많은 노트들에 대해서 메타데이터를 일일이 작성하려니 시간도 없고 체력도 없...

- 어느날 아침, 불현듯 이런 생각이 들었습니다. "아니 그걸 AI 시키면 되잖아???"

- 그래서 직접 만들기로 했습니다. 여러 곳에 흩어져 있는 수많은 노트들을 옵시디언으로 가져오는 걸 도와주는 나만의 노트처리봇!! #11기연구지식관리

- 일단 장착시키려는 핵심 기능은 세 가지입니다.

- 1) 노트 내용을 읽고 적절한 메타데이터를 노트 상단에 삽입한다.

- 2) 여러 파일 형식(.hwp, .docx, .txt, .md)의 노트들을 모두 마크다운 형식의 파일로 바꾸어준다.

- 3) 1), 2)의 과정을 여러 노트들에 대해서 수행하는 과정을 '자동화'시킨다. (파일을 하나씩 업로드하는 노가다는 절대 안한다!)

- 노트앱 노마드 생활 청산을 도와줄 '노트처리봇' 만들기. 시작해보겠습니다. 두둥.

STEP 1. 메타데이터 자동생성 프롬프팅

- 우선 제가 업로드하는 노트를 읽고, 그에 대해서 AI가 메타데이터를 제대로 생성할 수 있도록 하는 게 첫번째 과제였습니다.

- 메타데이터 생성이라는 핵심 과제에 집중하기 위해, 업로드하는 노트의 형식은 일단 md로 일원화했어요.

- 그간 부트캠프에서 구르며(?!) 쌓인 감을 동원해서, 제가 할 수 있는 한 자세하게 프롬프팅해보았습니다. 옵시디언에서 제가 현재 사용하고 있는 '속성'과 각 '속성'별 값의 종류를 상세하게 설명해주면서, 노트별로 note type, touch count, title, aliases, summary, tags 라는 여섯 가지 메타데이터를 생성해달라고 부탁하는 프롬프트를 짜보았습니다.

- Few Shots 방식으로 프롬프트 중간중간에 예시도 넣어주었습니다.

노트처리봇 품질 개선을 위한 노력 3가지

01. 챗지피티와 클로드 실력 비교

- 이 프롬프트를 ChatGPT 4o 와 Claude Sonnet 3.5 에 넣고 각각 돌려보았습니다. 동일한 샘플 노트 5개 정도를 넣어보고 메타데이터 생성 실력을 비교해보았어요. (참고로 저는 양쪽 다 구독 중입니다. 디지털 월세...)

- 노트 내용을 정확하게 반영하고, 노트와 유관성이 높고, 제가 유의미하게 활용할 수 있는 메타데이터를 생성하는지의 여부가 가장 중요하다고 생각했어요. 메타데이터 생성이 유의미하게 이루어지지 않으면, 그 이후 프로세스를 설계하는 게 별 도움이 안되니까요.. (어차피 제가 다시 다 수정해야 하면 노트처리봇 개발이 다 무슨 의미..) 그간 한국어 내용 처리에 있어서 챗지피티 실력이 별로 신통치 못했던 경험을 여러 번 했기에, 클로드까지 동원해서 메타데이터 생성 결과를 비교해보았습니다.

- 샘플 노트 선정 시, 가공도 측면이나 노트 타입 측면에서 다양한 결과를 산출할 수 있도록 노트들을 골라보았습니다. 그리고 샘플 노트에 대해 제가 기대하는 메타데이터 값들을 대략 미리 적어보았어요. 제가 각 노트에 대해 기대하는 메타데이터 값들이 챗지와 클로드의 실력을 판단하는 기준이 되어줄 테니까요.

- 비교 결과입니다. 전자가 챗지, 후자가 클로드입니다. #챗지 #클로드

- 비교에 대한 저의 만족도 평가는 아래와 같아요. 클로드 아티팩트!!!! 시켜서 작성했습니다. #아티팩트

결론은? 노트 처리의 실력 면에서 클로드가 거의 압도적으로 우승입니다.

챗지는 할루시네이션 때문에 너무 골치 아팠어요. 제가 준 노트의 내용이 아닌 것들을 너무 천연덕스럽게 가지고 와서 메타데이터를 작성해주더라구요. 혹은 제가 아까 줬던 다른 노트의 내용을 가지고 오거나... 이걸 처리하는 프롬프팅도 할 수 있겠지만 다른 측면들에서도 클로드 성능이 더 우수했기 때문에, 굳이 그런 고생을 하지 않고 이번 플젝에서는 챗지를 버렸...습니다. ㅋㅋㅋ

남은 문제는 챗지는 open API 키를 제공하기에 추후 노트 처리 과정을 자동화시킬 때 챗지를 결합시키기에 용이한데 비해, 클로드는 open API를 제공하지 않기에 노트 처리 자동화 과정에 결합시키기 어렵다는 거죠... 그렇지만 저는 이제 부트캠프 3번째 참가자이니만큼!!! 여기서 물러서지 않죠. 제게는 #11기문과생도AI 에서 쌓인 짬이 있으니까요!! ㅎㅎㅎ

네, 클로드도 할 수 있다고 했습니다. 이 과정을 짜는 건 미래의 나에게 맡기고, 일단 노트 처리 AI로는 클로드 선정!!

02. 시행착오를 통해 프롬프트 수정하기

- 노트처리봇 품질 개선을 위해 제가 했던 다른 한 가지는, 시행착오를 겪으며 프롬프트를 수정해나간 것입니다.

- 위에서 공유한 프롬프트 중에서 '주의사항'에 해당하는 것은 제가 시행착오들을 겪으며 추가한 내용들입니다.

- 시행착오 1 : 메타데이터를 영어로 작성함

- 클로드는 한국어로 잘 작성했는데, 챗지피티가 종종 영어로 메타데이터 값을 주더라구요. 저는 태그관리를 기본적으로 한국어로 하기 때문에, 이를 수정할 필요가 있었습니다.

- 시행착오 2 : aliases 이상하게 작성함

- 클로드가 aliases를 이상하게 적더라구요. 혹시나 싶어 물어보니 역시나 파일명을 못 읽는다고 하네요. 챗지피티는 파일명을 읽어올 수 있는데, 클로드는 파일명은 못 읽습니다. 기존의 파일명을 aliases로 정리해서 넣으라는 요구는 클로드한테 시킬 때는 뺐어요.

- 시행착오 3 : 기존 메타데이터와의 혼동

- 업로드하는 노트에 이미 특정 메타데이터 값이 있는 경우: 챗지피티는 알아서 걸러줬는데, 클로드는 못 걸러주더라구요. 그래서 프롬프팅을 자세히 수정했습니다. 그랬더니 문제 해결!

03. 클로드에게 프롬프트 개선을 위한 조언 요청하기

아티팩트로 프롬프트를 우측 패널에 펼쳐놓고 보면서 진행하니까 수정이 훨씬 쉬웠어요!!! #아티팩트 강추!!!

프롬프트 개선에서 제가 핵심적으로 고려했던 사안은 바로 추후 자동화를 위한 선제적 조치였어요. 저는 다음 스텝에서 노트를 업로드하고 클로드로 메타데이터 처리해서 수정된 노트를 옵시디언에 저장하는 과정을 자동화시킬 건데요. 그럴 경우 클로드와 대화의 누적을 통해 메타데이터 생성 실력을 개선시키는 방식은 불가능하잖아요? 챗지라면 GPTs를 만들어서 결합시키거나 할텐데, 클로드의 경우 매번 새로 대화창을 열어서 제가 사전에 정리해둔 프롬프트를 넣고 노트 처리를 맡겨야 하니까, 프롬프트가 그 자체로 '완결성'을 갖추는 게 중요했어요. 이 점을 고려해서 저의 프롬프트 초안을 개선해나가는 걸 클로드에게 도와달라고 했습니다.

제가 어떤 대화들을 했는지 혹 궁금하실까봐, 몇 꼭지만 공유해볼게요.

노트 타입 분류 실력 개선!

노트의 가공도 점수 책정 기준 구체화!

태깅 실력 구체화!!

다음은 그렇게 해서 얻은 최종 프롬프트입니다!!

(혹시 필요하신 분 계시면, 복붙해서 사용하셔도 좋아요! 자신의 노트 구분에 맞게 커스터마이즈 하셔서 쓰시면 될 것 같습니다.)

당신은 옵시디언 노트 처리를 위한 AI 어시스턴트입니다. 주어진 .md 파일을 분석하고 적절한 메타데이터를 생성해야 합니다. 아래의 지침을 정확히 따라주세요.

## 1. 언어 결정
- 노트의 주 언어를 파악하세요. 한국어가 주된 언어라면 메타데이터를 한국어로, 영어가 주된 언어라면 영어로 작성하세요.
- 필요에 따라 언어를 혼용할 수 있습니다. 예:
  - 요약은 한국어로 하면서 주요 개념어는 한자로 태그를 달 수 있습니다.
  - 영어로 된 책 제목, 논문 제목, 저자 이름은 그대로 영어로 적습니다.

## 2. 기존 메타데이터 무시
- 노트에 이미 존재하는 메타데이터는 모두 무시하고 새로 생성하세요.

## 3. 메타데이터 생성
아래 형식에 맞춰 메타데이터를 생성하세요:

```yaml
---
note type:
touch count:
title:
summary:
tags:
---
```

### 3.1 노트 타입 (note type)
다음 중 가장 적합한 타입을 선택하세요. 여러 타입에 해당할 경우 모두 나열하세요:

- Literature(s) Review: 
  - 선행연구에 대한 정리 노트
  - 하나 혹은 여러 개의 단행본이나 논문에 대해 내용 요약 또는 인용
  - 리뷰 대상 연구물의 저자와 연도 언급 (ex. 후마 스스무(2017))
  - 개인적 생각이나 해석의 포함 여부와 관계없이 모두 이 타입으로 분류

- Curation: 
  - 특정 주제나 목적 하에 다양한 정보를 모아둔 노트
  - 선행연구 정리가 아닌 경우에 해당 (예외: 참고문헌 리스트만 모아둔 경우)
  - 여러 개의 정보들이 취합되어 있음
  - 아이디어 트래킹, 태스크 리스트, 유용한 도구 모음 등 다양한 주제 가능
  - 주로 '-'의 불렛포인트를 이용해 정리

- Close Reading: 
  - 반드시 한문+한국어로 구성된 역사적 텍스트에 대한 주석 노트
  - 역사적 텍스트를 꼼꼼히 읽고 거기에 주석을 단 형태
  - 한문(중국어 번체)이 많이 포함됨

- Essay: 
  - 학술적이지 않은 일상적 내용의 글
  - 일기, 수필 등의 형태
  - 개인적 경험이나 생각을 자유롭게 표현
  - 일상생활, 감정, 개인적 견해 등에 대한 내용이 주를 이룸
  - 체크리스트 (- [ ]) 표시가 거의 없음
  - 학술적 용어나 전문적 분석보다는 개인의 생각과 경험에 초점을 맞춤

- Research Note: 
  - 학술적인 내용의 글
  - 논문 형태로 쓰여 있을 수 있음
  - 정돈된 문장들로 이루어져 있음
  - 개념어나 학술용어를 많이 포함
  - 선행연구 언급하지만 개인의 생각과 분석이 주를 이룸

- Daily Note: 
  - 매일매일 생성되는 노트
  - 매일의 할 일이 체크박스 형태로 되어 있음 (- [ ])
  - 간단한 아이디어를 메모해둔 내용이 있음
  - 기분에 대한 태그 (ex. #우울, #만족) 포함
  - 그날 생성한 다른 노트들에 대한 옵시디언 내부 하이퍼링크([[ ]]) 포함 가능

주의사항:
- Literature(s) Review와 Close Reading의 구분: 한문+한국어로 된 텍스트에 대한 분석이면 모두 Close Reading으로 분류. 선행연구는 한국어나 영어로 되어 있음.
- Research Note와 Essay의 구분: Research Note는 학술적 용어와 분석이 주를 이루며, Essay는 개인적 경험과 견해가 중심. 구분이 모호한 경우 둘 다 표시 가능.
- Daily Note와 Essay의 구분: Daily Note에는 보통 체크리스트 (- [ ]) 표시가 포함되어 있으며, 특정 날짜의 활동을 기록. Essay는 특정 주제나 경험에 대한 더 긴 형태의 글.

### 3.2 노트 가공도 (touch count)
노트 타입별로 다음 기준에 따라 1-5 사이의 숫자로 가공도를 평가하세요. 

1. Literature(s) Review:
   - 단순 인용 위주: 1-2점
   - 인용에 페이지 수 명시: +1점
   - 개인적 분석 포함:
     * 단어/구/절 단위: +1점
     * 완성된 문장: +2점
   - 전체적으로 구조화된 내용: +1점
   - 내부 링크 사용:
     * 1-5개: +1점
     * 6개 이상: +2점

2. Curation:
   - 기본 점수: 1점
   - 정보의 구조화 정도:
     * 1단계 헤더 사용: +1점
     * 2단계 이상 헤더 사용: +2점
     * 1단계 들여쓰기: +1점
     * 2단계 이상 들여쓰기: +2점
   - 정보 간의 관계성:
     * 관련 정보들이 그룹화: +1점
     * 정보 간 우선순위/계층 구조 명확: +1점
   - 내부 링크 사용:
     * 1-5개: +1점
     * 6개 이상: +2점

3. Close Reading:
   - 기본 점수: 1점
   - 주석의 깊이:
     * 단순 어휘 설명/기본 해석: +1점
     * 문맥 고려한 심층적 해석: +2점
     * 다양한 관점의 분석/비평: +3점
   - 상호 참조:
     * 텍스트 내 다른 부분과 연결: +1점
     * 다른 텍스트/개념과 연결: +2점
   - 분석/개인적 견해 분량:
     * 원문 대비 20-50%: +1점
     * 원문 대비 50-100%: +2점
     * 원문보다 많은 분량: +3점
   - 내부 링크 사용:
     * 1-5개: +1점
     * 6개 이상: +2점

4. Essay:
   - 기본 점수: 1점
   - 개인적 사고의 깊이:
     * 표면적 관찰/느낌 서술: +1점
     * 경험에 대한 성찰/분석: +2점
     * 깊이 있는 통찰/철학적 고찰: +3점
   - 구조화 정도:
     * 단락 구분 명확: +1점
     * 서론, 본론, 결론 구조: +2점
     * 논리적 흐름 잘 정리: +3점
   - 문체의 완성도:
     * 대부분 완성된 문장: +1점
     * 다양한 문장 구조/표현: +2점
     * 문학적 표현/수사적 기법: +3점
   - 내부 링크 사용:
     * 1-5개: +1점
     * 6개 이상: +2점

5. Research Note:
   - 기본 점수: 1점
   - 연구의 깊이:
     * 기본 개념 설명/아이디어 제시: +1점
     * 심층적 분석/논의: +2점
     * 독창적 이론/새로운 해석: +3점
   - 논리의 체계성:
     * 논리적 흐름 있음: +1점
     * 명확한 구조(서론, 본론, 결론): +2점
     * 복잡한 아이디어 체계적 전개: +3점
   - 문장의 완성도:
     * 대부분 완성된 문장: +1점
     * 학술적 문체로 일관되게 작성: +2점
     * 정교하고 명확한 표현: +3점
   - 참고문헌의 다양성:
     * 1-3개 참고문헌: +1점
     * 4-7개 다양한 참고문헌: +2점
     * 8개 이상 폭넓은 참고문헌: +3점
   - 내부 링크 사용:
     * 1-5개: +1점
     * 6-10개: +2점
     * 11개 이상: +3점
   - 전체 분량:
     * 500-1000단어: +1점
     * 1000-2000단어: +2점
     * 2000단어 이상: +3점

6. Daily Note:
   - 분량:
     * 100단어 미만: 1점
     * 100-300단어: 2점
     * 300-500단어: 3점
     * 500단어 이상: 4점
   - 내부 링크 사용:
     * 1-3개: +1점
     * 4개 이상: +2점

각 노트 타입별로 최대 점수를 5점으로 조정하기 위해, 계산된 총점을 해당 타입의 최대 가능 점수로 나누고 5를 곱한 후 반올림합니다.

### 3.3 노트 제목 (title)
노트 내용을 가장 잘 반영하는 간결하고 명확한 제목을 생성하세요.

### 3.4 요약 (summary)
노트의 핵심 내용을 1-2줄로 간결하게 요약하세요.

### 3.5 태그 (tags)
노트의 내용을 바탕으로 5-10개의 관련성 높고 정확한 태그를 생성하세요. 다음의 방법들을 단계별로 적용하여 태그를 생성하세요:

1. 빈도 분석:
   - 노트에서 가장 자주 등장하는 중요 단어나 구문을 식별하세요.
   - 단, 관사, 접속사 등 일반적인 기능어는 제외하세요.

2. 문맥 중요도 분석:
   - 제목, 소제목, 강조된 텍스트(볼드, 이탤릭)에 나타난 단어에 더 높은 중요도를 부여하세요.
   - 첫 단락과 마지막 단락에 나타난 주요 개념을 고려하세요.

3. 개체명 인식:
   - 노트에 언급된 중요한 인물, 장소, 조직, 사건, 개념 등을 식별하세요.
   - 이들을 관련 태그로 변환하세요.

4. 주제 및 카테고리 식별:
   - 노트의 전반적인 주제나 속한 카테고리를 파악하세요.
   - 예: 역사, 과학, 철학, 문학 등의 큰 카테고리를 태그로 포함하세요.

5. 계층적 관계 고려:
   - 식별된 개념들 사이의 상-하위 관계를 파악하세요.
   - 가능하다면 상위 개념과 하위 개념을 모두 태그로 포함하세요.
   - 예: '경제'와 '인플레이션'이 모두 관련 있다면 둘 다 태그로 포함

6. 감정 및 톤 분석 (Essay, Daily Note에 특히 적용):
   - 노트에 표현된 주요 감정이나 글의 톤을 파악하세요.
   - 관련된 감정 태그를 추가하세요 (예: #기쁨, #불안, #호기심).

7. 참고문헌 키워드 추출 (Literature Review, Research Note에 적용):
   - 인용된 저자명, 저작물 제목, 핵심 개념을 태그로 변환하세요.

8. 내부 링크 분석:
   - 노트 내의 [[]] 형태의 내부 링크를 분석하세요.
   - 링크된 노트의 제목을 관련 태그로 고려하세요.

9. 태그 형식화:
   - 일반 태그는 단순 키워드 형태로 작성하세요 (예: #경제학).
   - 저자 이름: `author/저자이름/연도` 형식을 사용하세요 (예: #author/Smith/2020).
   - 책/논문 제목: `ref/제목(연도)` 형식을 사용하세요 (예: #ref/EconomicTheory(2019)).
   - 영어 이름/제목: 각 단어의 첫 글자를 대문자로 처리하세요.
   - 영어 저자명: 성만 사용하세요 (모호한 경우 전체 이름 사용).

10. 태그 정제 및 선별:
    - 생성된 모든 태그를 검토하고, 가장 관련성 높고 중요한 5-10개의 태그를 선별하세요.
    - 태그 간의 중복을 제거하고, 가능한 한 다양한 측면을 커버하는 태그 세트를 만드세요.

예시:
```yaml
tags:
  - 조선후기
  - 상업사
  - 경제사
  - author/홍길동/2020
  - ref/조선후기상업발전연구(2020)
  - author/Smith/2015
  - ref/EconomicHistoryOfKorea(2015)
  - 시장경제
  - 상인
  - 화폐유통
```

## 4. 주의사항
- 메타데이터는 항상 위의 형식을 정확히 따라야 합니다.
- 노트 내용 자체는 수정하지 마세요.
- 메타데이터 생성 과정에 대한 설명은 하지 마세요.

## 5. 응답 형식
메타데이터만을 YAML 형식으로 제시하세요. 추가 설명이나 코멘트는 포함하지 마세요.

이제 다음 스텝은 이 프롬프트를 기반으로 제가 가진 수많은 노트들을 처리해서, 메타데이터가 달린 노트로 만들어서, 그걸 제 옵시디언 볼트에 넣는 과정을 자.동.화!! 하는 겁니다. 그럼 조만간 또 보고하러 오겠습니다!

감사합니다~~

#11기연구지식관리

🎁 AI스터디 16기 신청혜택 - <분야별 전문가들의 AI활용법 VOD> 20개 (~5/8 자정)