지피터스 게시판 텍스트 분석 - 옵시디언 사용 양상

소개

옵시디언 게시판에서 옵시디언의 사용 양상을 알고 싶었다. 그래서 지피터스 게시판에서 '옵시디언' 키워드 검색결과를 크롤링 (제목과 본문)한 결과를 엑셀에 저장한 후, 다음 내용을 프롬프팅하였다.

  1. 사용툴 컬럼을 만들고, 옵시디언과 함께 사용한 모든 툴을 나열

  2. 용도 - 옵시디언을 어떤 용도로 사용하려 했는지 1-2개로 정리

  3. 어려운 점 - 옵시디언을 사용하면서 시간이 많이 걸리거나 어떻게 해야 할지 헤메인 점 요약

진행 방법

사용 도구 : Gemini API, 클로드, Cursor

준비 사항 : 이전에 '옵시디언' 검색 후 크롤링 했던 본문이 담긴 엑셀 파일. 광고성 게시글 제외하고 총 81개 게시물

Try 1. 전처리

결과가 하도 이상하게 나와서, 찾아보니 전처리를 해야 한다고 한다. 생성형AI를 너무 인간 취급해서, 자동으로 전처리를 할 거라 기대했었다...

[프롬프팅 to GPT4o]

너는 텍스트 분석의 전처리 전문가야. 분석하려는 용도에 맞추어, 최적의 결과를 도출할 수 있도록 전처리를 하는 능력이 탁월해. 이 점 기억해 줘

이 파일에서 content 열의 내용을 분석하기 위한 전처리를 할 거야. 다음을 반영해서 전처리한 후 엑셀 파일로 출력

1. 'ALT' 삭제

2. url 정보 삭제

3. 텍스트 분석의 정확도 향상을 위한 전처리 수행

Try 2. Gemini API

생성형ai를 사용하겠다는 문구를 프롬프팅에 포함 안 했더니, 임의의 목록에 대한 정규 표현식을 사용한 코드를 짜 줌. 그래서 결과가 매우 제한됨

클로드에게 Gemini로 분석하고 싶다고 하여, Gemini API가 포함된 코드를 얻음. google-generativeai 설치 관련 버벅거림...

이전보다는 결과가 좀 그럴싸해 보임. 그런데 에러가 많다 ㅠㅠ

Try3. 배치 & 프로세스 변경

에러 메시지는 '429 Resource has been exhausted ~' 이런 거였고, 커서나 클로드 모두 'API 요청이 너무 많아서 더 이상 처리할 수 없다는 것을 의미합니다. 이를 해결하기 위해 요청을 배치로 보내고, 요청이 실패할 경우 전체 프로세스가 종료된 후 다시 시도하도록 수정합니다' 이런 이유라고 한다.

이걸 반영해서 수정 했더니, 전체 2개 정도만 에러가 뜨고 꽉 찬 아웃풋이 나왔다!

한국 텍스트 파일의 스크린 샷


Try4. 결과 검토 & 프롬프팅 수정

그런데 처음 몇 개 행의 'tool' 내용을 보니 툴들이 일부 빠져 있다. 주로 Make, Canvas, Cursor 이런 것들이다. 그래서 프롬프팅 수정

[프롬프트 to 클로드]

gpters_preprocessed1.xlsx라는 파일에서, 'content' 열을 읽고 다음과 같은 작업을 하는 코드를 짜 줘.

1. tool 열을 추가하고, 사용한 툴 모두 나열. 옵시디언은 제외. 툴 이름 중 Midjourney, Copilot, Hugging Face, Canvas, 웹클리퍼, cursor와 같이 일반적인 의미로 사용되는 것을 놓치지 않도록

2. usage열을 추가하고, content 열에 있는 작업들의 최종 목적이 무엇인지 1-2개로 정리.

3. problem열을 추가하고, content 열에 있는 작업을 하면서 시간이 많이 걸리거나 어떻게 해야 할지 헤메인 점 요약.

위 작업은 gemini로 할 거야. 작업 도중 에러가 나면, 모든 행의 작업이 끝난 후 에러가 발생한 행의 작업을 순차적으로 하도록 해 줘. 이 과정에서 시간이 오버되서 작업이 중지되지 않도록, 시간 설정을 유의해 줘

결과는 일반적인 이름의 툴도 포함하는 형태로 나왔다! 드뎌 성공인가??

A와 B의 차이를 보여주는 테이블


Try5. 결과 검토 & 수동으로 수정

다시 툴을 본문과 대조하며 보니, 없는 툴을 추출하거나 있는 툴을 누락하거나, 툴이 아닌 것을 툴로 추출한 경우가 더러 있었다. 그래서 일일히 대조하면서 수동으로 수정. 일단 툴만

Try6. 요약 결과 재 요약

용도와 문제점은 일일히 대조하며 검토할 여력이 없어서, 요약한 내용을 클로드에게 주고 몇가지로 구분하도록 했다.

옵시디언 사용 양상

이렇게 해서 얻은 결과. 툴은 일일히 수동으로 정리했으니 정확할 것이고, 용도와 문제점은 클로드가 반복 요약을 한 것이므로 사실 100& 미덥지는 않다.

클로드로 집계(아래 2개는 클로드 그림), 냅킨ai로 그림(숫자 옆에 없음을 없애는 방법 모름)

소셜 미디어 사용자 수를 보여주는 막대 차트
한국인의 수를 보여주는 막대 차트
한국 학생의 수를 보여주는 막대 차트

결과와 배운 점

배운 점 - 생성형 AI라도 강도 높은 전처리,후처리 필요하다

과정 중에 시행착오 - 전처리, Api, 배치, 프롬프팅에 대해 잘 몰랐음.

도움이 필요한 부분이 있나요

1) 게시판 글 정확도 높게 분석하는 방법

2) 지피터스 운영진에게 바라는 점 : 지피터스 게시판에 있는 내용들을 주제별로 분석해서 간략한 보고서처럼 공개해 주면 좋겠다. 좋은 내용들이 많은데, 의미 있는 단위로 모아보기 어렵고, 그 내용도 한 눈에 파악하기 어렵다. 이번 사례와 비스무리하게 어떤 주제별로 같이 사용하는 툴의 조합과 그것들을 사용하는 워크플로우, 용도, 어려운 점 등을 정리해 주면 학습이나 응용에 도움이 될 것이다

앞으로의 계획

당장은 아니고(크롤링, 텍스트 분석에 시간 넘 많이 걸림) 언젠가 '자동화'에 대해 이런 분석을 해 보고 싶다.

도움 받은 글 (옵션)

https://www.gpters.org/dev/post/8gi-cs-deiteo-jeonceorireul-wihae-persona-recipe-pattern-few-shot-template-jLttZeG2IULBXY2

전처리의 중요성과 프롬프팅에 대해 도움받음

3

👉 이 게시글도 읽어보세요