눈오지
눈오지
🗡️ AI 레전드
🌿 뉴비 파트너
🌈 지피터스금손

MCP로 PDF 요약, 이미지 추출, 옵시디언 전송, 오디오 파일 생성을 한 번에

소개

개발자의 대부이자 GOAT인 테디노트님이 [AI 시대 생존 전략] 주제로 오프라인 강의를 했었는데. 아쉽게 당일 참석을 못했었습니다.

하지만 강의 자료를 PDF로 남겨주셨습니다. MCP를 활용해 PDF 자료를 어디까지 활용할 수 있는지 테스트 해보고자 합니다.

실제로 성공한 내용은 총 5가지입니다.

1. 클로드에서 내 컴퓨터에 있는 해당 PDF 파일 검색
2. PDF 파일 내용 요약
3. PDF 속 이미지 추출
4. 요약본, 이미지 옵시디언으로 전송 성공
5. 요약본 바탕으로 오디오 생성(일레븐랩스 활용)

<해당 강의 자료>

Track A_이경록_AI시대의생존전략.pdf
4.85MB


들어가기 앞서 : MCP란?

Google 로고가있는 한국 캐릭터 만화

한국어 곰의 만화

열쇠와 열쇠에 대한 한국 만화

MCCL COMICS -MCCL COMICS -MCCL COMICS -MC

출처 : 해달리 쓰레드에 올릴 예정(방금 막 그렸거든요ㅎ)

문을 여는 과정은 api를 쓰던 과거. MCP는 만능열쇠라고 생각하면 됩니다.
더 쉽게 생각하면 클로드에서 구글 기능도 사용, 슬랙도 사용할 수 있다고 보면 됩니다.

진행 방법

기초 설치 참고 자료 : https://www.gpters.org/member/pxKBUPj6EE

1. 클로드에서 내 컴퓨터에 있는 해당 PDF 파일 검색

https://smithery.ai/server/@wonderwhy-er/desktop-commander?code=70ac5e12-6862-451a-ab4b-36f191bef95b

Desktop Commander MCP를 설치하면 클로드가 내 컴퓨터에 접근 권한을 가지게 됩니다.

즉, 클로드가 내 컴퓨터 속 파일을 찾는게 가능해집니다.

저는 테디노트님의 본명 이경록님 이름으로 된 파일을 클로드에게 찾으라고 했습니다.
그러면 PDF 파일을 찾아줍니다.

한국어 문자 메시지의 스크린 샷

2. PDF 파일 내용 요약

Desktop Commander MCP가 제 컴퓨터 접근 권한을 가지고 있기 떄문에. 클로드가 PDF 파일을 읽지 못해도, 다양한 방법을 스스로 찾습니다.
그래서 클로드는 PDF 파일을 읽기 위해 필요한 라이브러리를 찾아 터미널에 설치합니다.
(내용을 비유하면 제가 요리 시작만 외쳐도, MCP가 필요한 재료와 도구를 쓱쓱 챙겨 온다는 뜻입니다.)

한국어는 화면에 표시됩니다


이런 과정을 거쳐 요약본도 추출할 수 있습니다.

AI 제작자를위한 한국 광고


3. PDF 속 이미지 추출

2번 상황과 같습니다. PDF 속 이미지를 추출해달라고 하니 클로드는 알아서 PDF에서 이미지를 추출할 수 있는 방법을 찾아줍니다.

(PDF파일 파싱 업스테이지 MCP를 쓰지 않은 이유는 API비용이 나갔기 때문입니다. 그런데 업스테이지 MCP PDF 파싱 성능이 좋습니다. 로컬에서 인식 못하는 PDF도 한 번에 인식하더군요.

https://github.com/PritamPatil2603/upstage-mcp-server

한국어 텍스트가있는 검은 색 화면
ragg- 스크린 샷 1

추출 결과물


4. 요약본, 이미지 옵시디언으로 전송 성공

https://github.com/StevenStavrakis/obsidian-mcp/blob/main/README.md

해당 요약본과 이미지 파일을 옵시디언 MCP를 이용해 보내봅니다.

주소 참조만 잘 해주면 되는데. 기존 노트북(윈도우)랑 꼬여서 조금 헤맸습니다.

한국어는 화면에 표시됩니다

항목 목록이있는 검은 색 화면의 스크린 샷

옵시디언으로도 잘 보내집니다.
단, PDF 파일 자체를 보내는 기능은 옵시디언 MCP에 없다고 합니다.


5. 요약본 바탕으로 오디오 생성(일레븐랩스 활용)

https://github.com/elevenlabs/elevenlabs-mcp

일레븐랩스 api키를 넣으면 일레븐랩스 MCP 사용 가능합니다.

Google 검색 페이지의 스크린 샷

일레븐랩스를 구독하고, voices(왼쪽) 클릭, Libary에 들어가면 사람들이 올려 놓은 녹음 파일들이 있는데요.

여기에 TeddyNote님 목소리가 있답니다.

한국어 앱의 스크린 샷

이제 클로드한테 해당 PDF 요약한 뒤 테디노트님 음성으로 바꿔달라고 해봅시다.

tts_AI_기술_20250423_234724.mp3
375.96KB

클로드에서 다른 툴을 이용하지 않고 질문만 하면서 원하는 결과를 다 얻어 냈습니다.

결과와 배운 점

  1. 프롬프트를 상세하게 주어야 합니다. 

  • 대충 지시하면 클로드가 알아서 필요한 MCP 쓰겠지라고 생각할텐데 아닙니다. 

  • 노션에 해당 파일 저장하라고 했는데, 옵시디언에 저장하는 친구입니다.

  • 알아서 라면 하나 만들어줘. 보다 00라면 봉지를 뜯고 물 500ml를 냄비에 담아 온도 100도가 될 때까지 끓인 뒤에 스프 먼저 넣고, 뒤에 면을 넣고, 3분 뒤에 꺼내서 라면을 완성해줘. 이렇게 디테일하게 줘야 잘 먹히는 기분입니다.

  1. MCP를 왜 써야하는지 생각해보기

  • MCP는 클로드에 기능을 더하고 업그레이드 한다고 보는데요.

  • 덕지덕지 기능들을 붙이는데 치중 하느라 정작 필요한 걸 놓칠 수 있다는 생각이 들었습니다. (MCP를 쓰면 좋은 기능도 있었으며, 굳이 쓸 이유를 모르는 기능도 있었음)

  • 노 젓는 수업이라 생각했다가 노 뻈기고 망망대해에 빠질 수 있습니다.

  • GPT가 나온지 2년 밖에 안 되었는데요. 기술 발전 속도는 빠릅니다.

  • MCP를 통해 무엇을 얻을 수 있는지 고민해보면 더 좋을 것 같다는 생각이 들었습니다. (하지만 비개발자라 개발에 대한 상상력이 부족해서 그럴 수도 있습니다.)

  • (위 생각이 정리된 영상)
    https://www.youtube.com/watch?v=KZwV6dOfNuE

  • 테디노트님이 제가 게시글을 링크드인에 공유 해주셨어요:) 이게 연예인에게 샷아웃 받은 느낌이겠죠? 헤헤

    Teddy Lee의 Facebook 페이지 스크린 샷
8
3개의 답글

👉 이 게시글도 읽어보세요