유튜브 튜토리얼, 이제 다시 안 봐도 됩니다 — Claude Code로 만든 영상→마크다운 자동 변환기

📝 한줄 요약

유튜브 튜토리얼 영상 URL만 넣으면, AI가 프레임 이미지를 직접 보고 모든 설정값과 동작을 기록한 옵시디언 마크다운 문서를 자동 생성하는 스킬을 만들었습니다.

바쁘시면 이것만 읽어도 돼요:

Claude Code로 유튜브 영상 → 옵시디언 마크다운 자동 변환 스킬(yt2md) 구축
AI에게 텍스트뿐 아니라 "눈"을 달아주면 자막만으로는 절대 못 잡는 UI 설정값까지 기록 가능
29분짜리 영상이 14개 섹션 + 네트워크 구조도가 포함된 체계적 문서로 변환
URL만 바꾸면 TouchDesigner뿐 아니라 어떤 프로그램 튜토리얼이든 적용 가능
향후 핵심 스크린샷 자동 임베드, 강의/세미나 영상 확장 계획

🎯 이런 분들께 도움돼요

유튜브 튜토리얼을 옵시디언에 정리하고 싶은 PKM/세컨드브레인 사용자
영상 학습 내용을 체계적으로 기록하고 싶은데 시간이 부족한 분
AI 코딩 도구로 자신만의 자동화 워크플로우를 만들어보고 싶은 분

😫 문제 상황 (Before)

유튜브로 새로운 프로그램을 배울 때, 늘 같은 문제가 반복됐습니다.

영상을 따라하다 보면 중간에 설정값을 놓치거나, "아까 그 파라미터가 뭐였지?" 하면서 영상을 되감기하는 일이 다반사였습니다. 27분짜리 튜토리얼 하나를 따라하는데, 영상 자체를 3~4번은 다시 돌려봐야 했습니다.

더 심각한 건, 아예 정리를 안 하고 넘어가는 경우가 대부분이었다는 겁니다. "나중에 필요하면 다시 보면 되지"라고 생각했는데, 막상 나중에 필요해지면 그 영상을 처음부터 다시 봐야 했습니다. 제목이라도 기억나면 다행이고, "그거 어디서 봤더라..." 하면서 유튜브 기록을 뒤지는 일도 잦았습니다.

영상을 보는 시간보다, 영상을 다시 찾고 다시 보는 시간이 더 많았습니다.

🛠️ 사용한 도구

도구명: Claude Code
모델: Claude Opus 4.6
특이사항: 멀티모달 기능 활용 — AI가 영상 프레임 이미지를 직접 시각 분석

🔧 작업 과정

스킬 설계 — "영상을 보듯이 분석해줘"

처음부터 명확한 목표가 있었습니다. 유튜브 영상을 마치 시청하듯 프레임 단위로 분석해서, 모든 동작을 빠짐없이 기록하는 옵시디언 마크다운을 만드는 것.

유튜브 튜토리얼 영상을 옵시디언 마크다운으로 변환하는 스킬을 만들어줘

Claude Code가 175줄짜리 스킬 정의 파일을 작성했습니다. 6단계 파이프라인을 설계했는데, 핵심은 이겁니다:

영상 메타데이터 가져오기 (제목, 채널, 길이)
자막 확보 (기존 자막 → 자동생성 → AI 음성인식 순으로 시도)
10초 간격으로 영상 프레임 이미지 추출
AI가 프레임 이미지를 직접 보면서 자막과 매칭하여 분석
옵시디언 마크다운으로 조립
임시 파일 정리

4번이 이 스킬의 핵심입니다. 자막만으로는 "여기서 이 설정을 바꿉니다"라는 말은 알 수 있지만, 정확히 어떤 메뉴의 어떤 값을 얼마로 바꾸는지는 화면을 봐야만 알 수 있습니다.

첫 실전 테스트 — TouchDesigner 파티클 소용돌이 (27분)

스킬이 준비되자마자 바로 실전 테스트에 들어갔습니다. TouchDesigner로 무한 파티클 소용돌이를 만드는 27분짜리 영어 튜토리얼이었습니다.

/yt2md
https://www.youtube.com/watch?v=jsC-axL2iRg

URL 하나 넣고 기다렸습니다. Claude Code가 알아서 진행했습니다:

영상에서 164개의 프레임 이미지를 추출하고
547개의 자막 세그먼트를 파싱하고
프레임을 8장씩 묶어서 직접 눈으로 보면서 분석했습니다

여기서 놀라웠던 건 AI가 프레임 이미지를 보고 TouchDesigner UI의 노드 이름, 파라미터 값, 연결 구조까지 읽어냈다는 겁니다. 자막에서는 "set the gravity to negative"라고만 하는 부분을, 프레임을 보고 "Gravity Force의 Y축 값을 -0.5로 설정"이라고 정확하게 기록했습니다.

결과물은 14개 섹션으로 구성된 체계적인 문서. 마지막에는 전체 네트워크 구조도까지 포함되어 있었습니다. 그리고 모든 내용이 한국어로 번역되어 있었습니다.

27분 영상 → 14개 섹션 마크다운 + 네트워크 구조도 + 한국어 번역. 임시 파일 543MB 자동 정리.

두 번째 테스트 — 데이터아트 터널 (29분)

바로 두 번째 영상을 돌렸습니다. 같은 채널의 29분짜리 데이터아트 터널 튜토리얼.

https://www.youtube.com/watch?v=xU4Xb2A-bAo

이번에는 Claude Code가 첫 번째 경험을 바탕으로 더 효율적으로 처리했습니다. 첫 영상에서는 자막을 3분 단위 청크로 나눠서 처리했는데, 두 번째에서는 전체 자막을 한 번에 파싱하는 방식으로 개선했습니다.

29분짜리 영상이 다시 14개 섹션의 문서로 변환됐고, GeoText, Proximity, Quantize 같은 고급 POP 노드들의 활용법이 파라미터 값까지 정확하게 기록되었습니다. 첫 번째 튜토리얼 문서와 상호 링크까지 자동으로 설정해줬습니다.

607MB의 임시 파일이 생겼지만, 문서 생성 후 자동으로 깔끔하게 정리.

TouchDesigner 말고 다른 프로그램도?

두 번의 테스트를 거치면서 확인한 건, 이 스킬이 TouchDesigner 전용이 아니라는 겁니다. After Effects, Blender, Figma, Unreal Engine — 화면에 UI가 보이는 튜토리얼이라면 어떤 프로그램이든 같은 방식으로 작동합니다. AI가 프레임을 직접 보기 때문에 프로그램에 종속되지 않습니다.

✅ 결과 (After)

Before vs After

항목

Before

After

27분 영상 정리

3~4회 반복 시청 (1시간+)

URL 입력 후 자동 생성

설정값 기록

놓치거나 대충 메모

파라미터명 + 수치까지 정확 기록

정리 여부

대부분 안 함 → 나중에 처음부터 다시 봄

모든 영상 체계적 문서화

검색성

영상 전체를 다시 시청

Cmd+F로 원하는 설정값 즉시 검색

언어

영어 영상은 영어 그대로

자동 한국어 번역 + 기술용어 원문 병기

결과물

14개 섹션으로 구성된 상세 튜토리얼 문서
모든 노드 이름, 파라미터 값, 연결 구조 기록
전체 네트워크 구조도 포함
옵시디언 네이티브 형식 (YAML frontmatter, 태그, wikilink, callout)
관련 튜토리얼 간 상호 링크

💬 이 과정에서 배운 AI 활용 팁

효과적이었던 것

AI에게 "눈"을 달아줘라 — 가장 큰 교훈입니다. 자막 텍스트만 넣으면 "여기서 설정을 바꿉니다" 수준이지만, 프레임 이미지를 직접 보게 하면 "Force 노드의 Gravity Y 값을 -0.5로 변경"처럼 시각 정보까지 정확하게 잡아냅니다. 텍스트 + 이미지를 함께 주는 것이 핵심입니다.
반복 작업은 스킬로 만들어라 — 한 번 워크플로우를 스킬(재사용 가능한 명령)로 정의해두면, 다음부터는 URL만 바꿔가며 반복 사용할 수 있습니다. 매번 같은 지시를 내릴 필요가 없습니다.
AI는 스스로 개선한다 — 첫 번째 영상에서는 자막을 청크 단위로 나눠서 처리했는데, 두 번째 영상에서는 한 번에 파싱하는 더 효율적인 방식으로 자동 개선했습니다. 같은 작업을 반복할수록 나아집니다.

이렇게 하면 안 돼요

긴 영상을 한 번에 다 넣지 마세요 — 27분 영상의 164개 프레임 + 547개 자막을 한꺼번에 처리하려다 컨텍스트 윈도우(AI의 작업 메모리)가 찼습니다. 긴 영상은 구간별로 나눠서 처리하는 게 안전합니다.
자막에만 의존하지 마세요 — 자막은 "what to do"만 알려주고, 프레임은 "how it looks"를 보여줍니다. 특히 UI 기반 튜토리얼에서는 프레임 분석이 필수입니다.

🌍 다른 업무에 적용한다면?

이 접근 방식 — "AI에게 영상을 보게 하고, 체계적인 문서로 변환한다" — 은 튜토리얼 말고도 다양하게 쓸 수 있습니다:

온라인 강의 수강 노트 자동 생성: Udemy, Coursera 강의를 들으면서 자동으로 핵심 정리
컨퍼런스 발표 요약: 긴 키노트나 세미나 영상을 핵심 포인트 중심으로 압축
회의 녹화본 정리: 화면 공유가 포함된 회의 녹화를 문서화
요리/운동 영상 레시피화: 영상 속 동작과 수치를 단계별로 정리

핵심은 "영상 속 시각 정보가 중요한 콘텐츠"에 특히 강력하다는 점입니다.

🚀 앞으로의 계획

핵심 스크린샷 자동 임베드 — 지금은 텍스트만 있는 문서인데, 프레임 이미지 중 중요한 장면을 자동 선별해서 마크다운에 임베드하면 "문서만 보고도 영상을 안 봐도 되는" 경험이 완성될 것 같습니다.
강의/세미나 영상 확장 — 튜토리얼뿐 아니라 대학 강의, 컨퍼런스 발표, 웨비나 등 다양한 형식의 영상에 맞는 템플릿을 추가할 계획입니다. 발표 자료(슬라이드)가 있는 영상은 슬라이드 전환을 감지해서 섹션을 자동으로 나누는 기능도 생각하고 있습니다.

22기 바이브코딩 스터디 대기자 등록이 시작됐어요 💫