설교 동영상 오디오에서 텍스트 발췌해서 LlamaIndex로 챗봇 만들고, 데이터로 활용해서 분석하기

배경 및 목적

고인이 되신 목사님 설교 말씀이 듣고 싶어서 과거 동영상들을 찾아 다시 듣고 공부하고, 데이터로 추출해서 라마인덱스로 챗봇을 만들어 질문하고 싶었습니다. 직접해 보면서 많이 배울 수 있을거라 생각이 들었습니다.

단계적 목표는

  1. 설교 동영상 다운받기

  2. 설교 동영상 텍스트화 하기

  3. 옵시디언으로 보기, 캔바스에서 텍스트와 동영상 함께 보게 만들기

  4. 텍스트들을 라마인덱스로 챗봇 만들어 질문과 답을 하고, 새로운 주제에 대한 내용 만들어 보기

  5. 배운 지식을 토대로, 중독 상담 챗봇 만들어 보기

참고 자료

라마인덱스 사례발표 글들

옵시디언 공부

활용 툴

4k Video Downloader, Lilys.ai, TurboScribe, 박라마님의 STT, ChatGPT, Perplexity.ai, Obsidian

실행 과정

  1. 옛 교회 웹사이트에서 유튜브 동영상, 음성 파일들을 다운로드

    1. ChatGPT와 Perplexity.ai로 사용할 ai tool들에 대해 조사

    2. 4K Video Downloader로 유튜브 동영상 mp4, mp3 로 다운로드

  2. 동영상, 음성 파일들을 텍스트로 변환

    1. Lilys.ai로 mp4, mp3, m4a 에서 pdf, docx, json, md 파일 생성 - max 1.8gb size

      Google 드라이브에 있는 문서의 스크린샷
    2. TurboScribe로 mp4, mp3, m4a에서 pdf, docx, txt 파일 생성 - max 5gb size

      한국어로 된 Turboscribe 앱 스크린샷
      1. 또한 영어, 일어 번역 파일도 다운받음

      2. 오디오 파일도 생성

    3. 빅라마님 STT로 5gb 보다 큰 mp4 파일들 txt로 추출

      코드를 보여주는 컴퓨터 화면의 스크린샷
    4. ChatGPT에서 STT가 돌아가게 에러들 수정함

    5. ChatGPT에서 txt to md 코딩을 물어서 VS Code에서 돌림

  3. 마크다운 파일들을 옵시디언에서 보기

결과 및 인사이트

주요 성과나 결과

  1. 원하는 설료 동영상, 음성 파일에서 md, txt, docx, pdf, json 파일들을 뽑았고

    Microsoft Word 문서의 스크린샷
  2. 한글, 일어, 영어본을 만들었고, 요약본을 만들었습니다

    한국어 텍스트가 있는 검은 화면
  3. 옵시디언에서 읽을 수 있었습니다.

    한국어 단어가 적힌 흑백 포스터

새로운 통찰이나 학습 포인트

  1. 새로운 ai tool들을 배우고 사용해 볼 수 있었습니다

  2. 새로운 툴들의 기능들을 보고 놀랐습니다. 코드를 짜주고, 고쳐주고, 완성시켜주어서, 원하는 것을 해 볼 수 있음을 배웠습니다.

  3. 설교 데이터를 입력시켜 라마인덱스로 챗봇을 만들고 싶습니다.

  4. 과거 SAS로 분석을 했던 전력수급예측모델을 ai tool로 바꿔 개발하고 자동화해 보고싶습니다. Intermittent Demand 예측 모델도 ai tool로 어디까지 할 수 있을지 개발해 보고싶습니다.

5

👉 이 게시글도 읽어보세요