[개발B] 생성형AI로 연주알고리즘 개발하기

목표

본격적인 개발에 들어가기에 앞서, 먼저 알고리즘이 음원을 선별하는 데 참조할 규칙 목록을 챗GPT에게 뽑아달라고 해보려 합니다. 그리고, 레퍼런스 음악과 연주에 사용할 음원의 피치값을 분석해서 매칭되는 구간도 찾아달라고 요구해 볼 생각입니다.

진행

먼저, 알고리즘이 음악에 사용할 클립을 선별하는 데 필요한 기준을 제시해 달라고 해봅니다. 총 5가지 기준을 제시해 주네요.

내용을 보니, 1과 2는 적절한 수치를 제시해줬는데, 3~5는 “너무 짧거나 긴, 너무 높거나 낮은, 너무 크거나 작은…” 이런식으로만 표현되어 있어서 3~5도 수치 범위를 제시해 달라고, 그리고 근거가 되는 참고문헌도 같이 알려달라고 해봅니다.

이제 클립을 분석하는 방법에 어떤 것들이 있는지 물어봅니다.

이 중, 오디오 시각화 방법에 대해 더 설명해 달라고 합니다.

레퍼런스 음악과 음원 추출에 사용할 영상을 주고 스펙트럼 분석 방식으로 시각화 해달라고 하니, 다음과 같이 4개의 도표를 그려줍니다.

Clip 1,2,3이 각각 어디서 추출된 건지, 또 그래프를 어떤 기준으로 그린건지 설명을 해달라고 해봅니다.

주파수 대역에 따른 오디오 신호 관련 스펙트럼 도출은 어느 정도 유의미한 부분이 있지만, 이것만으로 필요한 소스를 추출할 수는 없어서, 더 구체적인 작업을 요청해 봅니다.

앞서, GPT-4가 제시해 준 5가지 기준 중에서 가장 쉬워보이는 피치값 분석을 의뢰해 봅니다. 레퍼런스 음악에 포함된 모든 음원의 피치값을 산출해 달라고 합니다. (MIDI 파일을 주었더니, 자기(GPT-4)는 모듈이 없어서 미디파일을 분석할 수 없으니 오디오 파일로 달라고 해서 MP3로 변환해서 줍니다)

갑자기, GPT-4 할당량이 다 되었다고 해서, GPT-3.5로 넘어가서 계속 작업을 진행합니다. GPT-3.5에게도 똑같이 레퍼런스음악의 피치값을 분석해달라고 합니다.

피치값이 서로 다르게 나왔길래, GPT-3.5에게 왜 다른 지, 누가 맞는 건지 알려달라고 해봅니다.

위 내용대로라면, GPT-4가 midi파일을 직접 분석했다는 것인데, 바로 전 작업에서 GPT-4가 모듈이 깔려있지 않아서 midi파일을 분석할 수 없으니 mp3파일로 변환해달라고 해서 mp3파일을 다시 올려줬는……, GPT-3.5의 말이 몬가 앞뒤가 맞지 않습니다.

왠지 수상해서 다시 물어봅니다.

결국, GPT-4는 레퍼런스음원(mp3)의 피치값을 분석한 것이고, GPT-3.5는 음원추출에 사용할 영상(mp4) 파일의 피치값을 분석한 것이었습니다. 이제야 수치가 왜 다르게 나왔는 지 이해할 수 있었습니다.

(더 작업하고 싶었지만, GPT-4 사용 한계에 걸려 이만…)

정리

전 작업을 몰아서 하는 편인데, GPT-4에 데일리 할당량이 있다는 것을 오늘 처음 알았네요… 이제는 매일 조금씩이라도 계속 진척하는 방향으로 작업 방식을 바꿔야 할 것 같습니다. 다음에는 꼭 GPT-4가 비교 그래프를 그려주면 좋겠습니다.~^^

⏰ 가장 빠르게 AI를 배우는 곳 | 지피터스 AI스터디 19기 사전판매 시작 (11월 중순 개강) 🚀

[개발B] 생성형AI로 연주알고리즘 개발하기 - (2)

목표

진행

정리

👉 이 게시글도 읽어보세요