#9기임팩트 #AI임 팩트 #개발팀 #AI민주화
안녕하세요
AI임팩트 부트캠프에서 ‘개발 환경’의 미래를 살펴보고 있는 최효남입니다.
최근 IDC의 조사에 따르면, 생성형 AI가 monetizing 측면에서 가장 영향을 많이 미치는 영역이 ‘개발’이라는 조사 결과가 있었습니다. 실제로 글쓰기나 이미지를 만드는 것이 임팩트가 강하긴 하지만 눈에 띄는 생산성의 변화는 ‘개발 환경의 자동화’에서 두각을 나타내고 있지요.
이러한 변화 속에서 제가 가장 흥미롭게 바라보는 관점은 ‘AI의 민주화’입니다. 노코드, 로우코드 툴을 사용하면서 ‘개발의 대중화’는 이미 익숙해진 현상일 수 있는데요, 생성형 AI는 여기에 한발 앞서 이전에 개발자들도 감히(?) 안 건드렸던 ‘AI’기술을 대중의 영역으로 보내버렸지요. 앞으로 그 이야기를 해보려 합니다.
앞으로 진행할 목차는 다음과 같습니다.
자연어로 감정까지 코딩하는 시대
미래 AI 개발 에코시스템 변화모습
1. 자연어로 감정까지 코딩하는 시대
지금부터 잠시 여러분이 ‘개발자’가 되었고, 지진 등의 재난상황을 알리는 프로그램을 짜야 한다고 생각해 보세요. 단, ‘사실’ 만을 전달하는 것이 아닌, ‘감정’까지 전달해야 합니다. 일본 아나운서 처럼 ‘긴박한 목소리로 절규하며 지금 당장 도망쳐!!!!!’ 라는 식으로 말이죠.
음? 긴박한 목소리로 절규를 한다고? 긴박한 목소리는 어떻게 알고리즘을 짤 것이며, 절규를 한다니요. 이걸 어떻게 코딩으로 표현하지? 라고 (적어도 저는) 생각하게 될것 같습니다. 이에 대한 실마리를 아래 내용에서 찾아보시지요.
우선, 오픈AI에서는 'GPT를 통해 비디오를 해석하고 음성을 말해주는 기능’(Kai Chen. 2023)을 공식 사이트에 배포하였습니다. 1) 영상을 여러개의 이미지 프레임으로 나누고, 2) 각 이미지를 해석하는 Text를 만들어서 3)이를 음성(TTS, Text-to-Speech)으로 말해주는 기능인데요
이를 이용해 Gonzalo.E.Graha은 GPT-4비전과 TTS로 구현한 축구 경기를 중계하는 AI 나레이터(링크)를 개발하였습니다. 관련 영상을 보면, 축구 선수 메시가 단독으로 드리블하여 골을 넣는 영상을 AI가 이해하고, 장면마다 음성을 생성하여 해설하고 있습니다..
흥미로운 점은, 단순히 상황을 해설하는 것을 넘어, ‘매우 흥분한 브라질 스포츠 해설가 톤으로’ 설명 하도록 AI 코드에 설정하여, 각 장면마다 마치 실제 축구 경기의 해설자처럼 흥분하고 소리치며 해설하는 것을 들어볼 수 있다는 점 입니다.
‘흥분한 해설가 톤으로 나래이션’하는 기능은 어떻게 프로그래밍 할 수 있었을까? 개발자가 오픈한 코드를 보면 ‘in the style of a super excited’라는 문장을 그대로 입력 값(Prompt)으로 사용한 것을 볼 수 있습니다.
자연어 문장이 복잡한 코딩을 대체한 것이죠. 과거의 개발 방식에서는 상상하기 어려운 편리한 기법입니다
AI 나레이터에 사용된 원본 축구 비디오는 모든 프레임을 GPT-4 Vision preview API에 전달하여 이미지 상태로 이해한 후, 이를 해석하고, 역시 오픈AI의 TTS API 기능을 이용하여 음성으로 변환하였습니다.
본 기능을 개발한 Gonzalo는 219줄 분량의 간단한 소스 코드를 공유하며 TTS API를 합치는데 10분 정도 소요(!)되었으며, 특별히 코딩에 대한 전문적인 지식이 필요 없음을 강조하였습니다.
아직까지 실시간 영상을 연결하는 기능은 없어 실험적인 단계이지만, 이는 영상, 방송 콘텐츠 산업 내에서 ChatGPT 4의 보고, 듣고, 말할 수 있게 된 멀 티모달(Multi-modal) 기능과 다양한 API 연계의 가능성을 보여준 사례라 할 수 있습니다.
어떤가요? 이제 재난상황을 긴박하고 경각심 충만하게 표현하는 코딩을 짤 수 있을것 같으신가요?
네. 제가 해 보려합니다. 10분만에 되고 코딩 잘 몰라도 된다고 하니까요 ㅎㅎ. 안그래도 파이썬 1도 모르는 제가 ChatGPT로 이것 저것 물어보면서 만들어 보고 있습니다. 이후 포스팅을 기대해 주세요 -_-+
—> 후신: 작성한 자료 링크 입니다 Vision 임팩트: 보고 생각하고 지시하는 AI (쓰나미 경보AI)
감정을 코딩하는 것은 어떠한 또 다른 유스케이스가 있을 수 있을까요?
- BTS 정국 뮤비보고 아미 팬처럼 반응하는 나래이터
- 갓난 아이에게 오구오구 내새끼 하는 부모 나래이터
- 문제를 잘풀면 극도의 칭찬을하는 선생님..
등등 많이 있겠네요. 여러분들 생각은 어떤가요^^