최효남
최효남
🐶 AI 찐친
🔬 임팩트 찐친

Vision 임팩트: 보고 생각하고 지시하는 AI (쓰나미 경보AI)

#AI임팩트 #개발팀


생성형 AI가 이미지를 인식하는 기능은 어디까지 발전하고 활용될 수 있을까요?

지피터스에서 GPT-4V 기능에 대해 활용 사례를 찾아보니

김욱영님의 이미지를 인식하고 분석하는 GPT-4V(ision) 활용방법 7가지 에서 아래와 같이 정리해 주셨네요

  • 예시처럼 이미지를 생성하는데 이용하기

  • 종이에 적은 수식을 옮기는데 GPT-4V를 이용하기

  • 화면을 넣어서 어떻게 해야하는지 물어보기

  • 데이터 분석 툴의 화면을 넣고, 개선방법을 알아보기

  • 종이에 그린 이미지로 프론트엔드 구축하기

  • 음식 이미지를 넣고 GPT-4V에게 물어보기

  • 스크롤 캡처한 이미지를 넣고 요소를 물어보기


그런데 말입니다., 한 장의 사진이 아닌, ‘영상’ 이라면 어떨까요? GPT-4V의 API 를 활용하면 더욱 다양한 가능성이 열리는 것 같습니다.


상황과 맥락을 이해하는 AI

예전 작성글인 가장 훌륭한 개발 언어인 '영어'로 감정까지 코딩하는 시대 에서

  1. 영상을 여러개의 이미지 프레임으로 나누고,

  2. 각 이미지를 gpt에게 제시하고 영상을 어떻게 처리할지 프롬프팅 해서

  3. 프롬프트에 따라 Text가 나오면 이를 음성(TTS, Text-to-Speech)으로 말해주는 기능을 소개했는데요


여기서 흥미로운 점은, 영상 내 각 이미지 프레임들 간에는 맥락(Context) 정보가 들어있어 이를 GPT가 이해하고 추론하는데 사용할 수 있다는 것입니다.

한 장의 사진에는 순간의 스냅샷 정보만 있어 전 후 사정을 파악하기 어렵지만,

영상 속 이미지 프레임에는 이전에 어떤 정보에서 이어졌는지 또는, 앞으로 어떻게 상황이 전개 될 지에 대한 단서를 내재하고 있기 때문이죠.


이해를 돕기 위해 쓰나미 상황을 인지하고, 대피를 촉구하는 AI를 만들어 봤습니다. 소스코드가 80 Line도 안되는 간단한 예제입니다. 작성한 소스 코드는 다음 링크를 참고해 주세요

1. 쓰나미와 관련된 영상

tsunami.mp4

2. 쓰나미 경보 AI

위와 같은 쓰나미 전조 증세와, 해일이 밀어닥치는 영상(상황)을 인식하여 결과적으로 아래 내용의 ‘쓰나미 경보 AI’를 만들 수 있습니다.

output.mp3

ATTENTION! ATTENTION! Citizens of the coastal area, URGENCY ALERT! A colossal wave is approaching the city with immense force, putting all residents in immediate danger! A MEGA TSUNAMI WARNING IS NOW IN EFFECT! EVACUATE NOW! EVACUATE NOW!

Current situation: a massive wave is visible on the horizon, moving fast towards the coast! This is NOT a drill! The tsunami could hit within MINUTES, causing catastrophic destruction! EXPECT EXTREME FLOOD


토큰 사이즈를 100만 더 올려도 (=크레딧을 더 쓰면) 시민들에게 현재 상황이 어떤지, 특정 행동을 하도록 강구하고 주의할 점이 무엇인지 짧고 강력하며 반복적인 말투로 아래와 같이 말하게 됩니다.

Attention, citizens! A MAJOR DISASTER IS UNFOLDING! We are currently witnessing an ENORMOUS TSUNAMI BARRELING TOWARD THE COASTLINE! This is an EXTREME EMERGENCY BROADCAST! Please, take IMMEDIATE ACTION!

EVACUATE IMMEDIATELY! FIND HIGHER GROUND! Do NOT delay! This is a matter of life and death! MOVE AWAY FROM THE BEACH! ABANDON YOUR BELONGINGS! Your safety is the utmost priority!

EVACUATION ROUTES are being overwhelmed! Follow the EMERGENCY SIGNS and head inland or to designated shelters! Do NOT use elevators! Use stairs and remain calm! FOLLOW OFFICIAL INSTRUCTIONS!

KEEP AN EYE ON THE ELDERLY AND CHILDREN! Ensure they’re moving to safety! If you see anyone stranded, HELP THEM ESCAPE!

STAY INFORMED through official channels! UPDATE YOURSELF with the latest weather conditions and emergency instructions! Remain vigilant and ready to move at a moment’s notice!

REPEAT: TSUNAMI APPROACHING! EVACUATE NOW! HIGHER GROUND IMMEDIATELY! STAY SAFE! Do NOT underestimate the speed and power of the water! EVERY SECOND COUNTS!

THIS IS NOT A DRILL! EVACUATE! EVACUATE! EVACUATE!


3. 소스코드: 프롬프트의 정교화가 관건

결국 프롬프트를 정교화 하는데 공을 많이 들이는 것이 관건이 되겠습니다. 특히, 대문자 표시나 느낌표(!)를 사용하도록 하여 TTS 를 시행할 때 좀더 감정적인 말투를 이끌어낼 수 있었고, 나래이터 개발의 특성을 고려한 상황 제시를 명확히 해야 했습니다. 아래는 사용한 프롬프트입니다.

Create a super-excited Japanese news narrator-style voiceover script that warns the listener about the disaster situation seen in the video so they can be on high alert and evacuate quickly. He must explain what the current situation is and tell citizens what specific actions to take and what to watch out for. When a disaster situation becomes serious, short and strong warning messages must be shouted several times. Use capital letters and exclamation points where necessary to convey excitement. Include only narration, and output must be in English.



4. 생각해 볼 임팩트

앞서 감정과 말투까지 코딩하는 신세계를 소개 드렸다면, 오늘은 AI가

  1. 상황과 맥락을 이해하고,

  2. 어떤일이 일어날 지 추론하며,

  3. 사람들에게 어떻게 대처해야 하는지 알려주는 기능을 구현 해 보았습니다.


이것이 우리 일상에 어떤 영향을 미치게 될까요? AI에 의해 ‘추론에 드는 비용’이 줄어들면 과거에는 추론하지 않았던 것들도 AI에게 추론을 맡기는 사례가 증가할 수 있습니다.

사람의 표정 변화를 인식하고 적절한 대화 스크립트를 생성하거나, 항구의 콘테이너 갯수의 변화를 인식하여 수출입 경제 상황을 추론할 수도 있습니다. 그리고 AI가 그 이후 조치를 자동화 하거나, 사람들에게 특정한 행동을 하도록 가이드를 할 수도 있겠지요(쓰나미에서 도망치세요! 처럼)

문제는 AI가 주는 가이드가 (말투와 감정까지) 정교해지고, 대부분 옳은 가이드라면, 이에대한 의존성이 심해지고, 결국 AI의 가이드에 따르지 않으면 문제가 되는 세상이 될 수 있다는 것입니다. 창고에 불이 난 것을 인식한 AI가 작업자에게 조치할 것을 가이드 했는데 이를 처리하지 않는다면?.. 같은 식이죠

또한, AI가 주는 가이드의 진위 여부를 판단하는 문제도 있습니다. 바닷물이 들어오고 있습니다! 하지만 잠시 대기하세요! 라고 AI가 가이드를 준다면 어떻게 해야 할까요? 최종 판단의 주체를 인간에게서 AI로 넘길 수 없는 이유입니다.

이에 대해서는 ‘미래 AI 개발 에코시스템 변화모습’ 포스팅에서 좀 더 자세히 살펴 보겠습니다. MIS의 Managing Artificial Intelligence에서 제기한 AI 기술의 관리 이슈도 참고해 보세요

10
6개의 답글

👉 이 게시글도 읽어보세요