안녕하세요! 민트베어🍀🧸 입니다.
AI 이미지 제너레이터의 대결이 가속화 되고 있습니다. 최근에는 Midjourney 와 Stable Diffusion (SDXL)의 전면전 사이에, Adobe Photoshop의 Generative Fill, 그리고 FireFly의 정식 내재화 이슈가 있었습니다. 물론 Gen2를 비롯한 영상 AI의 퀄리티도 조금씩 좋아지고 있었구요.
그러던 가운데 오늘(09/21) DALL·E 3의 업데이트 예정 소식이 전해졌네요. 함께 보시죠-
10월 초에 DALL·E 3가 옵니다.
DALL·E 3는 10월 초에 오픈 예정이며, ChatGPT Plus 와 Enterprise 유료 사용자 대상으로 먼저 제공됩니다. → OpenAI DALLE 3 소개 페이지 (구독을 조금 더 연장해야 할 듯 합니다..)
DALL·E 3는 ChatGPT 에서 구동됩니다.
전해진 바에 따르면, 우리가 사용중인 ChatGPT 챗봇 내에서 DALL·E 3가 구동되는 방식입니다.
ChatGPT 대화 화면에서 질의를 통해 이미지를 바로 생성하고, ChatGPT에게 다시 이미지 수정 을 요청해서 이미지를 다시 생성하고, 반복 업그레이드하고, 필요에 따라서는 다른 형식의 이미지로 변환하는 다양한 기능이 가능해 질 것 같아요.
특히, 스토리 구성에 따른 이미지 연출에 큰 도움이 될 것 같습니다. 원하는 스토리 상의 이미지를 대화를 통해 계속 변형하고, ChatGPT가 아주 잘하는 스토리 구성을 함께 진행하는 방법이죠. 위의 유튜브 영상에서 Larry 라는 고슴도치의 이미지 스토리를 만든 것 처럼 말이에요. (아래 이미지 참조)
Larry가 마지막에는 스티커 이미지로 변환!
최고의 장점 : 처음 사용자를 위한, 쉬운 사용법
DALL·E 3 최고의 장점은, ChatGPT 챗봇을 이용한다는 것이 아닐까요?
왜냐하면, AI 이미지를 처음 생성하는 유저들은 대부분 전문적인 이미지용 프롬프트의 입력이 어려운데, 이런 경우에 챗봇에게 물어보며 이미지를 생성할 수 있는 거니까요. 복잡한 프롬프트를 알아보거나, 프롬프트 목록을 외울 필요가 없다는 겁니다.
먼저 상상하는 이미지 생성을 요청한 다음에 → “더 밝은 느낌으로 그려줘”, “등장인물에게 더 집중된 조명효과를 넣어줘”, “배경은 낙엽이 흩날리는 가을로, 가방은 빨간 색으로 바꿔줘”, “고슴도치 얼굴이 긴장되어 보이는데? 더 편안한 표정으로 바꿔줘”와 같은 가벼운 대화를 통해- 이미지 생성이 가능해진다는 겁니다.
이런 가벼운 대화는 남녀노소 누구나 할 수 있는 것이죠!
물론, DALL·E 3에서 바로 이런 자유로운 대화가 AI 이미지 생성에 제대로 작동하는 지는 아직 알 수 없습니다. 10월이 되어봐야 겠지만, 분명히 되는 질문과 GPT가 이해하더라도 DALL·E 3에서 반영되지 않는 프롬프트가 있을 거에요. 또 일관된 캐릭터 생성이 가능하냐는 또 별개의 문제입니다.
그럼에도 불구하고, “가벼운 대화로 AI 그림을 그릴 수 있게 된다”는 장기적인 방향성은 유효할 것 같습니다.
아쉬운 점 1 : 이미지 퀄리티
DALL·E 3의 샘플 이미지를 보면, DALL·E 2보다는 훨씬 좋아진 것 같긴 하지만, 현재 최고 퀄리티를 보여주는 Midjourney 이미지 레벨의 심미적 아름다움에 도달하진 못해보입니다. 아마 단순한 이미지 퀄리티만의 비교를 위해서는 달리에게 시간이 조금 더 필요 할 것 같습니다. (일러스트/페인팅 보다는 실사 쪽 이미지가 조금 좋아 보이네요. 디지털스러운 도트가 강조되거나, 자연스럽지 않은 빛 처리나 컬러감이 조정되지 않은 요소들이 아직 보입니다.)
DALL·E 3 샘플 이미지
그럼에도 불구하고, 예술가나 디자이너가 아닌 일반 대중이 사용하기에는 그리 나쁘지 않습니다. 하이 퀄리티를 요구하지 않는 로컬 비즈니스나 퍼스널 레벨의 가벼운 용도에는 매우 충분한 이미지로 보여지며, 그 사용상의 편리함은 분명히 비교 우위에 있습니다.
아쉬운 점 2 : 여전히 프롬프트를 이용하고 있다
두 번째 아쉬운 점은 챗봇인 ChatGPT가 질문을 받아서 바로 이미지를 생성하는 것이 아닌, ChatGPT는 질문에 답변으로 프롬프트를 제공해주고, 그 프롬프트를 DALL·E 3가 생성 해주는 것과 같은 구조입 니다.
영상에 나온 실제 구동 과정을 보면 : 유저가 ChatGPT에 질문을 던지니, 아래와 같이 4개의 이미지용 프롬프트가 생성되고, 그 자리에 이미지 4개가 대체 생성되는 것을 볼 수 있습니다.
결국 DALL·E 3는 아직 프롬프트를 받아 이미지를 생성하는 AI이고, 사용자와 DALL·E 3 사이에서 ChatGPT가 적절한 프롬프트를 제공하는 번역기와 같은 또는 친절한 중간 역할을 하고 있다는 것입니다.
여기에서 생각해볼 부분은 1) 여전히 이미지용 프롬프트는 유효하다.
그러나 2) 모두가 프롬프트를 공부할 필요가 없도록 AI는 더 쉬워질 것이다 - 라는 것입니다.
아마 Midjourney를 포함한 많은 AI Image Generator 들은 단기적으로 모두 처음 사용자를 위한 챗봇을 내재화 한 형태를 가져갈 것 같습니다. 또 언젠가 이미지용 프롬프트가 필요없는 앱으로 모두 진화하게 될 지도 모릅니다.
현재 Midjourney에서 준비중인 웹버전 & 스토리텔링 기능은 아마 이런 요소를 포함하고 있지 않을까 예상하고 있습니다. 물론 오픈소스 기반의 Stable Diffusion에서도 충분히 도입 될 수 있는 변화이겠죠.
네 명의 강자 : MJ & SD & Adobe & DALLE·3
지난해에 DALL·E 2가 나오면서 본격적인 AI 이미지 시대가 시작되었습니다. 그리고 올해 다시 DALL·E 3가 또 다른 방향으로 시장 전환을 제안하고 있어 즐겁네요.
그리고 다시 미드저니 & 스테이블디퓨전 & 어도비 & 달리3의 4자 구도로 들어갑니다. 또 다른 강자가 나타날 수도 있겠죠.
마무리 : “대화”를 통해 그림을 그리는 시대로
우리 인류는 손이나 연필, 붓으로, 또 마우스나 카메라로 그림을 그려왔습니다. 그리고 예술과 비즈니스의 영역을 확장해왔습니다.
최근에 우리는 처음 텍스트 프롬프트로 그림을 그리기 시작 했지만,
앞으로는 “ 대화로 그림을 그리는 시대 ”가 될 것 같아요.
물론, 오늘의 이러한 흐름도 언젠가는 mid-journey(중간-여정) 정도가 될 것 같지만 말이에요.
.
10월에 DALL·E 3를 테스트 하면서, 사용기로 돌아오겠습니다. ^^
언제든 다양한 의견 남겨주세요!
참고 뉴스 기사: https://www.yna.co.kr/view/AKR20230921018900091
data-type="image" data-size="original" data-id="2j6cYOz0SLg1PrV0RVE7g" data-version="v2" data-align="center">
Good Night Larry-
2023.09.21 mintbear 🍀🧸
.