[ DALL·E 3 ] 10월 초, 대화형 이미지 생성 DALL·E 3 가 온다.

안녕하세요! 민트베어🍀🧸 입니다.

AI 이미지 제너레이터의 대결이 가속화 되고 있습니다. 최근에는 Midjourney 와 Stable Diffusion (SDXL)의 전면전 사이에, Adobe Photoshop의 Generative Fill, 그리고 FireFly의 정식 내재화 이슈가 있었습니다. 물론 Gen2를 비롯한 영상 AI의 퀄리티도 조금씩 좋아지고 있었구요.

그러던 가운데 오늘(09/21) DALL·E 3의 업데이트 예정 소식이 전해졌네요. 함께 보시죠-

10월 초에 DALL·E 3가 옵니다.

DALL·E 3는 10월 초에 오픈 예정이며, ChatGPT Plus 와 Enterprise 유료 사용자 대상으로 먼저 제공됩니다. → OpenAI DALLE 3 소개 페이지 (구독을 조금 더 연장해야 할 듯 합니다..)

DALL·E 3는 ChatGPT 에서 구동됩니다.

전해진 바에 따르면, 우리가 사용중인 ChatGPT 챗봇 내에서 DALL·E 3가 구동되는 방식입니다.

ChatGPT 대화 화면에서 질의를 통해 이미지를 바로 생성하고, ChatGPT에게 다시 이미지 수정을 요청해서 이미지를 다시 생성하고, 반복 업그레이드하고, 필요에 따라서는 다른 형식의 이미지로 변환하는 다양한 기능이 가능해 질 것 같아요.

특히, 스토리 구성에 따른 이미지 연출에 큰 도움이 될 것 같습니다. 원하는 스토리 상의 이미지를 대화를 통해 계속 변형하고, ChatGPT가 아주 잘하는 스토리 구성을 함께 진행하는 방법이죠. 위의 유튜브 영상에서 Larry 라는 고슴도치의 이미지 스토리를 만든 것 처럼 말이에요. (아래 이미지 참조)

Larry가 마지막에는 스티커 이미지로 변환!

최고의 장점 : 처음 사용자를 위한, 쉬운 사용법

DALL·E 3 최고의 장점은, ChatGPT 챗봇을 이용한다는 것이 아닐까요?

왜냐하면, AI 이미지를 처음 생성하는 유저들은 대부분 전문적인 이미지용 프롬프트의 입력이 어려운데, 이런 경우에 챗봇에게 물어보며 이미지를 생성할 수 있는 거니까요. 복잡한 프롬프트를 알아보거나, 프롬프트 목록을 외울 필요가 없다는 겁니다.

먼저 상상하는 이미지 생성을 요청한 다음에 → “더 밝은 느낌으로 그려줘”, “등장인물에게 더 집중된 조명효과를 넣어줘”, “배경은 낙엽이 흩날리는 가을로, 가방은 빨간 색으로 바꿔줘”, “고슴도치 얼굴이 긴장되어 보이는데? 더 편안한 표정으로 바꿔줘”와 같은 가벼운 대화를 통해- 이미지 생성이 가능해진다는 겁니다.

이런 가벼운 대화는 남녀노소 누구나 할 수 있는 것이죠!

물론, DALL·E 3에서 바로 이런 자유로운 대화가 AI 이미지 생성에 제대로 작동하는 지는 아직 알 수 없습니다. 10월이 되어봐야 겠지만, 분명히 되는 질문과 GPT가 이해하더라도 DALL·E 3에서 반영되지 않는 프롬프트가 있을 거에요. 또 일관된 캐릭터 생성이 가능하냐는 또 별개의 문제입니다.

그럼에도 불구하고, “가벼운 대화로 AI 그림을 그릴 수 있게 된다”는 장기적인 방향성은 유효할 것 같습니다.

아쉬운 점 1 : 이미지 퀄리티

DALL·E 3의 샘플 이미지를 보면, DALL·E 2보다는 훨씬 좋아진 것 같긴 하지만, 현재 최고 퀄리티를 보여주는 Midjourney 이미지 레벨의 심미적 아름다움에 도달하진 못해보입니다. 아마 단순한 이미지 퀄리티만의 비교를 위해서는 달리에게 시간이 조금 더 필요 할 것 같습니다. (일러스트/페인팅 보다는 실사 쪽 이미지가 조금 좋아 보이네요. 디지털스러운 도트가 강조되거나, 자연스럽지 않은 빛 처리나 컬러감이 조정되지 않은 요소들이 아직 보입니다.)

DALL·E 3 샘플 이미지

그럼에도 불구하고, 예술가나 디자이너가 아닌 일반 대중이 사용하기에는 그리 나쁘지 않습니다. 하이 퀄리티를 요구하지 않는 로컬 비즈니스나 퍼스널 레벨의 가벼운 용도에는 매우 충분한 이미지로 보여지며, 그 사용상의 편리함은 분명히 비교 우위에 있습니다.

아쉬운 점 2 : 여전히 프롬프트를 이용하고 있다

두 번째 아쉬운 점은 챗봇인 ChatGPT가 질문을 받아서 바로 이미지를 생성하는 것이 아닌, ChatGPT는 질문에 답변으로 프롬프트를 제공해주고, 그 프롬프트를 DALL·E 3가 생성 해주는 것과 같은 구조입니다.

영상에 나온 실제 구동 과정을 보면 : 유저가 ChatGPT에 질문을 던지니, 아래와 같이 4개의 이미지용 프롬프트가 생성되고, 그 자리에 이미지 4개가 대체 생성되는 것을 볼 수 있습니다.

결국 DALL·E 3는 아직 프롬프트를 받아 이미지를 생성하는 AI이고, 사용자와 DALL·E 3 사이에서 ChatGPT가 적절한 프롬프트를 제공하는 번역기와 같은 또는 친절한 중간 역할을 하고 있다는 것입니다.

여기에서 생각해볼 부분은 1) 여전히 이미지용 프롬프트는 유효하다.

그러나 2) 모두가 프롬프트를 공부할 필요가 없도록 AI는 더 쉬워질 것이다 - 라는 것입니다.

아마 Midjourney를 포함한 많은 AI Image Generator 들은 단기적으로 모두 처음 사용자를 위한 챗봇을 내재화 한 형태를 가져갈 것 같습니다. 또 언젠가 이미지용 프롬프트가 필요없는 앱으로 모두 진화하게 될 지도 모릅니다.

현재 Midjourney에서 준비중인 웹버전 & 스토리텔링 기능은 아마 이런 요소를 포함하고 있지 않을까 예상하고 있습니다. 물론 오픈소스 기반의 Stable Diffusion에서도 충분히 도입 될 수 있는 변화이겠죠.

네 명의 강자 : MJ & SD & Adobe & DALLE·3

지난해에 DALL·E 2가 나오면서 본격적인 AI 이미지 시대가 시작되었습니다. 그리고 올해 다시 DALL·E 3가 또 다른 방향으로 시장 전환을 제안하고 있어 즐겁네요.

그리고 다시 미드저니 & 스테이블디퓨전 & 어도비 & 달리3의 4자 구도로 들어갑니다. 또 다른 강자가 나타날 수도 있겠죠.

마무리 : “대화”를 통해 그림을 그리는 시대로

우리 인류는 손이나 연필, 붓으로, 또 마우스나 카메라로 그림을 그려왔습니다. 그리고 예술과 비즈니스의 영역을 확장해왔습니다.

최근에 우리는 처음 텍스트 프롬프트로 그림을 그리기 시작 했지만,
앞으로는 “ 대화로 그림을 그리는 시대 ”가 될 것 같아요.

물론, 오늘의 이러한 흐름도 언젠가는 mid-journey(중간-여정) 정도가 될 것 같지만 말이에요.

10월에 DALL·E 3를 테스트 하면서, 사용기로 돌아오겠습니다. ^^

언제든 다양한 의견 남겨주세요!

참고 뉴스 기사: https://www.yna.co.kr/view/AKR20230921018900091

data-type="image" data-size="original" data-id="2j6cYOz0SLg1PrV0RVE7g" data-version="v2" data-align="center">

Good Night Larry-

2023.09.21 mintbear 🍀🧸

22기 바이브코딩 스터디 대기자 등록이 시작됐어요 💫