오픈AI가 차세대 이미지 생성 도구인 'GPT-Image 1.5'를 전격 출시하며
구글과의 AI 이미지 경쟁에 불을 지폈습니다.
오픈 AI에서 공식적으로 내놓은 보도자료를 보면 업데이트 내용은 이런데요.
[GPT-Image 1.5 핵심 업데이트]
편집 기능이 정밀해졌다.
텍스트 렌더링 및 속도가 강화됐다.
변환 능력이 고도화됐다.
지시 이행 능력이 향상됐다.
실제로 AI로 이미지를 생성하는 입장에서 체감상 어떤 점이 개선됐고,
나노바나나 대비 어떤 해자가 있는지 궁금해져서 직접 실험을 진행하기로했습니다.
Step 1. HLE 수준의 문제 생성하기
먼저, LLM을 시험에 빠뜨리기로했습니다.
최고의 AI가 26.6%밖에 풀지 못한 인류 최후의 시험 Humanity's Last Exam 수준의
이미지 생성 문제를 내달라고했고 꼭 한국어 텍스트를 포함해달라고했 습니다.
(특히 GPT에서) 이미지 생성시 한국어 구현 능력이 현저히 떨어진다고 생각했기 때문입니다.
7분 15초나 생각하더니 무시무시한 시험 문제를 들고왔습니다.
한 장의 “실사 사진”처럼 보이는 초고해상도(8K) 포토리얼 이미지.
장면: 어두운 갤러리/메이커 스페이스 내부, 검은 무광 테이블 위에 ‘광학 테스트용 설치물’이 놓여 있다.
카메라: 35mm 렌즈, 얕은 심도(f/1.8), 자연스러운 보케, 아주 미세한 필름 그레인, 현실적인 노이즈와 렌즈 플레어(과하지 않게).
조명: 천장 스포트라이트 1개 + 뒤쪽 네온 조명 1개 + 테이블 위 작은 LED 1개가 서로 다른 방향에서 빛을 주어 “그림자/반사/굴절”이 모두 생긴다.
색감: 과장 없는 시네마틱 톤, 금속/유리 재질이 실제처럼 느껴지게.
테이블 위 오브젝트(정합성 필수):
1) 뒤쪽 벽에 커다란 네온사인이 걸려 있고, 네온사인에는 반드시 아래 문구가 “띄어쓰기 포함, 한 글자도 틀리지 않게, 깨짐 없이, 가독성 높게” 정확히 적혀 있다(따옴표는 표시하지 말고 문구만):
국내 최대 AI 커뮤니티 지피터스
- 글꼴 느낌: 현대적이고 깔끔한 산세리프(한국어 획이 뭉개지지 않게), 글자 가장자리 번짐 없이 또렷하게.
- 이 문구는 이미지에서 가장 눈에 잘 띄는 텍스트여야 한다.
2) 테이블 위에는 “정사각형 거울(프레임 얇은 금속)”이 세워져 있고, 거울에는 위 네온사인이 ‘물리적으로 올바른 좌우반전’으로 정확히 반사되어 보인다.
- 반사된 글자의 자간/행간/획 형태가 원본 네온사인과 대응되게 자연스럽고 선명해야 한다.
- 거울 표면에는 미세한 먼지와 손자국이 아주 약하게 보이되, 글자 가독성은 유지.
3) 테이블 중앙에는 “투명 유리 프리즘(삼각기둥)”이 있고, 프리즘을 통해 네온사인의 일부 글자가 굴절되어 보인다.
- 굴절은 현실적인 스넬의 법칙 느낌으로 자연스럽게 휘고, 프리즘 가장자리에 분산(약한 무지개 스펙트럼)이 살짝 생긴다.
- 굴절된 글자도 ‘완전히 다른 글자’로 깨지지 말고, 원본 글자의 일부가 왜곡된 형태로 알아볼 수 있어야 한다.
4) 프리즘 옆에는 “브러시드 메탈 명판(각인)”이 놓여 있고, 명판의 각인 텍스트로도 정확히 다음 문구가 새겨져 있다:
국내 최대 AI 커뮤니티 지피터스
- 각인은 음각/양각이 확실히 느껴지고, 빛에 따라 하이라이트가 바뀌며, 금속 결 방향이 사실적.
- 각인 글자도 오타/깨짐/의미불명 글자 금지. 정확한 한글이어야 함.
5) 테이블 앞쪽에는 얇은 “아크릴 시트(레이저 컷팅)”가 있고, 컷팅된 글자 형태가 스포트라이트에 의해 테이블 표면에 ‘그림자 투영’으로 선명하게 드러난다.
- 그림자에 나타나는 문구 역시 정확히 다음 문구여야 한다(가독성 유지):
국내 최대 AI 커뮤니티 지피터스
- 그림자는 광원 방향에 맞게 자연스럽게 기울고, 가장자리가 약간 소프트하지만 글자 형태는 분명.
6) 사람 요소(난이도 추가): 프레임 오른쪽 아래에 성인 한 손이 프리즘을 살짝 잡고 있다.
- 손가락 5개 정확, 관절/손톱/피부결 현실적, 기형/추가 손가락/녹아내림 금지.
- 손이 만드는 그림자도 광원과 일치.
추가 제약:
- 이미지 안에 의미 없는 랜덤 문자, 깨진 한글, 알파벳 난수 텍스트가 절대 등장하면 안 된다.
- “국내 최대 AI 커뮤니티 지피터스” 문구는 최소 2곳 이상에서 완벽하게 읽을 수 있어야 한다(네온사인은 필수로 완벽 가독).
- 전체 장면의 반사/굴절/그림자 방향이 서로 모순되지 않게 물리적으로 일관되어야 한다.
- 과도한 판타지/일러스트 느낌 금지. ‘실사 사진’처럼.Step2. 평가 지표 만들기
문구 정확도(가장 중요): “국내 최대 AI 커뮤니티 지피터스”가 오타 0 / 띄어쓰기 0 / 깨짐 0인가?
가독성: 네온사인 문구가 한눈에 읽히는지(번짐 과하면 감점)
거울 반사 정합성: 거울 속 텍스트가 “그럴듯한 텍스트”가 아니라 원문과 대응되는 반사인가?
프리즘 굴절 일관성: 굴절이 “멋있게 왜곡”이 아니라 원문 일부가 물리적으로 휘어 보이는 형태인가?
각인(메탈 명판) 품질: 각인의 깊이/하이라이트/금속 결이 현실적인지 + 텍스트 정확도
손 디테일: 손가락/관절/그림자가 정상인지(여기서 많이 무너집니다)
STEP 3 이미지 생성하기
GPT와 제미나이에 각각 프롬프트를 주고 이미지를 생성합니다.
[Nanobanana Pro]
[GPT-Image 1.5]
언뜻 봐도 텍스트 구현은 나노바나나의 완승입니다.
지피티의 텍스트 구현이 많이 개선되기는했지만 여전히 부족하네요.
STEP 4 평가하기
조금 잔인하지만 GPT에게 결과물에 대한 평가를 요청했습니다.
인간 지능으로도 결과가 나오긴했지만 AI의 평가가 궁금했어요.
정직한 GPT는 ..
Gemini의 나노바나나 프로의 손을 들어줬습니다.
6가지 지표별 평가
1. 문구 정확도
• 1번: 통과 — 네온사인에 국내 최대 AI 커뮤니티 지피터스가 오타/띄어쓰기 정확함
• 2번: 통과 — 상단 네온 문구는 정확.
2. 가독성
• 1번: 우수 — 네온이 가장 눈에 띄고 획이 비교적 선명.
• 2번: 양호 — 살짝 소프트/블러가 있지만 읽힘.
3. 거울 반사 정합성
• 1번: 실패(하지만 더 그럴듯함) — 반사 텍스트가 원문과 대응되지 않고 깨진 문자/영문이 섞임.
• 2번: 실패(감점 더 큼) — 거울에 **다른 문구(‘스터피지…’)**가 또렷하게 등장(“랜덤 문자 금지” 조건에 더 크게 위배).
4. 프리즘 굴절 일관성
• 1번: 부분 실패(덜 치명적) — 프리즘 내부 텍스트가 원문 일부 굴절이라기보단 임의 표기 느낌. 다만 노출 면적이 작아 덜 거슬림.
• 2번: 실패(치명적) — 프리즘/큐브에 **원문과 무관한 글자(예: ‘자…’, ‘커피터’ 등)**가 크게 보임.
5. 각인(메탈 명판) 품질
• 1번: 우수 — 브러시드 메탈 질감/각인 깊이 표현이 있고, 각인 텍스트도 목표 문구로 보임.
• 2번: 미흡 — 메탈 명판(각인) 요소가 사실상 없거나 대체(아크릴)되어 프롬프트 충족도가 낮음.
6. 손 디테일
• 1번: 양호 — 형태는 자연스럽지만 질감이 약간 덜 실사.
• 2번: 우수 — 피부결/관절/그림자 디테일이 더 자연스러움.실제로 비교해보고 체감한 부분
나노바나나의 강점/이점
텍스트 ‘고정력’이 상대적으로 좋음
요구사항 준수(컴플라이언스) 쪽이 강함
그래픽적 선명도: 네온 같은 하이컨트라스트 요소를 또렷하게 뽑아 “읽히게” 만드는 경향.
GPT-Image 1.5 생성 강점/이점
실사 표현이 강함: 피부결, 하이라이트, 보케, 공간감이 더 자연스럽게 나옴
재질 표현(유리/아크릴/금속 느낌)과 무드 연출이 좋음
손/사람 요소 안정성: 난이도 높은 손 디테일에서 무너짐이 상대적으로 적은 편.
<GPT의 약점>
텍스트가 ‘의미 있는 문장’으로 유지되기 어려움
지시 이행 능력이 개선됐지만 부족함
나노바나나 = 요구사항(특히 텍스트/문구) 충족에 강한 ‘제작형’
GPT 이미지 생성 = 실사 무드/재질/인물 디테일에 강한 ‘촬영형’
요구사항 준수력이 높은 나노바나나로 1차 이미지를 생성하고
GPT로 실사/무드 업그레이드를 하는 2단 파이프라인으로 활용할 수 있습니다.
만! 아직은 나노 바나나만 사용해도 무리는 없을 것 같다는 개인적인 결론입니다.
🍀 두가지 모델을 모두 활용해보신 분들의 의견도 궁금해요!