gpt-image-1, 써봤더니 모델이 3개였습니다
ChatGPT에서 “이미지 생성” 버튼 하나를 눌렀을 뿐인데, 뒤에서 실제로 돌아가는 모델 이름은 따로 있습니다. gpt-image-1이 그 주인공이고, 지금 API 문서에는 mini·1·1.5 세 가지가 나란히 올라와 있습니다. 그런데 대부분은 이 셋을 구분하지 않고 그냥 씁니다.
DALL-E 3 deprecated 2026.05.12
1회 최대 생성 시간 2분
gpt-image-1이 뭔지부터 — ChatGPT 뒤에서 돌아가는 실제 모델
ChatGPT 대화창에서 이미지를 생성하면, 내부적으로는 gpt-image-1 계열 모델이 호출됩니다. OpenAI가 2025년 3월 26일 ChatGPT에 먼저 탑재하고, 같은 날 API로도 공개했습니다. (출처: OpenAI 공식 API 문서, platform.openai.com/docs/guides/image-generation, 2026.03.28 확인)
기존에 쓰이던 DALL-E 3는 이 시점부터 ChatGPT에서 빠졌습니다. API에서는 여전히 쓸 수 있었지만, OpenAI가 2025년 11월 14일 deprecation 공지를 내고 2026년 5월 12일에 API 지원을 완전히 종료한다고 명시했습니다. 즉, 지금도 DALL-E 3 API를 쓰고 있다면 올해 5월 이후엔 에러가 납니다.
공식 문서에는 gpt-image-1을 가리켜 “superior instruction following, text rendering, detailed editing, real-world knowledge”라고 설명하고 있습니다. DALL-E 시리즈와 달리 텍스트 렌더링 능력이 대폭 올라갔다는 게 핵심입니다.
모델 3종 구조 — mini / 1 / 1.5 뭐가 다른가
API 문서를 직접 열어보면 GPT Image 계열이 gpt-image-1-mini, gpt-image-1, gpt-image-1.5 세 가지로 나뉩니다. 단순히 “최신 모델”로 뭉뚱그려 부르면 비용이나 품질에서 의도치 않은 결과가 나올 수 있습니다.
| 모델 | 특징 | High 품질 1024×1024 | Low 품질 1024×1024 |
|---|---|---|---|
| gpt-image-1-mini | 비용 절감 최우선 | $0.036 | $0.005 |
| gpt-image-1 | 균형형, 출시 당시 기준 | $0.167 | $0.011 |
| gpt-image-1.5 | 최고 품질, state of the art | $0.133 | $0.009 |
(출처: OpenAI 공식 API 가격 문서, platform.openai.com/docs/guides/image-generation, 2026.03.28 확인)
여기서 주목할 부분은 gpt-image-1.5가 gpt-image-1보다 High 품질 기준으로 오히려 저렴합니다. 최신 모델이 더 비쌀 거라는 통념과 다릅니다. OpenAI가 공식 답변을 내놓지 않은 부분이지만, 아키텍처 개선으로 토큰 효율이 높아진 결과로 보입니다.
gpt-image-1-mini는 Low 품질 기준 장당 $0.005로, 구식 DALL-E 2(256×256 기준 $0.016)보다 오히려 저렴합니다. 대량 생성이 필요한 프로젝트라면 이 부분을 먼저 계산해보는 게 맞습니다.
가격이 생각보다 복잡합니다 — 이미지 1장에 드는 실제 비용
가격 문서에 나온 숫자는 출력 이미지 토큰만의 비용입니다. 실제로는 여기에 입력 텍스트 토큰 + 이미지 편집 시 입력 이미지 토큰이 추가됩니다. (출처: OpenAI 공식 API 가격 문서, platform.openai.com/docs/guides/image-generation, 2026.03.28 확인)
고품질 설정에서 1024×1024 이미지를 만들 때 생성되는 출력 토큰 수는 4,160개입니다. 이미지 토큰 단가($40/1M)를 직접 곱하면 4,160 × ($40 ÷ 1,000,000) = $0.167/장이 나옵니다. 공식 가격표 숫자와 정확히 맞아떨어집니다.
💡 공식 문서와 실제 청구 내역을 같이 놓고 보니 이런 차이가 보였습니다
스트리밍 옵션(partial_images)을 쓰면 중간 프리뷰 이미지 1장당 100토큰씩 추가 과금됩니다. partial_images: 2로 설정하면 최종 이미지 비용 외에 200토큰이 더 붙습니다. High 품질 기준 한 요청당 최대 약 $0.174까지 오를 수 있습니다. 스트리밍을 켜면 UX는 좋아지지만, 비용이 눈에 안 띄게 올라갑니다.
high input fidelity 옵션을 켜면 입력 이미지 토큰도 늘어납니다. 얼굴이나 로고를 최대한 정확히 유지하고 싶을 때 쓰는 옵션인데, gpt-image-1 기준 첫 번째 입력 이미지만 높은 충실도로 처리되고, gpt-image-1.5는 첫 5장까지 적용됩니다. 두 모델이 다르게 동작하는 부분이라 확인이 필요합니다.
DALL-E 3와 쓰다 보면 느끼는 이상한 차이
막상 써보면 gpt-image-1이 DALL-E 3보다 품질이 좋다는 말이 100% 맞지는 않습니다. OpenAI 공식 커뮤니티에는 “instruction following은 gpt-image-1이 낫지만, 창의성·예술성·몽환적 표현은 DALL-E 3가 앞선다”는 보고가 상당수 올라와 있습니다. (출처: OpenAI Community, community.openai.com/t/gpt-image-is-so-dull-and-uninspiring-vs-dall-e3/1243996, 2025.04.27)
기술적으로 보면, gpt-image-1은 “현실 세계 지식 기반”으로 이미지를 합성하기 때문에 사진처럼 사실적인 결과에 편향돼 있습니다. 반면 DALL-E 3는 텍스트 설명을 더 자유롭게 해석해 환상적·추상적 표현에 유리합니다.
💡 두 모델의 생성 흐름을 나란히 놓고 비교해보니 구조적 차이가 보였습니다
DALL-E 3는 프롬프트를 ChatGPT가 먼저 변환(rewrite)해서 이미지 모델에 넘기는 2단계 구조였습니다. 이 변환 과정에서 창의적인 해석이 자연스럽게 붙었습니다. gpt-image-1은 이 중간 단계 없이 프롬프트를 더 문자 그대로 처리합니다. Responses API에서 revised_prompt 필드를 보면, 메인 언어 모델이 자동으로 프롬프트를 보완해 넘기는 구조는 여전히 있습니다. 단, “얼마나 창의적으로 해석할 것인가”의 여지가 DALL-E 3 시절보다 좁아진 것입니다.
실용적인 결론을 내리자면, 사진 합성·제품 이미지·텍스트 삽입이 있는 이미지는 gpt-image-1이 월등합니다. 일러스트·개념화·판타지 표현이라면 gpt-image-1에서 프롬프트를 더 길고 명확하게 쓰는 쪽이 DALL-E 3와의 차이를 줄이는 실질적인 방법입니다.
API 2개 중 상황에 따라 골라야 하는 이유
gpt-image-1을 쓸 수 있는 API는 두 가지입니다. Image API와 Responses API. 이름이 다른 만큼 기능도 다릅니다.
| 구분 | Image API | Responses API |
|---|---|---|
| 주요 용도 | 단일 이미지 생성·편집 | 대화형 멀티턴 생성·편집 |
| 멀티턴 편집 | ❌ 불가 | ✅ 가능 (previous_response_id) |
| 입력 이미지 방식 | 바이트(bytes)만 | URL · base64 · File ID 모두 |
| 스트리밍 | ✅ 지원 | ✅ 지원 |
| 투명 배경 | ✅ PNG·WebP 한정 | ✅ PNG·WebP 한정 |
(출처: OpenAI 공식 API 문서, platform.openai.com/docs/guides/image-generation, 2026.03.28 확인)
Responses API에서 강제로 edit 모드를 쓸 때, 컨텍스트에 이미지가 없으면 에러가 납니다. 공식 문서에 “If you force edit without providing an image in context, the call will return an error”라고 딱 나와 있습니다. action 파라미터를 auto로 두는 게 안전합니다.
솔직히 말하면 단순 이미지 1장만 생성하는 용도라면 Image API 쪽이 훨씬 간결합니다. “이전 이미지를 조금만 수정해줘”처럼 반복 대화가 필요한 서비스라면 Responses API가 맞습니다.
2026.05.12 이후 — DALL-E 3 사라지면 뭘 써야 하나
OpenAI는 2025년 11월 14일 공지를 통해 DALL-E 2·3 모델 스냅샷을 2026년 5월 12일부로 API에서 완전히 제거하겠다고 발표했습니다. (출처: OpenAI 공식 API 문서, platform.openai.com/docs/guides/image-generation, 2026.03.28 확인) 지금 기준으로 46일 남았습니다.
⚠️ 현재 DALL-E 3 API를 서비스에 연결하고 있다면
5월 12일 이후 API 호출 시 에러가 반환됩니다. 대체 모델은 gpt-image-1.5 또는 gpt-image-1입니다. Image API 엔드포인트 자체는 동일하게 유지되므로, model 파라미터 값만 교체하면 됩니다.
DALL-E 3를 쓰던 서비스를 gpt-image-1으로 마이그레이션할 때 주의해야 할 실제 변화가 있습니다. DALL-E 3는 최대 1792×1024 해상도였고, 비율도 1:1·16:9·9:16 세 가지였습니다. gpt-image-1은 1024×1024·1536×1024·1024×1536 세 가지입니다. 해상도 선택지가 그대로 호환되지 않으므로, UI에서 크기 선택 기능을 쓰고 있었다면 별도 수정이 필요합니다.
또한, DALL-E 3에는 있었던 Variations 엔드포인트가 gpt-image-1에는 없습니다. 이 기능은 DALL-E 2에만 남아있고, DALL-E 2도 함께 deprecated됩니다. 이미지 변형 기능을 쓰고 있었다면 프롬프트 기반 재생성 방식으로 로직을 바꿔야 합니다.
자주 나오는 질문 5가지
Q1. gpt-image-1은 ChatGPT 무료 플랜에서도 쓸 수 있나요?
Q2. gpt-image-1.5와 gpt-image-1, 어느 쪽을 쓰는 게 좋나요?
Q3. 이미지 생성에 시간이 너무 오래 걸리는데 정상인가요?
Q4. 투명 배경 이미지를 만들 수 있나요?
Q5. DALL-E 3 코드를 그대로 gpt-image-1으로 바꿀 수 있나요?
마치며
gpt-image-1은 “DALL-E가 더 좋아진 버전”이 아닙니다. 목적 자체가 다릅니다. 정밀한 지시를 따르는 실용형 이미지 엔진이고, 창의적 해석을 원한다면 프롬프트에서 그 여지를 직접 만들어줘야 합니다. 이 부분을 모르고 쓰면 기대보다 밋밋한 결과가 나옵니다.
비용 구조도 생각보다 복잡합니다. 출력 토큰 가격만 보면 안 되고, 스트리밍·high fidelity 옵션이 붙으면 요청당 비용이 달라집니다. 반면 mini 모델을 쓰면 DALL-E 2보다 저렴하게 대량 생성이 가능해서, 용도에 따라 비용 최적화 폭이 꽤 넓습니다.
DALL-E 3 API를 여전히 서비스에 쓰고 있다면, 2026년 5월 12일 이전에 마이그레이션을 마치는 게 맞습니다. 지금 당장 긴급하지 않더라도, model 파라미터 교체 + 해상도 옵션 점검 + Variations 로직 대체라는 세 가지 체크포인트는 미리 확인해두는 게 낫습니다.
📚 본 포스팅 참고 자료
- OpenAI 공식 이미지 생성 가이드 — platform.openai.com/docs/guides/image-generation
- OpenAI 공식 API 가격표 — openai.com/api/pricing
- OpenAI Community — gpt-image vs DALL-E 3 창의성 비교 — community.openai.com
- TechRadar — gpt-image-1 vs DALL-E 3 비교 리뷰 (2025.03.28) — techradar.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI는 모델 업데이트 주기가 빠르므로, 실제 적용 전 공식 문서를 직접 확인하는 것을 권장합니다. 가격은 2026.03.28 기준이며 환율에 따라 원화 환산 금액은 달라집니다.











댓글 남기기