GPT-5.4 mini, 코딩은 94%인데 이 조건에서 무너집니다

magister

Published on

2026년 3월 29일

IT/AI

2026.03.18 출시 기준
OpenAI 공식 발표 기반

GPT-5.4 mini, 코딩은 94%인데
이 조건에서 무너집니다

2026년 3월 18일 출시된 GPT-5.4 mini — 코딩 성능 수치만 보면 본 모델 대비 94%인데, 공식 발표문에 같이 실린 숫자 하나가 사용 범위를 완전히 바꿔놓습니다.

54.4%

SWE-bench Pro (공식)

33.6%

장문 정확도 128K~256K

$0.75

입력 1M 토큰 (3배 인상)

GPT-5.4 mini는 어떤 모델인가

GPT-5.4 mini는 OpenAI가 2026년 3월 18일 공개한 경량 추론 모델입니다. 같은 날 GPT-5.4 nano도 함께 나왔는데, 두 모델 모두 GPT-5.4 본 모델의 핵심 역량을 빠르고 저렴하게 가져오는 것이 목표입니다. OpenAI 공식 발표 문구를 그대로 옮기면, “GPT-5.4의 강점 상당 부분을 빠르고 효율적인 모델에 담아냈다(bring many of the strengths of GPT-5.4 to faster, more efficient models)”고 적혀 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

이 모델이 등장한 배경을 이해하려면 GPT-5.4 본 모델의 포지셔닝부터 짚어야 합니다. 2026년 3월 5일 출시된 GPT-5.4는 추론 깊이에 따라 Instant(5.3), Thinking(5.4), Pro(5.4) 세 티어로 나뉩니다. 그런데 이 중 무료 사용자가 실질적으로 쓸 수 있는 추론 기능은 없었습니다. GPT-5.4 mini의 출시로 무료(Free)·Go 플랜 사용자도 ChatGPT + 메뉴의 ‘잘 생각하기’를 통해 Thinking 기능을 처음으로 쓸 수 있게 됐습니다.

API 기준 기본 스펙은 컨텍스트 윈도우 400,000 토큰, 최대 출력 128,000 토큰, 입력 토큰 $0.75/1M, 출력 토큰 $4.50/1M입니다. (출처: OpenAI 공식 발표, 2026.03.17) nano의 경우 입력 $0.20/1M, 출력 $1.25/1M으로 더 저렴하지만 API 전용이며 ChatGPT에서는 사용할 수 없습니다.

💡 GPT-5 mini(이전 세대)와 나란히 놓고 보면 이렇습니다. mini 라인만 비교해도 코딩(SWE-bench Pro) 45.7% → 54.4%로 상승했고, 컴퓨터 사용(OSWorld-Verified)은 42.0% → 72.1%로 급등했습니다. 숫자만 보면 준수한 업그레이드인데, 공식 발표문에 함께 실린 장문 처리 수치는 전혀 다른 이야기를 합니다.

▲ 목차로 돌아가기

코딩 성능 94% — 이게 어느 수준인가

OpenAI 공식 발표에 실린 벤치마크 표를 직접 계산해봤습니다. GPT-5.4 mini의 SWE-bench Pro(공개) 점수는 54.4%, GPT-5.4 본 모델은 57.7%입니다. 차이를 계산하면 이렇습니다.

📊 SWE-bench Pro 성능 비율 계산

54.4 ÷ 57.7 × 100 ≈ 94.3%

출처: OpenAI 공식 발표 ‘Introducing GPT-5.4 mini and nano’ (2026.03.17)

즉, 코딩 실력만 따지면 GPT-5.4 mini는 본 모델의 94%를 냅니다. 그리고 가격은 본 모델($2.50/1M 입력)의 30%입니다. 순수 코딩 작업에서 비용 대비 효율은 mini가 훨씬 앞선다는 계산이 나옵니다.

Terminal-Bench 2.0에서도 60.0%를 기록했는데, 이는 GPT-5 mini(38.2%)보다 21.8%p 높은 수치입니다. 에이전트가 터미널에서 코드를 실행하고, 오류를 잡고, 결과를 검증하는 복합 흐름에서 이전 mini보다 분명히 강해졌습니다. 에이전트형 코딩 도구를 만드는 개발자라면 이 수치가 실질적으로 체감될 부분입니다.

💡 공식 발표문과 벤치마크 표를 교차해 읽어보면 이런 패턴이 보입니다. OpenAI는 mini를 “코딩 워크플로우에 특히 효과적(especially effective in coding workflows)”이라고 명시했고, 실제로 코딩 지표에서 본 모델과의 격차는 생각보다 작습니다. 그런데 같은 표 안에 있는 장문 처리 지표는 이야기가 완전히 달라집니다.

▲ 목차로 돌아가기

Codex 쿼터를 3.3배 늘리는 계산법

GPT-5.4 mini를 쓸 만한 이유 중 기존 블로그에서 잘 안 다루는 포인트가 하나 있습니다. Codex에서 GPT-5.4 mini는 GPT-5.4의 쿼터를 30%만 소모합니다. 공식 발표문에 딱 이렇게 나옵니다.

“GPT-5.4 mini uses only 30% of the GPT-5.4 quota, letting developers quickly handle simpler coding tasks in Codex for about one-third the cost.”
(출처: OpenAI 공식 블로그, 2026.03.17)

30%만 쓴다는 게 실제로 어떤 의미인지 직접 계산해보면 이렇습니다.

📊 Codex 쿼터 효율 계산

GPT-5.4로 100회 작업 가능한 쿼터 → mini 사용 시: 100 ÷ 0.3 = 약 333회

즉, 동일 쿼터로 3.3배 더 많은 작업을 처리할 수 있습니다.

출처: OpenAI 공식 블로그, 2026.03.17 / 계산 기준: Codex 쿼터 소모 비율 30%

OpenAI가 권장하는 실전 활용 패턴도 공식 발표문에 나와 있습니다. GPT-5.4가 계획·조율·최종 판단을 맡고, GPT-5.4 mini 서브에이전트가 코드베이스 검색, 대형 파일 검토, 지원 문서 처리 같은 병렬 작업을 처리하는 구조입니다. 계획은 플래그십이, 실행은 mini가 나눠 맡으면 쿼터를 아끼면서 품질도 유지됩니다.

▲ 목차로 돌아가기

장문 컨텍스트에서 왜 무너지는가

이 부분이 GPT-5.4 mini를 쓸 때 가장 주의해야 할 지점입니다. 공식 발표문의 벤치마크 표 하단에 Long Context 항목이 따로 있는데, 거기서 수치가 급격히 달라집니다.

벤치마크	GPT-5.4	GPT-5.4 mini	GPT-5 mini
OSWorld-Verified (컴퓨터 사용)	75.0%	72.1%	42.0%
SWE-bench Pro (코딩)	57.7%	54.4%	45.7%
MRCR v2 8-needle 64K~128K	86.0%	47.7%	35.1%
MRCR v2 8-needle 128K~256K	79.3%	33.6%	19.4%

출처: OpenAI 공식 발표 ‘Introducing GPT-5.4 mini and nano’ (2026.03.17)

이 표가 말해주는 것을 한 문장으로 정리하면 이렇습니다. 코딩과 컴퓨터 사용에서는 본 모델과 거의 차이가 없지만, 128K~256K 범위의 장문 처리에서는 79.3% vs 33.6%로 본 모델의 42% 수준밖에 안 됩니다.

⚠️ 실제로 어떤 작업에서 문제가 생기나?

대형 코드베이스 전체를 컨텍스트에 넣고 버그 위치를 찾아달라고 할 때
100페이지 이상 PDF 계약서나 기술 문서를 분석할 때
긴 대화 히스토리를 유지하며 앞부분 내용을 참조해야 하는 에이전트
법률·금융 문서에서 특정 조항을 정확히 찾아야 하는 경우

MRCR(Multi-Range Context Retrieval)은 긴 문서 안에 숨겨진 정보 8개를 정확히 찾아내는 벤치마크입니다. 문서가 길어질수록 mini의 정확도가 급격히 떨어지는 이유는 경량화 과정에서 어텐션 메커니즘의 긴 범위 처리 용량이 줄어들었기 때문으로 보이나, OpenAI가 공식 이유를 밝히지 않은 부분입니다.

▲ 목차로 돌아가기

가격 3배 인상, 그래서 쓸 만한가

GPT-5.4 mini의 입력 토큰 단가는 $0.75/1M입니다. 이전 세대인 GPT-5 mini의 입력 단가는 $0.25/1M이었습니다. 정확히 3배 인상입니다. 출력은 기존 $2.00/1M에서 $4.50/1M으로 2.25배 올랐습니다. (출처: 나무위키 GPT-5 문서, 나무.위키/w/GPT-5, 2026.03.26 기준)

가격 인상 폭만 보면 거부감이 생기는 게 당연합니다. 그런데 GPT-5.4 mini와 GPT-5 mini를 코딩 벤치마크 기준으로 비교하면, 이 인상이 실질적으로 얼마나 합리적인지 계산할 수 있습니다.

📊 비용 대비 코딩 성능 비율

GPT-5 mini: SWE-bench 45.7% / 비용 $0.25 입력 → 성능/비용 = 182.8

GPT-5.4 mini: SWE-bench 54.4% / 비용 $0.75 입력 → 성능/비용 = 72.5

비용 대비 효율은 GPT-5 mini가 2.5배 높음. 단, 작업 당 정확도와 재시도 비용 포함 시 달라질 수 있음.

단순 토큰 단가 효율은 GPT-5 mini가 더 낫습니다. 그러나 막상 에이전트나 복잡한 코딩 작업에서는 GPT-5 mini가 첫 번째 시도에서 실패해 여러 번 재시도하는 상황이 생깁니다. SWE-bench 기준 8.7%p 차이는 복잡한 작업일수록 실패율 차이가 크게 벌어진다는 의미입니다. 단순 분류·요약 작업이면 GPT-5 mini가 여전히 합리적이고, 에이전트형 코딩 워크플로우에서는 mini 업그레이드가 의미 있습니다.

▲ 목차로 돌아가기

GPT-5.4 mini를 써도 되는 조건과 피해야 할 조건

지금까지 확인한 공식 수치를 바탕으로 실제 사용 선택 기준을 정리하면 이렇습니다.

✅ 이 작업에는 mini가 맞습니다

코드 수정·버그 픽스 (SWE-bench 54.4%)
컴퓨터 사용 작업 — 스크린샷 해석·클릭·브라우징 (OSWorld 72.1%)
Codex 서브에이전트로 병렬 처리할 때
도구 호출(Function Calling) 중심 에이전트
ChatGPT Free·Go 사용자의 Thinking 기능 이용

❌ 이 작업에는 GPT-5.4 본 모델이 필요합니다

128K~256K 범위의 장문 문서 정밀 검색 (33.6% 수준)
대규모 법률·계약 문서 전체 분석
긴 코드베이스 전체를 단일 컨텍스트로 처리해야 할 때
멀티 소스 심층 리서치 (BrowseComp 수준)

💡 컨텍스트 길이 400,000 토큰을 지원한다고 해서 장문 처리 정확도가 보장되는 건 아닙니다. 최대 컨텍스트 윈도우 크기와 그 범위에서 실제로 얼마나 정확하게 정보를 찾는지는 별개의 문제입니다. 공식 발표문이 두 수치를 모두 공개한 점이 의미 있는 이유가 여기 있습니다.

▲ 목차로 돌아가기

Q&A

GPT-5.4 mini는 ChatGPT 무료 플랜에서 쓸 수 있나요? ▼

네, 사용할 수 있습니다. Free·Go 플랜 사용자는 ChatGPT + 메뉴에서 ‘잘 생각하기’ 버튼을 눌러 GPT-5.4 mini의 Thinking 기능을 이용할 수 있습니다. Plus 이상 사용자는 GPT-5.4 Thinking 한도를 소진한 후 자동으로 GPT-5.4 mini로 전환됩니다. (출처: OpenAI 공식 발표, 2026.03.17)

GPT-5.4 nano는 ChatGPT에서 사용할 수 없나요? ▼

현재는 API 전용입니다. GPT-5.4 nano는 API에서만 사용할 수 있으며, ChatGPT UI에서는 선택할 수 없습니다. 입력 $0.20/1M, 출력 $1.25/1M으로 mini보다 저렴하며 분류·데이터 추출·랭킹·서브에이전트 작업에 적합합니다. (출처: OpenAI 공식 발표, 2026.03.17)

GPT-5.4 mini의 컨텍스트 윈도우가 400K라는데, 본 모델(1M+)보다 작은 건가요? ▼

맞습니다. GPT-5.4 본 모델은 최대 1,050,000 토큰을 지원하지만, mini와 nano는 모두 400,000 토큰으로 제한됩니다. 단순히 크기만의 문제가 아니라, 실제 장문 정확도(MRCR 벤치마크)에서도 본 모델 대비 큰 차이가 있습니다. (출처: OpenAI 나무위키 문서, 2026.03.26 기준 / OpenAI 공식 발표)

기존 GPT-5 Thinking mini는 언제 종료되나요? ▼

2026년 4월 18일(KST)부터 지원이 종료됩니다. GPT-5.4 mini 출시로 GPT-5 Thinking mini의 서비스가 순차적으로 마감됩니다. 해당 모델을 API에서 사용 중이라면 model ID 교체 작업이 필요합니다. (출처: 나무위키 GPT-5 문서, 2026.03.26 기준)

GPT-5.4 mini API model ID는 무엇인가요? ▼

OpenRouter 기준 openai/gpt-5.4-mini로 확인됩니다. OpenAI API 공식 문서에서는 gpt-5.4-mini를 사용하고, GPT-5.4 nano는 gpt-5.4-nano입니다. 최신 정보는 OpenAI API 모델 문서에서 직접 확인하세요.

▲ 목차로 돌아가기

마치며 — GPT-5.4 mini를 어떻게 볼 것인가

GPT-5.4 mini는 코딩·컴퓨터 사용 중심 작업에서 본 모델 성능의 90% 이상을 내면서, Codex 쿼터는 30%만 씁니다. 단순 코딩 보조 도구나 에이전트 서브에이전트 역할로는 이 시점에 나온 mini 모델 중 가장 실용적입니다.

반면 장문 문서를 정밀하게 읽어야 하는 작업에서는 본 모델과의 성능 차이가 크게 벌어집니다. 128K~256K 범위에서의 정확도 33.6%는, 400K 컨텍스트를 지원한다는 스펙과는 별개의 이야기입니다. 컨텍스트 윈도우 크기와 그 안에서의 실제 정확도를 구분해서 봐야 한다는 점을 이번 공식 발표가 직접 보여줬습니다.

가격 3배 인상은 단순 토큰 효율로만 보면 아쉽지만, 에이전트 코딩 플로우에서 GPT-5 mini로 여러 번 재시도해야 하는 상황이라면 실질 비용은 생각보다 좁혀질 수 있습니다. 어떤 작업을 주로 하느냐에 따라 판단이 달라지는 모델입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano (2026.03.17)
OpenAI 공식 블로그 — Introducing GPT-5.4 (2026.03.05)
OpenAI API 공식 문서 — GPT-5.4 mini Model
OpenAI API 가격 공식 페이지 — openai.com/api/pricing/
나무위키 GPT-5 문서 — namu.wiki/w/GPT-5 (2026.03.26 기준)

본 포스팅은 2026년 3월 29일 기준 공개된 OpenAI 공식 발표 자료를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다.
API 요금 및 모델 스펙은 반드시 공식 가격 페이지에서 최신 정보를 확인하세요.

Aardvark OpenAI, AI 모델 비교, ChatGPT Codex, GPT-5.4 mini, 실시간 코딩 AI

GPT-5.4 mini, 코딩은 94%인데 이 조건에서 무너집니다

GPT-5.4 mini, 코딩은 94%인데
이 조건에서 무너집니다

GPT-5.4 mini는 어떤 모델인가

코딩 성능 94% — 이게 어느 수준인가

Codex 쿼터를 3.3배 늘리는 계산법

장문 컨텍스트에서 왜 무너지는가

가격 3배 인상, 그래서 쓸 만한가

GPT-5.4 mini를 써도 되는 조건과 피해야 할 조건

Q&A

마치며 — GPT-5.4 mini를 어떻게 볼 것인가

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4 mini, 코딩은 94%인데 이 조건에서 무너집니다

GPT-5.4 mini, 코딩은 94%인데이 조건에서 무너집니다

GPT-5.4 mini는 어떤 모델인가

코딩 성능 94% — 이게 어느 수준인가

Codex 쿼터를 3.3배 늘리는 계산법

장문 컨텍스트에서 왜 무너지는가

가격 3배 인상, 그래서 쓸 만한가

GPT-5.4 mini를 써도 되는 조건과 피해야 할 조건

Q&A

마치며 — GPT-5.4 mini를 어떻게 볼 것인가

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

GPT-5.4 mini, 코딩은 94%인데
이 조건에서 무너집니다