GPT-5.4 mini, 코딩은 94%인데 이 조건에서 무너집니다

Published on

in

GPT-5.4 mini, 코딩은 94%인데 이 조건에서 무너집니다

2026.03.18 출시 기준
OpenAI 공식 발표 기반

GPT-5.4 mini, 코딩은 94%인데
이 조건에서 무너집니다

2026년 3월 18일 출시된 GPT-5.4 mini — 코딩 성능 수치만 보면 본 모델 대비 94%인데, 공식 발표문에 같이 실린 숫자 하나가 사용 범위를 완전히 바꿔놓습니다.

54.4%
SWE-bench Pro (공식)
33.6%
장문 정확도 128K~256K
$0.75
입력 1M 토큰 (3배 인상)

GPT-5.4 mini는 어떤 모델인가

GPT-5.4 mini는 OpenAI가 2026년 3월 18일 공개한 경량 추론 모델입니다. 같은 날 GPT-5.4 nano도 함께 나왔는데, 두 모델 모두 GPT-5.4 본 모델의 핵심 역량을 빠르고 저렴하게 가져오는 것이 목표입니다. OpenAI 공식 발표 문구를 그대로 옮기면, “GPT-5.4의 강점 상당 부분을 빠르고 효율적인 모델에 담아냈다(bring many of the strengths of GPT-5.4 to faster, more efficient models)”고 적혀 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

이 모델이 등장한 배경을 이해하려면 GPT-5.4 본 모델의 포지셔닝부터 짚어야 합니다. 2026년 3월 5일 출시된 GPT-5.4는 추론 깊이에 따라 Instant(5.3), Thinking(5.4), Pro(5.4) 세 티어로 나뉩니다. 그런데 이 중 무료 사용자가 실질적으로 쓸 수 있는 추론 기능은 없었습니다. GPT-5.4 mini의 출시로 무료(Free)·Go 플랜 사용자도 ChatGPT + 메뉴의 ‘잘 생각하기’를 통해 Thinking 기능을 처음으로 쓸 수 있게 됐습니다.

API 기준 기본 스펙은 컨텍스트 윈도우 400,000 토큰, 최대 출력 128,000 토큰, 입력 토큰 $0.75/1M, 출력 토큰 $4.50/1M입니다. (출처: OpenAI 공식 발표, 2026.03.17) nano의 경우 입력 $0.20/1M, 출력 $1.25/1M으로 더 저렴하지만 API 전용이며 ChatGPT에서는 사용할 수 없습니다.

💡 GPT-5 mini(이전 세대)와 나란히 놓고 보면 이렇습니다. mini 라인만 비교해도 코딩(SWE-bench Pro) 45.7% → 54.4%로 상승했고, 컴퓨터 사용(OSWorld-Verified)은 42.0% → 72.1%로 급등했습니다. 숫자만 보면 준수한 업그레이드인데, 공식 발표문에 함께 실린 장문 처리 수치는 전혀 다른 이야기를 합니다.

▲ 목차로 돌아가기

코딩 성능 94% — 이게 어느 수준인가

OpenAI 공식 발표에 실린 벤치마크 표를 직접 계산해봤습니다. GPT-5.4 mini의 SWE-bench Pro(공개) 점수는 54.4%, GPT-5.4 본 모델은 57.7%입니다. 차이를 계산하면 이렇습니다.

📊 SWE-bench Pro 성능 비율 계산

54.4 ÷ 57.7 × 100 ≈ 94.3%

출처: OpenAI 공식 발표 ‘Introducing GPT-5.4 mini and nano’ (2026.03.17)

즉, 코딩 실력만 따지면 GPT-5.4 mini는 본 모델의 94%를 냅니다. 그리고 가격은 본 모델($2.50/1M 입력)의 30%입니다. 순수 코딩 작업에서 비용 대비 효율은 mini가 훨씬 앞선다는 계산이 나옵니다.

Terminal-Bench 2.0에서도 60.0%를 기록했는데, 이는 GPT-5 mini(38.2%)보다 21.8%p 높은 수치입니다. 에이전트가 터미널에서 코드를 실행하고, 오류를 잡고, 결과를 검증하는 복합 흐름에서 이전 mini보다 분명히 강해졌습니다. 에이전트형 코딩 도구를 만드는 개발자라면 이 수치가 실질적으로 체감될 부분입니다.

💡 공식 발표문과 벤치마크 표를 교차해 읽어보면 이런 패턴이 보입니다. OpenAI는 mini를 “코딩 워크플로우에 특히 효과적(especially effective in coding workflows)”이라고 명시했고, 실제로 코딩 지표에서 본 모델과의 격차는 생각보다 작습니다. 그런데 같은 표 안에 있는 장문 처리 지표는 이야기가 완전히 달라집니다.

▲ 목차로 돌아가기

Codex 쿼터를 3.3배 늘리는 계산법

GPT-5.4 mini를 쓸 만한 이유 중 기존 블로그에서 잘 안 다루는 포인트가 하나 있습니다. Codex에서 GPT-5.4 mini는 GPT-5.4의 쿼터를 30%만 소모합니다. 공식 발표문에 딱 이렇게 나옵니다.

“GPT-5.4 mini uses only 30% of the GPT-5.4 quota, letting developers quickly handle simpler coding tasks in Codex for about one-third the cost.”
(출처: OpenAI 공식 블로그, 2026.03.17)

30%만 쓴다는 게 실제로 어떤 의미인지 직접 계산해보면 이렇습니다.

📊 Codex 쿼터 효율 계산

GPT-5.4로 100회 작업 가능한 쿼터 → mini 사용 시: 100 ÷ 0.3 = 약 333회

즉, 동일 쿼터로 3.3배 더 많은 작업을 처리할 수 있습니다.

출처: OpenAI 공식 블로그, 2026.03.17 / 계산 기준: Codex 쿼터 소모 비율 30%

OpenAI가 권장하는 실전 활용 패턴도 공식 발표문에 나와 있습니다. GPT-5.4가 계획·조율·최종 판단을 맡고, GPT-5.4 mini 서브에이전트가 코드베이스 검색, 대형 파일 검토, 지원 문서 처리 같은 병렬 작업을 처리하는 구조입니다. 계획은 플래그십이, 실행은 mini가 나눠 맡으면 쿼터를 아끼면서 품질도 유지됩니다.

▲ 목차로 돌아가기

장문 컨텍스트에서 왜 무너지는가

이 부분이 GPT-5.4 mini를 쓸 때 가장 주의해야 할 지점입니다. 공식 발표문의 벤치마크 표 하단에 Long Context 항목이 따로 있는데, 거기서 수치가 급격히 달라집니다.

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5 mini
OSWorld-Verified (컴퓨터 사용) 75.0% 72.1% 42.0%
SWE-bench Pro (코딩) 57.7% 54.4% 45.7%
MRCR v2 8-needle 64K~128K 86.0% 47.7% 35.1%
MRCR v2 8-needle 128K~256K 79.3% 33.6% 19.4%

출처: OpenAI 공식 발표 ‘Introducing GPT-5.4 mini and nano’ (2026.03.17)

이 표가 말해주는 것을 한 문장으로 정리하면 이렇습니다. 코딩과 컴퓨터 사용에서는 본 모델과 거의 차이가 없지만, 128K~256K 범위의 장문 처리에서는 79.3% vs 33.6%로 본 모델의 42% 수준밖에 안 됩니다.

⚠️ 실제로 어떤 작업에서 문제가 생기나?

  • 대형 코드베이스 전체를 컨텍스트에 넣고 버그 위치를 찾아달라고 할 때
  • 100페이지 이상 PDF 계약서나 기술 문서를 분석할 때
  • 긴 대화 히스토리를 유지하며 앞부분 내용을 참조해야 하는 에이전트
  • 법률·금융 문서에서 특정 조항을 정확히 찾아야 하는 경우

MRCR(Multi-Range Context Retrieval)은 긴 문서 안에 숨겨진 정보 8개를 정확히 찾아내는 벤치마크입니다. 문서가 길어질수록 mini의 정확도가 급격히 떨어지는 이유는 경량화 과정에서 어텐션 메커니즘의 긴 범위 처리 용량이 줄어들었기 때문으로 보이나, OpenAI가 공식 이유를 밝히지 않은 부분입니다.

▲ 목차로 돌아가기

가격 3배 인상, 그래서 쓸 만한가

GPT-5.4 mini의 입력 토큰 단가는 $0.75/1M입니다. 이전 세대인 GPT-5 mini의 입력 단가는 $0.25/1M이었습니다. 정확히 3배 인상입니다. 출력은 기존 $2.00/1M에서 $4.50/1M으로 2.25배 올랐습니다. (출처: 나무위키 GPT-5 문서, 나무.위키/w/GPT-5, 2026.03.26 기준)

가격 인상 폭만 보면 거부감이 생기는 게 당연합니다. 그런데 GPT-5.4 mini와 GPT-5 mini를 코딩 벤치마크 기준으로 비교하면, 이 인상이 실질적으로 얼마나 합리적인지 계산할 수 있습니다.

📊 비용 대비 코딩 성능 비율

GPT-5 mini: SWE-bench 45.7% / 비용 $0.25 입력 → 성능/비용 = 182.8

GPT-5.4 mini: SWE-bench 54.4% / 비용 $0.75 입력 → 성능/비용 = 72.5

비용 대비 효율은 GPT-5 mini가 2.5배 높음. 단, 작업 당 정확도와 재시도 비용 포함 시 달라질 수 있음.

단순 토큰 단가 효율은 GPT-5 mini가 더 낫습니다. 그러나 막상 에이전트나 복잡한 코딩 작업에서는 GPT-5 mini가 첫 번째 시도에서 실패해 여러 번 재시도하는 상황이 생깁니다. SWE-bench 기준 8.7%p 차이는 복잡한 작업일수록 실패율 차이가 크게 벌어진다는 의미입니다. 단순 분류·요약 작업이면 GPT-5 mini가 여전히 합리적이고, 에이전트형 코딩 워크플로우에서는 mini 업그레이드가 의미 있습니다.

▲ 목차로 돌아가기

GPT-5.4 mini를 써도 되는 조건과 피해야 할 조건

지금까지 확인한 공식 수치를 바탕으로 실제 사용 선택 기준을 정리하면 이렇습니다.

✅ 이 작업에는 mini가 맞습니다

  • 코드 수정·버그 픽스 (SWE-bench 54.4%)
  • 컴퓨터 사용 작업 — 스크린샷 해석·클릭·브라우징 (OSWorld 72.1%)
  • Codex 서브에이전트로 병렬 처리할 때
  • 도구 호출(Function Calling) 중심 에이전트
  • ChatGPT Free·Go 사용자의 Thinking 기능 이용

❌ 이 작업에는 GPT-5.4 본 모델이 필요합니다

  • 128K~256K 범위의 장문 문서 정밀 검색 (33.6% 수준)
  • 대규모 법률·계약 문서 전체 분석
  • 긴 코드베이스 전체를 단일 컨텍스트로 처리해야 할 때
  • 멀티 소스 심층 리서치 (BrowseComp 수준)

💡 컨텍스트 길이 400,000 토큰을 지원한다고 해서 장문 처리 정확도가 보장되는 건 아닙니다. 최대 컨텍스트 윈도우 크기와 그 범위에서 실제로 얼마나 정확하게 정보를 찾는지는 별개의 문제입니다. 공식 발표문이 두 수치를 모두 공개한 점이 의미 있는 이유가 여기 있습니다.

▲ 목차로 돌아가기

Q&A

GPT-5.4 mini는 ChatGPT 무료 플랜에서 쓸 수 있나요?
네, 사용할 수 있습니다. Free·Go 플랜 사용자는 ChatGPT + 메뉴에서 ‘잘 생각하기’ 버튼을 눌러 GPT-5.4 mini의 Thinking 기능을 이용할 수 있습니다. Plus 이상 사용자는 GPT-5.4 Thinking 한도를 소진한 후 자동으로 GPT-5.4 mini로 전환됩니다. (출처: OpenAI 공식 발표, 2026.03.17)
GPT-5.4 nano는 ChatGPT에서 사용할 수 없나요?
현재는 API 전용입니다. GPT-5.4 nano는 API에서만 사용할 수 있으며, ChatGPT UI에서는 선택할 수 없습니다. 입력 $0.20/1M, 출력 $1.25/1M으로 mini보다 저렴하며 분류·데이터 추출·랭킹·서브에이전트 작업에 적합합니다. (출처: OpenAI 공식 발표, 2026.03.17)
GPT-5.4 mini의 컨텍스트 윈도우가 400K라는데, 본 모델(1M+)보다 작은 건가요?
맞습니다. GPT-5.4 본 모델은 최대 1,050,000 토큰을 지원하지만, mini와 nano는 모두 400,000 토큰으로 제한됩니다. 단순히 크기만의 문제가 아니라, 실제 장문 정확도(MRCR 벤치마크)에서도 본 모델 대비 큰 차이가 있습니다. (출처: OpenAI 나무위키 문서, 2026.03.26 기준 / OpenAI 공식 발표)
기존 GPT-5 Thinking mini는 언제 종료되나요?
2026년 4월 18일(KST)부터 지원이 종료됩니다. GPT-5.4 mini 출시로 GPT-5 Thinking mini의 서비스가 순차적으로 마감됩니다. 해당 모델을 API에서 사용 중이라면 model ID 교체 작업이 필요합니다. (출처: 나무위키 GPT-5 문서, 2026.03.26 기준)
GPT-5.4 mini API model ID는 무엇인가요?
OpenRouter 기준 openai/gpt-5.4-mini로 확인됩니다. OpenAI API 공식 문서에서는 gpt-5.4-mini를 사용하고, GPT-5.4 nano는 gpt-5.4-nano입니다. 최신 정보는 OpenAI API 모델 문서에서 직접 확인하세요.

▲ 목차로 돌아가기

마치며 — GPT-5.4 mini를 어떻게 볼 것인가

GPT-5.4 mini는 코딩·컴퓨터 사용 중심 작업에서 본 모델 성능의 90% 이상을 내면서, Codex 쿼터는 30%만 씁니다. 단순 코딩 보조 도구나 에이전트 서브에이전트 역할로는 이 시점에 나온 mini 모델 중 가장 실용적입니다.

반면 장문 문서를 정밀하게 읽어야 하는 작업에서는 본 모델과의 성능 차이가 크게 벌어집니다. 128K~256K 범위에서의 정확도 33.6%는, 400K 컨텍스트를 지원한다는 스펙과는 별개의 이야기입니다. 컨텍스트 윈도우 크기와 그 안에서의 실제 정확도를 구분해서 봐야 한다는 점을 이번 공식 발표가 직접 보여줬습니다.

가격 3배 인상은 단순 토큰 효율로만 보면 아쉽지만, 에이전트 코딩 플로우에서 GPT-5 mini로 여러 번 재시도해야 하는 상황이라면 실질 비용은 생각보다 좁혀질 수 있습니다. 어떤 작업을 주로 하느냐에 따라 판단이 달라지는 모델입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing GPT-5.4 mini and nano (2026.03.17)
  2. OpenAI 공식 블로그 — Introducing GPT-5.4 (2026.03.05)
  3. OpenAI API 공식 문서 — GPT-5.4 mini Model
  4. OpenAI API 가격 공식 페이지 — openai.com/api/pricing/
  5. 나무위키 GPT-5 문서 — namu.wiki/w/GPT-5 (2026.03.26 기준)

본 포스팅은 2026년 3월 29일 기준 공개된 OpenAI 공식 발표 자료를 바탕으로 작성되었습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다.
API 요금 및 모델 스펙은 반드시 공식 가격 페이지에서 최신 정보를 확인하세요.

댓글 남기기


최신 글

  • 착오송금 반환지원 신청 2026, 잘못 보낸 돈 확인법
    착오송금 반환지원 신청 2026 기준으로 송금 은행 반환 요청, 자발 반환 여부, 대화 내용과 피해 정황 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • KTX 승차권 환불 수수료 2026, 출발 전 취소 기준
    KTX 승차권 환불 수수료 2026 기준으로 남은 시간과 승차권 종류, 열차 출발 여부, 코레일 안내 문구 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 인터넷 이전설치 위약금 2026, 이사 전 비용 기준
    인터넷 이전설치 위약금 2026 기준으로 할인 반환금, 통신사 설치 가능 조회, 공유기·셋톱박스 목록 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 개인통관고유부호 도용 신고 2026, 해외직구 전 확인
    개인통관고유부호 도용 신고 2026 기준으로 상품명·배송지·수취인, 재발급 가능 여부, 대행지와 주문자 정보 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 분실 정지 2026, 소액결제 피해 막는 순서
    휴대폰 분실 정지 2026 기준으로 통신 정지와 유심 차단, 소액결제·간편결제 내역, 엠세이퍼 가입 제한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 자동납부 해지 2026, 계좌정보통합관리 체크
    카드 자동납부 해지 2026 기준으로 납부 기관과 다음 청구일, 새 카드 자동 승계 여부, 서비스 계약 종료일 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카카오톡 선물하기 환불 2026, 사용 전 취소 기준
    카카오톡 선물하기 환불 2026 기준으로 선물함 상태와 유효기간, 사용 완료 문구, 연장·환불 안내 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 네이버플러스 멤버십 해지 환불 2026, 결제 직후 해지 기준
    네이버플러스 멤버십 해지 환불 2026, 결제 직후 해지 기준 기준으로 먼저 확인할 항목, 실제 조회 순서, 반려를 줄이는 체크리스트와 공식 출처를 정리했습니다.
  • 폐업신고 온라인 2026, 세금 정리까지 보는 기준
    폐업신고 온라인 2026, 세금 정리까지 보는 기준 기준으로 먼저 확인할 항목, 실제 조회 순서, 반려를 줄이는 체크리스트와 공식 출처를 정리했습니다.
  • 국제운전면허증 온라인 발급 2026, 출국 전 준비물 체크
    국제운전면허증 온라인 발급 2026, 출국 전 준비물 체크 기준으로 먼저 확인할 항목, 실제 조회 순서, 반려를 줄이는 체크리스트와 공식 출처를 정리했습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기