GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

Published on

in

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다
2026.03.31 기준
GPT-5.4 mini 2026.03.17 출시
OpenAI 공식 기준

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

GPT-5.4 mini가 3월 17일 출시됐습니다. “결국 유료 플랜만 쓸 수 있는 거 아닌가” 싶었는데, Free 유저도 Thinking 메뉴로 접근됩니다. 그런데 막상 쓰다 보면 생각보다 중요한 제약이 있습니다. 공식 벤치마크 수치를 그대로 뽑아봤습니다.

54.4%
SWE-bench Pro
2배+
GPT-5 mini 대비 속도
$0.75
API 입력 / 1M 토큰
30%
Codex 쿼터 소모율

GPT-5.4 mini가 뭔지 30초 정리

GPT-5.4 mini는 2026년 3월 17일 OpenAI가 GPT-5.4 nano와 함께 출시한 경량 모델입니다. GPT-5.4의 핵심 성능을 유지하면서 속도를 높이고 비용을 낮춘 게 목적이었고, 공식 설명에 따르면 GPT-5 mini보다 “2배 이상 빠른 속도로 월등히 향상된 성능”을 제공한다고 했습니다. (출처: OpenAI 공식 발표, 2026.03.17)

GPT-5.4 mini가 나오기 전까지 경량 모델의 기준은 GPT-5 mini였습니다. SWE-bench Pro 기준으로 GPT-5 mini는 45.7%였는데, GPT-5.4 mini는 54.4%까지 올라왔습니다. 수치만 보면 약 8.7%포인트 차이인데, 실제 코딩 작업에서 체감하면 꽤 의미 있는 격차입니다.

기존 블로그들이 많이 다룬 부분은 여기까지입니다. “싸고 빠르다, GPT-5.4 수준에 근접한다”는 이야기는 어디서든 봤을 겁니다. 이 글에서는 그 다음 이야기 — 어디서 쓰면 좋고, 어디서 쓰면 손해인지 — 를 수치와 함께 짚겠습니다.

▲ 목차로 돌아가기

Free 유저도 쓸 수 있습니다 — 조건이 있습니다

“ChatGPT Free는 GPT-5.4를 못 쓴다”는 인식이 퍼져 있습니다. 맞는 말이지만, GPT-5.4 mini는 예외입니다. OpenAI의 릴리스 노트에 이렇게 나와 있습니다.

“GPT‑5.4 mini is available to Free and Go users via the Thinking feature in the + menu.”

(출처: OpenAI Help Center 릴리스 노트, 2026.03.18)

Free와 Go 티어 사용자는 채팅창 하단 + 메뉴 → Thinking을 누르면 GPT-5.4 mini가 작동합니다. 단, 이 모델은 모델 선택 메뉴에 직접 노출되지 않습니다. Plus, Pro 등 유료 플랜 사용자에게는 GPT-5.4 Thinking의 사용량 한도를 채웠을 때 자동 대체(fallback) 모델로 작동합니다.

💡 공식 발표문과 실제 접근 흐름을 같이 놓고 보니 이런 차이가 보였습니다

GPT-5.4 Thinking이 “유료 전용”이라는 말은 사실입니다. 그런데 GPT-5.4 mini를 통한 Thinking 접근은 Free 유저에게도 열려 있습니다. 같은 “Thinking 기능”이라도 어떤 모델이 뒤에서 작동하느냐가 플랜마다 다르게 설정된 구조입니다.

GPT-5 Thinking mini는 이 업데이트 후 30일 내에 선택 가능한 모델 목록에서 제거됩니다. 즉 이제 Free 유저의 Thinking = GPT-5.4 mini로 통일된다고 보면 됩니다. 업그레이드된 셈입니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 확인했습니다

OpenAI 공식 발표에 담긴 벤치마크 표를 그대로 정리했습니다. 비교 기준은 GPT-5.4(메인), GPT-5.4 mini, GPT-5.4 nano, GPT-5 mini(이전 세대 경량 모델) 네 가지입니다.

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5.4 nano GPT-5 mini
SWE-bench Pro (코딩) 57.7% 54.4% 52.4% 45.7%
Terminal-Bench 2.0 (터미널) 75.1% 60.0% 46.3% 38.2%
GPQA Diamond (추론) 93.0% 88.0% 82.8% 81.6%
OSWorld-Verified (컴퓨터 조작) 75.0% 72.1% 39.0% 42.0%
Toolathlon (툴 호출) 54.6% 42.9% 35.5% 26.9%

(출처: OpenAI 공식 발표 “Introducing GPT‑5.4 mini and nano”, 2026.03.17. xhigh reasoning effort 기준)

코딩(SWE-bench Pro)에서는 메인 모델의 94%, 컴퓨터 조작(OSWorld)에서는 96%에 달합니다. 이 두 영역에서는 mini와 Standard의 차이가 거의 없습니다. 추론(GPQA Diamond)도 88%로 메인 대비 5포인트 차이에 불과합니다.

▲ 목차로 돌아가기

롱 컨텍스트에서 성능이 절반으로 떨어집니다

💡 벤치마크 표에서 롱 컨텍스트 섹션만 따로 놓고 보면 이야기가 달라집니다

코딩, 추론, 컴퓨터 조작에서는 mini가 Standard에 근접했습니다. 그런데 긴 문서를 다루는 롱 컨텍스트 성능에서는 완전히 다른 모습입니다. 이 부분을 별도 섹션으로 다루는 글이 아직 없어서 직접 수치를 뽑았습니다.

롱 컨텍스트 벤치마크 GPT-5.4 GPT-5.4 mini GPT-5 mini
MRCR v2 8-needle 64K~128K 86.0% 47.7% 35.1%
MRCR v2 8-needle 128K~256K 79.3% 33.6% 19.4%
Graphwalks parents 0~128K 89.8% 71.5% 64.3%

(출처: OpenAI 공식 발표 “Introducing GPT‑5.4 mini and nano”, 2026.03.17)

64K~128K 구간을 보면 GPT-5.4는 86.0%인데, GPT-5.4 mini는 47.7%로 절반 아래입니다. 약 38포인트 차이입니다. 128K~256K 구간에서는 79.3% vs 33.6%로 격차가 더 벌어집니다. 즉 문서 길이가 64K 토큰(약 4만 8천 단어)을 넘어가는 순간부터 mini의 성능은 Standard와 완전히 다른 레벨이 됩니다.

⚠️ 실사용 기준: 긴 코드베이스 분석, 긴 계약서 검토, 논문 여러 편 동시 분석처럼 64K 토큰을 넘기는 작업에 GPT-5.4 mini를 쓰면 엉뚱한 결과가 나올 수 있습니다. 롱 컨텍스트 작업은 반드시 GPT-5.4 Standard(API)나 Thinking을 써야 합니다.

GPT-5.4 mini의 컨텍스트 윈도우 자체는 400K 토큰입니다. (출처: ZDNET, 2026.03.17) 물리적으로 긴 문서를 넣을 수는 있습니다. 그런데 넣을 수 있다는 것과 제대로 처리한다는 건 다른 이야기입니다. 공식 벤치마크가 이걸 명확하게 보여줍니다.

▲ 목차로 돌아가기

Codex 쿼터 3배 넘게 늘리는 방법

💡 OpenAI 공식 발표에서 이 수치를 보고서야 실제 활용 방향이 잡혔습니다

Codex에서 GPT-5.4 mini는 GPT-5.4의 쿼터를 30%만 소비합니다. 이게 단순한 “싸다”는 이야기가 아닙니다. 쿼터 한도가 고정된 환경에서 작업량을 사실상 3배 이상 늘릴 수 있다는 뜻입니다.

OpenAI 공식 발표문에 이렇게 나와 있습니다. “Uses only 30% of the GPT‑5.4 quota, letting developers quickly handle simpler coding tasks in Codex for about one-third the cost.” (출처: OpenAI, 2026.03.17)

계산해보면 이렇습니다. GPT-5.4로 10개 작업을 처리할 수 있는 쿼터가 있다고 가정하면, 같은 쿼터로 GPT-5.4 mini는 33개 작업을 처리할 수 있습니다. 물론 mini와 Standard의 결과 품질이 다르지만, 단순 파일 검색, 코드 서브태스크 처리, 반복적인 코드 리뷰처럼 정밀도보다 속도가 중요한 작업이라면 mini가 훨씬 실용적입니다.

여기서 OpenAI가 제안하는 아키텍처가 있습니다. 복잡한 설계·판단은 GPT-5.4(또는 Thinking)가 맡고, 반복적인 하위 작업(codebase 탐색, 파일 검토, 문서 처리)은 GPT-5.4 mini 서브에이전트에게 병렬로 넘기는 방식입니다. Codex 공식 문서에서 “subagents” 항목에서 직접 확인할 수 있는 구조입니다.

🔢 쿼터 활용 시뮬레이션

  • GPT-5.4 Thinking으로 플랜 수립 1건 → 쿼터 100% 소모
  • GPT-5.4 mini 서브에이전트 3건 병렬 처리 → 쿼터 90% 소모 (건당 30%)
  • 총 4건 처리에 쿼터 190% 소모 vs GPT-5.4 단독 4건: 400% 소모
  • → 동일 쿼터로 처리량 약 2배 증가

(추정 계산. 실제 작업 복잡도에 따라 달라질 수 있음)

▲ 목차로 돌아가기

GPT-5.4 Standard와 뭐가 다른가

가격 차이가 핵심입니다. API 기준으로 GPT-5.4 Standard는 입력 $2.50, 출력 $15.00(1M 토큰당)입니다. GPT-5.4 mini는 입력 $0.75, 출력 $4.50입니다. (출처: OpenAI ZDNET 보도, 2026.03.17) 입력 기준으로 약 3.3배, 출력 기준으로 약 3.3배 저렴합니다.

항목 GPT-5.4 Standard GPT-5.4 mini
API 입력 (1M 토큰) $2.50 $0.75
API 출력 (1M 토큰) $15.00 $4.50
컨텍스트 윈도우 272K (표준) / 1M (API) 400K
SWE-bench Pro 57.7% 54.4%
롱 컨텍스트 (64K~128K) 86.0% 47.7%
ChatGPT 접근 방식 Plus 이상 / Thinking 선택 Free·Go 포함 전 플랜

(출처: OpenAI 공식 발표, ZDNET 보도 2026.03.17. ChatGPT 플랜 기준 OpenAI Help Center 2026.03.18)

솔직히 말하면, API로 고볼륨 작업을 돌리는 개발자라면 mini는 매력적입니다. Standard 대비 3.3배 저렴하면서 코딩 성능의 94%를 유지합니다. 단, 롱 컨텍스트 작업에서의 급락은 반드시 염두에 둬야 합니다.

▲ 목차로 돌아가기

이 모델이 맞는 상황, 아닌 상황

수치를 봤으면 이제 판단이 쉽습니다. 쓰기 좋은 상황과 쓰면 안 되는 상황을 정리했습니다.

✅ GPT-5.4 mini가 잘 맞는 상황

  • 단일 파일/소규모 코드베이스 편집
  • API 고볼륨 자동화 파이프라인
  • ChatGPT Free 유저의 Thinking 활용
  • Codex 서브에이전트 작업
  • 이미지·스크린샷 포함 컴퓨터 조작 (OSWorld 72.1%)
  • 분류, 데이터 추출, 간단한 질의응답

❌ GPT-5.4 Standard를 써야 하는 상황

  • 64K 토큰 이상 문서 분석 (MRCR 벤치마크 급락)
  • 대규모 코드베이스 전체 리뷰
  • 논문·계약서 다수 동시 처리
  • 복잡한 멀티스텝 에이전트 플래닝
  • 정확도가 핵심인 법률·의료 문서 분석
  • Toolathlon 성능이 중요한 복합 툴 호출 워크플로우

개인적으로 GPT-5.4 mini에서 가장 의외였던 건 OSWorld-Verified 수치였습니다. GPT-5.4 대비 96% 수준(75.0% vs 72.1%)이라는 건, 컴퓨터 화면을 보고 동작하는 에이전트 용도로는 mini와 Standard의 실질적인 차이가 거의 없다는 뜻입니다. 비용을 3분의 1로 줄이면서 같은 정도의 컴퓨터 조작 에이전트를 만들 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. ChatGPT Free 유저가 GPT-5.4 mini를 쓰는 방법이 뭔가요?

ChatGPT 채팅창 하단의 + 버튼을 누르면 메뉴가 열립니다. 여기서 “Thinking”을 선택하면 GPT-5.4 mini가 작동합니다. 모델 선택 목록에는 GPT-5.4 mini가 직접 표시되지 않지만, Thinking 기능이 내부적으로 이 모델을 사용합니다. (출처: OpenAI Help Center, 2026.03.18)

Q. GPT-5.4 nano와 mini는 어떻게 다른가요?

nano는 더 작고 저렴한 모델로 API 전용 제공입니다(ChatGPT에서는 사용 불가). API 가격은 입력 $0.20, 출력 $1.25(1M 토큰당)입니다. mini와 비교하면 SWE-bench Pro 52.4% vs 54.4%, OSWorld 39.0% vs 72.1%로 컴퓨터 조작 성능 차이가 큽니다. 분류, 데이터 추출, 단순 서브에이전트 작업에 nano를 추천합니다.

Q. GPT-5 mini에서 GPT-5.4 mini로 전환해도 되나요?

성능이 전반적으로 향상됐으므로 전환을 권장합니다. SWE-bench Pro 기준 45.7% → 54.4%로 올랐고 속도도 2배 이상 빠릅니다. 단, 롱 컨텍스트 작업을 GPT-5 mini로 처리하고 있었다면 두 모델 모두 64K 토큰 이상에서 성능이 제한적이므로 해당 작업은 Standard로 이관하는 게 맞습니다.

Q. Plus 플랜이면 GPT-5.4 mini를 직접 선택할 수 있나요?

직접 선택은 불가합니다. GPT-5.4 mini는 모델 피커에 표시되지 않습니다. Plus 유저에게는 GPT-5.4 Thinking의 사용량 한도(80 메시지/3시간)를 소진했을 때 자동으로 fallback 모델로 작동합니다. Plus에서 Thinking 한도를 채운 뒤에도 계속 Thinking이 작동한다면 GPT-5.4 mini가 돌아가고 있는 겁니다. (출처: OpenAI Help Center, 2026.03.18)

Q. Codex에서 GPT-5.4 mini를 수동으로 선택할 수 있나요?

Codex 앱, CLI, IDE 익스텐션, 웹 모두에서 GPT-5.4 mini를 사용할 수 있습니다. 또한 Codex가 자동으로 서브에이전트 작업에 mini를 활용할 수도 있으며, 개발자가 직접 서브에이전트로 설정하는 것도 가능합니다. Codex 공식 문서의 subagents 섹션에 설정 방법이 나와 있습니다.

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.4 mini를 한 문장으로 정리하면 이렇습니다. “코딩·멀티모달 작업에서는 Standard 수준이지만, 긴 문서를 다룰 때는 Standard를 써야 한다.”

Free 유저에게 Thinking이 열린 건 체감상 의미 있는 변화입니다. 기존 GPT-5 Thinking mini보다 코딩 성능이 8.7포인트 오른 채로 무료 접근이 가능해졌습니다. 여기에 Codex 쿼터를 30%만 소모하는 구조는 실제 개발 워크플로우에서 꽤 실용적으로 쓸 수 있는 설계입니다.

다만 롱 컨텍스트 성능 급락은 사용 전에 반드시 알고 있어야 합니다. 64K 토큰 초과 구간에서의 47.7%(Standard 86.0%)는 마케팅 자료에서는 강조되지 않는 수치입니다. 공식 벤치마크에 그대로 나와 있지만, 총정리 글들이 이 부분을 별도로 다루지 않는 경우가 많습니다. 이 제약을 알고 시작하면 기대와 실제 사이의 간격을 좁힐 수 있습니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

  1. OpenAI 공식 발표 — Introducing GPT‑5.4 mini and nano (2026.03.17)
  2. OpenAI Help Center — Model Release Notes (2026.03.18 업데이트)
  3. ZDNET — OpenAI launches GPT-5.4 mini and nano (2026.03.17)
  4. NxCode — GPT 5.4 Complete Guide 2026 (2026.03.29)

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. OpenAI의 서비스 정책·가격·모델 스펙·UI는 업데이트로 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 반드시 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기