GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

Published on

2026년 3월 31일

2026.03.31 기준
GPT-5.4 mini 2026.03.17 출시
OpenAI 공식 기준

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

GPT-5.4 mini가 3월 17일 출시됐습니다. “결국 유료 플랜만 쓸 수 있는 거 아닌가” 싶었는데, Free 유저도 Thinking 메뉴로 접근됩니다. 그런데 막상 쓰다 보면 생각보다 중요한 제약이 있습니다. 공식 벤치마크 수치를 그대로 뽑아봤습니다.

54.4%

SWE-bench Pro

2배+

GPT-5 mini 대비 속도

$0.75

API 입력 / 1M 토큰

30%

Codex 쿼터 소모율

GPT-5.4 mini가 뭔지 30초 정리

GPT-5.4 mini는 2026년 3월 17일 OpenAI가 GPT-5.4 nano와 함께 출시한 경량 모델입니다. GPT-5.4의 핵심 성능을 유지하면서 속도를 높이고 비용을 낮춘 게 목적이었고, 공식 설명에 따르면 GPT-5 mini보다 “2배 이상 빠른 속도로 월등히 향상된 성능”을 제공한다고 했습니다. (출처: OpenAI 공식 발표, 2026.03.17)

GPT-5.4 mini가 나오기 전까지 경량 모델의 기준은 GPT-5 mini였습니다. SWE-bench Pro 기준으로 GPT-5 mini는 45.7%였는데, GPT-5.4 mini는 54.4%까지 올라왔습니다. 수치만 보면 약 8.7%포인트 차이인데, 실제 코딩 작업에서 체감하면 꽤 의미 있는 격차입니다.

기존 블로그들이 많이 다룬 부분은 여기까지입니다. “싸고 빠르다, GPT-5.4 수준에 근접한다”는 이야기는 어디서든 봤을 겁니다. 이 글에서는 그 다음 이야기 — 어디서 쓰면 좋고, 어디서 쓰면 손해인지 — 를 수치와 함께 짚겠습니다.

▲ 목차로 돌아가기

Free 유저도 쓸 수 있습니다 — 조건이 있습니다

“ChatGPT Free는 GPT-5.4를 못 쓴다”는 인식이 퍼져 있습니다. 맞는 말이지만, GPT-5.4 mini는 예외입니다. OpenAI의 릴리스 노트에 이렇게 나와 있습니다.

“GPT‑5.4 mini is available to Free and Go users via the Thinking feature in the + menu.”

(출처: OpenAI Help Center 릴리스 노트, 2026.03.18)

Free와 Go 티어 사용자는 채팅창 하단 + 메뉴 → Thinking을 누르면 GPT-5.4 mini가 작동합니다. 단, 이 모델은 모델 선택 메뉴에 직접 노출되지 않습니다. Plus, Pro 등 유료 플랜 사용자에게는 GPT-5.4 Thinking의 사용량 한도를 채웠을 때 자동 대체(fallback) 모델로 작동합니다.

💡 공식 발표문과 실제 접근 흐름을 같이 놓고 보니 이런 차이가 보였습니다

GPT-5.4 Thinking이 “유료 전용”이라는 말은 사실입니다. 그런데 GPT-5.4 mini를 통한 Thinking 접근은 Free 유저에게도 열려 있습니다. 같은 “Thinking 기능”이라도 어떤 모델이 뒤에서 작동하느냐가 플랜마다 다르게 설정된 구조입니다.

GPT-5 Thinking mini는 이 업데이트 후 30일 내에 선택 가능한 모델 목록에서 제거됩니다. 즉 이제 Free 유저의 Thinking = GPT-5.4 mini로 통일된다고 보면 됩니다. 업그레이드된 셈입니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 확인했습니다

OpenAI 공식 발표에 담긴 벤치마크 표를 그대로 정리했습니다. 비교 기준은 GPT-5.4(메인), GPT-5.4 mini, GPT-5.4 nano, GPT-5 mini(이전 세대 경량 모델) 네 가지입니다.

벤치마크	GPT-5.4	GPT-5.4 mini	GPT-5.4 nano	GPT-5 mini
SWE-bench Pro (코딩)	57.7%	54.4%	52.4%	45.7%
Terminal-Bench 2.0 (터미널)	75.1%	60.0%	46.3%	38.2%
GPQA Diamond (추론)	93.0%	88.0%	82.8%	81.6%
OSWorld-Verified (컴퓨터 조작)	75.0%	72.1%	39.0%	42.0%
Toolathlon (툴 호출)	54.6%	42.9%	35.5%	26.9%

(출처: OpenAI 공식 발표 “Introducing GPT‑5.4 mini and nano”, 2026.03.17. xhigh reasoning effort 기준)

코딩(SWE-bench Pro)에서는 메인 모델의 94%, 컴퓨터 조작(OSWorld)에서는 96%에 달합니다. 이 두 영역에서는 mini와 Standard의 차이가 거의 없습니다. 추론(GPQA Diamond)도 88%로 메인 대비 5포인트 차이에 불과합니다.

▲ 목차로 돌아가기

롱 컨텍스트에서 성능이 절반으로 떨어집니다

💡 벤치마크 표에서 롱 컨텍스트 섹션만 따로 놓고 보면 이야기가 달라집니다

코딩, 추론, 컴퓨터 조작에서는 mini가 Standard에 근접했습니다. 그런데 긴 문서를 다루는 롱 컨텍스트 성능에서는 완전히 다른 모습입니다. 이 부분을 별도 섹션으로 다루는 글이 아직 없어서 직접 수치를 뽑았습니다.

롱 컨텍스트 벤치마크	GPT-5.4	GPT-5.4 mini	GPT-5 mini
MRCR v2 8-needle 64K~128K	86.0%	47.7%	35.1%
MRCR v2 8-needle 128K~256K	79.3%	33.6%	19.4%
Graphwalks parents 0~128K	89.8%	71.5%	64.3%

(출처: OpenAI 공식 발표 “Introducing GPT‑5.4 mini and nano”, 2026.03.17)

64K~128K 구간을 보면 GPT-5.4는 86.0%인데, GPT-5.4 mini는 47.7%로 절반 아래입니다. 약 38포인트 차이입니다. 128K~256K 구간에서는 79.3% vs 33.6%로 격차가 더 벌어집니다. 즉 문서 길이가 64K 토큰(약 4만 8천 단어)을 넘어가는 순간부터 mini의 성능은 Standard와 완전히 다른 레벨이 됩니다.

⚠️ 실사용 기준: 긴 코드베이스 분석, 긴 계약서 검토, 논문 여러 편 동시 분석처럼 64K 토큰을 넘기는 작업에 GPT-5.4 mini를 쓰면 엉뚱한 결과가 나올 수 있습니다. 롱 컨텍스트 작업은 반드시 GPT-5.4 Standard(API)나 Thinking을 써야 합니다.

GPT-5.4 mini의 컨텍스트 윈도우 자체는 400K 토큰입니다. (출처: ZDNET, 2026.03.17) 물리적으로 긴 문서를 넣을 수는 있습니다. 그런데 넣을 수 있다는 것과 제대로 처리한다는 건 다른 이야기입니다. 공식 벤치마크가 이걸 명확하게 보여줍니다.

▲ 목차로 돌아가기

Codex 쿼터 3배 넘게 늘리는 방법

💡 OpenAI 공식 발표에서 이 수치를 보고서야 실제 활용 방향이 잡혔습니다

Codex에서 GPT-5.4 mini는 GPT-5.4의 쿼터를 30%만 소비합니다. 이게 단순한 “싸다”는 이야기가 아닙니다. 쿼터 한도가 고정된 환경에서 작업량을 사실상 3배 이상 늘릴 수 있다는 뜻입니다.

OpenAI 공식 발표문에 이렇게 나와 있습니다. “Uses only 30% of the GPT‑5.4 quota, letting developers quickly handle simpler coding tasks in Codex for about one-third the cost.” (출처: OpenAI, 2026.03.17)

계산해보면 이렇습니다. GPT-5.4로 10개 작업을 처리할 수 있는 쿼터가 있다고 가정하면, 같은 쿼터로 GPT-5.4 mini는 33개 작업을 처리할 수 있습니다. 물론 mini와 Standard의 결과 품질이 다르지만, 단순 파일 검색, 코드 서브태스크 처리, 반복적인 코드 리뷰처럼 정밀도보다 속도가 중요한 작업이라면 mini가 훨씬 실용적입니다.

여기서 OpenAI가 제안하는 아키텍처가 있습니다. 복잡한 설계·판단은 GPT-5.4(또는 Thinking)가 맡고, 반복적인 하위 작업(codebase 탐색, 파일 검토, 문서 처리)은 GPT-5.4 mini 서브에이전트에게 병렬로 넘기는 방식입니다. Codex 공식 문서에서 “subagents” 항목에서 직접 확인할 수 있는 구조입니다.

🔢 쿼터 활용 시뮬레이션

GPT-5.4 Thinking으로 플랜 수립 1건 → 쿼터 100% 소모
GPT-5.4 mini 서브에이전트 3건 병렬 처리 → 쿼터 90% 소모 (건당 30%)
총 4건 처리에 쿼터 190% 소모 vs GPT-5.4 단독 4건: 400% 소모
→ 동일 쿼터로 처리량 약 2배 증가

(추정 계산. 실제 작업 복잡도에 따라 달라질 수 있음)

▲ 목차로 돌아가기

GPT-5.4 Standard와 뭐가 다른가

가격 차이가 핵심입니다. API 기준으로 GPT-5.4 Standard는 입력 $2.50, 출력 $15.00(1M 토큰당)입니다. GPT-5.4 mini는 입력 $0.75, 출력 $4.50입니다. (출처: OpenAI ZDNET 보도, 2026.03.17) 입력 기준으로 약 3.3배, 출력 기준으로 약 3.3배 저렴합니다.

항목	GPT-5.4 Standard	GPT-5.4 mini
API 입력 (1M 토큰)	$2.50	$0.75
API 출력 (1M 토큰)	$15.00	$4.50
컨텍스트 윈도우	272K (표준) / 1M (API)	400K
SWE-bench Pro	57.7%	54.4%
롱 컨텍스트 (64K~128K)	86.0%	47.7%
ChatGPT 접근 방식	Plus 이상 / Thinking 선택	Free·Go 포함 전 플랜

(출처: OpenAI 공식 발표, ZDNET 보도 2026.03.17. ChatGPT 플랜 기준 OpenAI Help Center 2026.03.18)

솔직히 말하면, API로 고볼륨 작업을 돌리는 개발자라면 mini는 매력적입니다. Standard 대비 3.3배 저렴하면서 코딩 성능의 94%를 유지합니다. 단, 롱 컨텍스트 작업에서의 급락은 반드시 염두에 둬야 합니다.

▲ 목차로 돌아가기

이 모델이 맞는 상황, 아닌 상황

수치를 봤으면 이제 판단이 쉽습니다. 쓰기 좋은 상황과 쓰면 안 되는 상황을 정리했습니다.

✅ GPT-5.4 mini가 잘 맞는 상황

단일 파일/소규모 코드베이스 편집
API 고볼륨 자동화 파이프라인
ChatGPT Free 유저의 Thinking 활용
Codex 서브에이전트 작업
이미지·스크린샷 포함 컴퓨터 조작 (OSWorld 72.1%)
분류, 데이터 추출, 간단한 질의응답

❌ GPT-5.4 Standard를 써야 하는 상황

64K 토큰 이상 문서 분석 (MRCR 벤치마크 급락)
대규모 코드베이스 전체 리뷰
논문·계약서 다수 동시 처리
복잡한 멀티스텝 에이전트 플래닝
정확도가 핵심인 법률·의료 문서 분석
Toolathlon 성능이 중요한 복합 툴 호출 워크플로우

개인적으로 GPT-5.4 mini에서 가장 의외였던 건 OSWorld-Verified 수치였습니다. GPT-5.4 대비 96% 수준(75.0% vs 72.1%)이라는 건, 컴퓨터 화면을 보고 동작하는 에이전트 용도로는 mini와 Standard의 실질적인 차이가 거의 없다는 뜻입니다. 비용을 3분의 1로 줄이면서 같은 정도의 컴퓨터 조작 에이전트를 만들 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. ChatGPT Free 유저가 GPT-5.4 mini를 쓰는 방법이 뭔가요?

ChatGPT 채팅창 하단의 + 버튼을 누르면 메뉴가 열립니다. 여기서 “Thinking”을 선택하면 GPT-5.4 mini가 작동합니다. 모델 선택 목록에는 GPT-5.4 mini가 직접 표시되지 않지만, Thinking 기능이 내부적으로 이 모델을 사용합니다. (출처: OpenAI Help Center, 2026.03.18)

Q. GPT-5.4 nano와 mini는 어떻게 다른가요?

nano는 더 작고 저렴한 모델로 API 전용 제공입니다(ChatGPT에서는 사용 불가). API 가격은 입력 $0.20, 출력 $1.25(1M 토큰당)입니다. mini와 비교하면 SWE-bench Pro 52.4% vs 54.4%, OSWorld 39.0% vs 72.1%로 컴퓨터 조작 성능 차이가 큽니다. 분류, 데이터 추출, 단순 서브에이전트 작업에 nano를 추천합니다.

Q. GPT-5 mini에서 GPT-5.4 mini로 전환해도 되나요?

성능이 전반적으로 향상됐으므로 전환을 권장합니다. SWE-bench Pro 기준 45.7% → 54.4%로 올랐고 속도도 2배 이상 빠릅니다. 단, 롱 컨텍스트 작업을 GPT-5 mini로 처리하고 있었다면 두 모델 모두 64K 토큰 이상에서 성능이 제한적이므로 해당 작업은 Standard로 이관하는 게 맞습니다.

Q. Plus 플랜이면 GPT-5.4 mini를 직접 선택할 수 있나요?

직접 선택은 불가합니다. GPT-5.4 mini는 모델 피커에 표시되지 않습니다. Plus 유저에게는 GPT-5.4 Thinking의 사용량 한도(80 메시지/3시간)를 소진했을 때 자동으로 fallback 모델로 작동합니다. Plus에서 Thinking 한도를 채운 뒤에도 계속 Thinking이 작동한다면 GPT-5.4 mini가 돌아가고 있는 겁니다. (출처: OpenAI Help Center, 2026.03.18)

Q. Codex에서 GPT-5.4 mini를 수동으로 선택할 수 있나요?

Codex 앱, CLI, IDE 익스텐션, 웹 모두에서 GPT-5.4 mini를 사용할 수 있습니다. 또한 Codex가 자동으로 서브에이전트 작업에 mini를 활용할 수도 있으며, 개발자가 직접 서브에이전트로 설정하는 것도 가능합니다. Codex 공식 문서의 subagents 섹션에 설정 방법이 나와 있습니다.

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.4 mini를 한 문장으로 정리하면 이렇습니다. “코딩·멀티모달 작업에서는 Standard 수준이지만, 긴 문서를 다룰 때는 Standard를 써야 한다.”

Free 유저에게 Thinking이 열린 건 체감상 의미 있는 변화입니다. 기존 GPT-5 Thinking mini보다 코딩 성능이 8.7포인트 오른 채로 무료 접근이 가능해졌습니다. 여기에 Codex 쿼터를 30%만 소모하는 구조는 실제 개발 워크플로우에서 꽤 실용적으로 쓸 수 있는 설계입니다.

다만 롱 컨텍스트 성능 급락은 사용 전에 반드시 알고 있어야 합니다. 64K 토큰 초과 구간에서의 47.7%(Standard 86.0%)는 마케팅 자료에서는 강조되지 않는 수치입니다. 공식 벤치마크에 그대로 나와 있지만, 총정리 글들이 이 부분을 별도로 다루지 않는 경우가 많습니다. 이 제약을 알고 시작하면 기대와 실제 사이의 간격을 좁힐 수 있습니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. OpenAI의 서비스 정책·가격·모델 스펙·UI는 업데이트로 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 반드시 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.

ChatGPT Free 플랜, Codex 쿼터, GPT-5.4 벤치마크, GPT-5.4 mini, OpenAI 모델 비교

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

GPT-5.4 mini가 뭔지 30초 정리

Free 유저도 쓸 수 있습니다 — 조건이 있습니다

벤치마크 수치, 직접 확인했습니다

롱 컨텍스트에서 성능이 절반으로 떨어집니다

Codex 쿼터 3배 넘게 늘리는 방법

GPT-5.4 Standard와 뭐가 다른가

이 모델이 맞는 상황, 아닌 상황

자주 묻는 질문

마치며 — 총평

📌 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

GPT-5.4 mini, 직접 재봤습니다 — 무료도 됩니다

GPT-5.4 mini가 뭔지 30초 정리

Free 유저도 쓸 수 있습니다 — 조건이 있습니다

벤치마크 수치, 직접 확인했습니다

롱 컨텍스트에서 성능이 절반으로 떨어집니다

Codex 쿼터 3배 넘게 늘리는 방법

GPT-5.4 Standard와 뭐가 다른가

이 모델이 맞는 상황, 아닌 상황

자주 묻는 질문

마치며 — 총평

📌 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기