API 요금 공식 문서 기준
GPT-5.4 mini 써봤더니 가격이 이상했습니다
OpenAI가 GPT-5.4 mini를 내놓으면서 “가장 유능한 소형 모델”이라고 했습니다. 근데 API 요금표를 열어보니, 전작인 GPT-5 mini와 비교해서 입력 가격이 3배 뛰어 있었습니다. 공식 벤치마크 수치와 실사용 피드백을 같이 놓고 보니, 이걸 그냥 mini 업그레이드로 보면 안 된다는 게 보였습니다.
GPT-5.4 mini란 무엇인가 — 출시 배경 정리
2026년 3월 18일(KST), OpenAI가 GPT-5.4 mini와 nano를 공식 출시했습니다. 공식 발표에 따르면 이 두 모델은 “지금까지 출시된 소형 모델 중 가장 유능하다”는 수식어를 달고 나왔습니다. (출처: OpenAI 공식 블로그, 2026.03.17) 그냥 mini가 하나 더 나왔구나 싶을 수 있는데, 실제로는 그 말이 맞습니다 — 다만 요금까지 그 수식어에 맞춰 같이 올라간 것이 문제입니다.
GPT-5.4 mini는 ChatGPT에서 “GPT-5.4 Thinking mini”라는 이름으로 제공됩니다. 무료(Free)와 Go 요금제 사용자는 ChatGPT 내 + 메뉴에서 ‘잘 생각하기’를 선택하면 쓸 수 있고, Plus 이상 구독자는 GPT-5.4 Thinking 한도를 다 쓰면 자동으로 mini로 전환됩니다. API, Codex, ChatGPT 모두에서 쓸 수 있는 반면, GPT-5.4 nano는 API 전용입니다. 이 차이가 개발자에게는 생각보다 큰 제약이 됩니다.
참고로 GPT-5.4 본 모델은 3월 6일에 먼저 나왔고, mini·nano는 12일 뒤인 3월 18일에 뒤따라 출시됐습니다. 이전 세대인 GPT-5 Thinking mini는 2026년 4월 18일에 지원이 종료될 예정입니다. (출처: 나무위키 GPT-5 문서, 2026.03 기준)
공식 API 요금표 — 숫자 직접 확인
OpenAI 공식 요금 페이지(openai.com/ko-KR/api/pricing)에서 직접 가져온 수치입니다. 주요 모델끼리 나란히 놓아봤습니다.
| 모델 | 입력 (100만 토큰) | 출력 (100만 토큰) | 컨텍스트 |
|---|---|---|---|
| GPT-5.4 | $2.50 | $15.00 | 1,050K |
| GPT-5.4 mini ★ | $0.75 | $4.50 | 400K |
| GPT-5.4 nano | $0.20 | $1.25 | 400K |
| GPT-5 mini (前세대) | $0.25 | $2.00 | 400K |
| GPT-5 nano (前세대) | $0.05 | $0.40 | 400K |
| GPT-4.1 mini | $0.40 | $1.60 | 1M |
| GPT-4o mini | $0.15 | $0.60 | 128K |
출처: OpenAI 공식 API 요금 페이지 (openai.com/ko-KR/api/pricing), 2026.03.18 기준
표를 보면 한 가지가 바로 눈에 들어옵니다. GPT-5.4 mini의 입력 요금은 $0.75인데, 전작인 GPT-5 mini는 $0.25였습니다. 같은 “mini” 세대 이름을 달고 있지만 요금 구조가 완전히 다른 모델이 됐습니다.
GPT-5 mini보다 3배 비싼 이유, 납득이 됩니까
💡 공식 발표 벤치마크와 요금 인상 폭을 같이 놓고 보니, “mini는 저렴하다”는 전제가 이번 세대에서 바뀌었다는 게 보였습니다.
GPT-5 mini의 입력 요금은 100만 토큰당 $0.25였습니다. GPT-5.4 mini는 $0.75입니다. 정확히 3배입니다. 출력은 $2.00에서 $4.50으로 2.25배 올랐습니다. (출처: 나무위키 GPT-5 문서, 2026.03 기준) 단순히 “신형이니까 비싸다”로 넘기기엔 인상 폭이 큽니다.
OpenAI는 공식 발표에서 그 이유를 간접적으로 설명합니다. GPT-5.4 mini가 SWE-Bench Pro에서 54.4%를 기록했는데, 이건 GPT-5 mini의 45.7%보다 높고, 전작 플래그십 모델과 비슷한 수준입니다. (출처: OpenAI 공식 블로그 ‘Introducing GPT-5.4 mini and nano’, 2026.03.17) 쉽게 말하면, 예전 최고 모델의 성능을 이제 mini에서 꺼낼 수 있게 됐는데, 가격도 그 수준에 맞춰 재정의했다는 식입니다.
📊 계산해보면 이렇습니다:
월 1,000만 입력 토큰 / 500만 출력 토큰 기준
→ 동일 볼륨에서 월 비용이 약 2.4배 증가합니다.
이걸 납득할 수 있는 경우와 없는 경우가 나뉩니다. 코딩 에이전트나 멀티스텝 도구 사용처럼 정확도가 직접 비용에 영향을 주는 작업이라면, 첫 번째 시도에서 맞히는 비율이 올라가는 만큼 재시도 비용이 줄어서 실질 비용이 요금 인상 폭보다 작을 수 있습니다. 반면 텍스트 분류나 단순 추출처럼 GPT-5 mini도 충분한 작업이라면, 3배 인상은 납득하기 어렵습니다.
벤치마크 수치 — 실제로 얼마나 좋아졌나
공식 발표 벤치마크 수치를 그대로 가져왔습니다. (출처: OpenAI 공식 블로그 ‘Introducing GPT-5.4 mini and nano’, 2026.03.17)
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5.4 nano | GPT-5 mini |
|---|---|---|---|---|
| SWE-Bench Pro | 57.7% | 54.4% | 52.4% | 45.7% |
| Terminal-Bench 2.0 | 75.1% | 60.0% | 46.3% | 38.2% |
| GPQA Diamond | 93.0% | 88.0% | 82.8% | 81.6% |
| OSWorld-Verified | 75.0% | 72.1% | 39.0% | 42.0% |
SWE-Bench Pro 기준으로 GPT-5.4 mini(54.4%)는 플래그십 GPT-5.4(57.7%)와 3.3%p 차이입니다. 전 세대 mini(45.7%)와는 8.7%p 차이가 납니다. 코딩 에이전트 맥락에서 8%p 향상은 결과물 품질에 체감 차이를 만들 수 있는 수준입니다.
속도도 크게 달라졌습니다. Hacker News 실측 기준으로 GPT-5 mini의 API 출력 속도가 평균 55~60 t/s였는데, GPT-5.4 mini는 180~190 t/s가 측정됐습니다. (출처: Hacker News GPT-5.4 mini and nano 스레드, 2026.03.17) 3배 이상 빠릅니다. 실시간 응답이 중요한 서비스라면 이 수치가 UX에 직접 영향을 줍니다.
장문 컨텍스트, 여기서 조심해야 합니다
💡 400K 컨텍스트를 공유하는 mini와 nano지만, 긴 문서에서 정보를 찾아내는 능력은 플래그십과 현격히 벌어집니다. 이걸 모르고 RAG를 짜면 나중에 당합니다.
GPT-5.4 mini와 nano는 컨텍스트 윈도우가 400K 토큰으로, 플래그십 GPT-5.4의 1,050K보다 작습니다. 그런데 진짜 문제는 윈도우 크기가 아니라 그 안에서 정보를 얼마나 정확하게 찾아내느냐입니다.
공식 벤치마크인 OpenAI MRCR v2 8-needle 기준으로, 128K~256K 구간에서 GPT-5.4는 79.3%를 기록한 반면, GPT-5.4 mini는 33.6%에 그쳤습니다. (출처: OpenAI 공식 블로그 ‘Introducing GPT-5.4 mini and nano’, 2026.03.17) 같은 400K 컨텍스트를 지원한다고 하더라도, 실제로 긴 문서 중간에 박혀 있는 정보를 꺼내는 능력은 절반 이하 수준입니다.
⚠️ RAG 파이프라인 설계 시 주의할 포인트
문서 길이가 64K를 넘어가기 시작하면 mini/nano의 정보 추출 정확도가 급격히 하락합니다. 전체 문서를 한 번에 넣는 방식보다 청킹 전략을 유지하는 편이 안전합니다. 플래그십(79.3%)과 mini(33.6%)의 격차는 이 구간에서 벌어집니다.
솔직히 이 부분은 공식 발표 본문에 벤치마크 표로만 나와 있고, 별도 경고 문구는 없습니다. 표를 꼼꼼히 보지 않으면 지나치기 쉽습니다. RAG를 mini로 구현할 때 가장 먼저 이 수치부터 확인하길 권합니다.
GPT-5.4 nano — mini보다 인상 폭이 더 컸습니다
💡 nano가 항상 가장 싼 선택지일 거라고 생각했는데, 전 세대 대비 인상 폭은 mini(3배)보다 nano(4배)가 더 컸습니다.
GPT-5.4 nano의 입력 요금은 $0.20입니다. 전 세대인 GPT-5 nano는 $0.05였습니다. 4배 인상입니다. 출력은 $0.40에서 $1.25로 3.125배 올랐습니다. (출처: 나무위키 GPT-5 문서, 2026.03 기준) mini가 3배 올랐으니 nano는 당연히 덜 올랐겠지 싶지만, 실제로는 반대입니다.
GPT-5.4 nano는 API에서만 쓸 수 있고 ChatGPT나 Codex에서는 제공되지 않습니다. 분류, 데이터 추출, 랭킹, 간단한 코딩 서브에이전트 같은 용도에 맞게 설계됐다고 OpenAI는 설명합니다. Hacker News 실측에서는 nano의 출력 속도가 200 t/s 수준으로 측정됐습니다. mini(180~190 t/s)보다 약간 빠릅니다.
| 구분 | 전 세대 | GPT-5.4 | 인상 배수 |
|---|---|---|---|
| mini 입력 | $0.25 | $0.75 | 3배 |
| nano 입력 | $0.05 | $0.20 | 4배 |
| mini 출력 | $2.00 | $4.50 | 2.25배 |
| nano 출력 | $0.40 | $1.25 | 3.125배 |
개인적으로 이게 더 불편하게 느껴졌습니다. nano는 “정말 싼 걸 쓸 때 쓰는 모델”이라는 이미지가 있는데, 이번에는 mini보다 인상 배율이 높았습니다. 대량 처리 워크플로우에서 nano를 쓰던 팀이라면 비용 구조를 다시 계산해야 할 상황입니다.
Codex에서 쓸 때 달라지는 점
Codex 사용자 입장에서 GPT-5.4 mini 출시가 의미 있는 이유가 있습니다. Codex에서 GPT-5.4 mini를 사용하면 GPT-5.4 전체 쿼터의 30%만 소모됩니다. (출처: OpenAI 공식 블로그 ‘Introducing GPT-5.4 mini and nano’, 2026.03.17) 플래그십 모델의 3분의 1 비용으로 같은 쿼터 풀에서 돌릴 수 있다는 뜻입니다.
OpenAI가 권장하는 활용 패턴은 이렇습니다. GPT-5.4가 계획·조율·최종 판단을 맡고, GPT-5.4 mini가 코드베이스 검색, 대용량 파일 검토, 보조 문서 처리 같은 병렬 서브태스크를 처리하는 방식입니다. 큰 모델이 방향을 정하고 작은 모델이 빠르게 실행하는 구조인데, 이게 의미 있으려면 mini가 실제로 서브태스크를 제대로 처리할 수 있을 만큼 성능이 됩니다. SWE-Bench Pro 54.4%는 이 맥락에서 봐야 합니다.
단, Hacker News 커뮤니티의 실사용 피드백에서 한 가지 주의할 점이 나왔습니다. GPT-5.4 계열 모델은 API 호출 시 reasoning_effort 파라미터를 명시하지 않으면 기본값이 None으로 설정되어 지능이 현저히 낮아진다는 겁니다. 공식 문서에서 별도 경고를 내놓지 않은 부분인데, API로 에이전트를 만들 때 이 파라미터를 빠뜨리면 성능이 기대에 훨씬 못 미칠 수 있습니다.
Q&A
Q1. GPT-5.4 mini를 ChatGPT 무료 플랜에서도 쓸 수 있나요?
네, 쓸 수 있습니다. ChatGPT 무료(Free)와 Go 요금제 사용자는 + 메뉴에서 ‘잘 생각하기’를 선택하면 GPT-5.4 Thinking mini를 쓸 수 있습니다. 단, 사용량 제한이 있으며 한도 도달 시 기본 모델로 전환됩니다.
Q2. GPT-5.4 nano는 ChatGPT에서 쓸 수 있나요?
아니요. GPT-5.4 nano는 API 전용 모델입니다. ChatGPT와 Codex에서는 제공되지 않습니다. 분류, 데이터 추출, 랭킹처럼 대량 처리가 필요한 API 워크로드에 적합합니다.
Q3. GPT-4o mini 대신 GPT-5.4 mini를 써야 할까요?
작업 유형에 따라 다릅니다. 코딩, 멀티스텝 추론, 에이전트 워크플로우처럼 정확도가 중요한 경우엔 GPT-5.4 mini 쪽이 실질 비용 효율이 높을 수 있습니다. 단순 분류·추출·FAQ 챗봇처럼 GPT-4o mini($0.15 입력)로 충분한 작업에 GPT-5.4 mini($0.75 입력)를 쓰면 5배 비용 차이가 납니다.
Q4. GPT-5.4 mini의 컨텍스트 윈도우가 400K인데, 긴 문서에 쓰기 좋은가요?
컨텍스트 크기 자체는 400K이지만, 128K~256K 구간에서 정보 검색 정확도(MRCR v2 8-needle 기준)가 33.6%입니다. 플래그십 GPT-5.4(79.3%)와 현격한 차이입니다. 긴 문서 전체를 그대로 넣는 방식보다 청킹 전략을 병행하는 게 낫습니다.
Q5. API에서 reasoning_effort 파라미터를 빠뜨리면 어떻게 됩니까?
기본값이 None으로 처리되어 모델의 추론 깊이가 매우 낮아진다는 것이 실사용 개발자들의 피드백입니다. (출처: Hacker News GPT-5.4 mini and nano 스레드, 2026.03.17) 공식 문서에서 이 부분을 명확하게 경고하지 않았기 때문에, API 에이전트 개발 시 reasoning_effort 파라미터를 반드시 명시적으로 설정해야 합니다.
마치며 — 총평
GPT-5.4 mini는 성능 면에서 전 세대를 확실히 뛰어넘었습니다. SWE-Bench Pro에서 플래그십과 3.3%p 차이로 좁혀진 것도, 출력 속도가 3배 이상 빨라진 것도 실제 수치로 확인됩니다. 이건 부정할 게 없습니다.
그런데 요금 구조가 같이 움직였습니다. “mini는 저렴하다”는 전제가 이번 세대에서 재정의됐고, nano의 인상 폭은 mini보다 더 컸습니다. 대량 처리 워크로드에서 비용을 mini·nano 기준으로 계획해온 팀이라면 수치를 다시 재야 합니다.
장문 컨텍스트 구간에서의 성능 격차, reasoning_effort 파라미터 누락 시의 성능 저하, nano의 API 전용 제한 — 이 세 가지는 발표 본문에서 크게 다뤄지지 않는 부분입니다. 결론부터 말하면, GPT-5.4 mini는 코딩·에이전트 워크로드에 쓸 만한 모델이지만, 비용 계산은 반드시 공식 요금표를 직접 열고 확인해야 합니다.
📎 본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026년 3월 18일 출시 기준 공식 문서를 기반으로 작성되었습니다. API 요금 및 벤치마크 수치는 OpenAI의 업데이트에 따라 달라질 수 있으므로, 실제 적용 전 공식 페이지를 직접 확인하시기 바랍니다.











댓글 남기기