결론부터 말씀드리면, GPT-5.4 mini는 Free 사용자도 쓸 수 있긴 합니다. 그런데 어디서, 어떤 경로로 쓰느냐에 따라 경험이 완전히 달라집니다. 게다가 공식 벤치마크에 조용히 박혀 있는 long context 수치가 예상보다 훨씬 낮습니다. 직접 확인했습니다.
코딩·추론·멀티모달 이해·도구 사용 전반에서 이전 세대 mini 모델보다 크게 향상됐습니다. SWE-Bench Pro 기준으로 GPT-5 mini는 45.7%, GPT-5.4 mini는 54.4%를 기록했는데, 같은 속도 구간에서 성능이 약 19% 올라간 셈입니다. OSWorld-Verified(컴퓨터 사용 능력) 항목에서도 GPT-5.4 mini(72.1%)는 GPT-5.4(75.0%)에 거의 근접합니다. 벤치마크 수치가 실제 사용감과 정확히 일치하지는 않지만, 이 정도 격차라면 화면 보고 작업하는 용도로 mini를 쓰는 게 충분히 합리적입니다.
ChatGPT, Codex, API 세 경로에서 모두 사용할 수 있으며, 각 경로마다 작동 방식과 조건이 다릅니다. 이 부분이 핵심입니다.
Free 사용자가 mini를 만나는 두 가지 경로
많은 분이 “GPT-5.4 mini 무료로 됩니다”라는 이야기를 접했을 텐데, 맞기는 합니다. 그런데 어떻게 만나느냐에 따라 의미가 전혀 달라집니다. 경로가 두 가지입니다.
💡 공식 문서와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
경로 ①: 한도 소진 후 자동 전환
Free 사용자는 5시간마다 GPT-5.3으로 최대 10개 메시지를 보낼 수 있습니다. 이 한도가 다 차면, 대화창은 자동으로 mini 버전으로 전환됩니다. 원하지 않아도 전환되는 구조이고, 별도 선택이 필요 없습니다. (출처: OpenAI Help Center, GPT-5.3 and GPT-5.4 in ChatGPT, 2026.03.18 기준)
경로 ②: Thinking 메뉴에서 직접 선택
Free 사용자도 입력창 아래 + 아이콘을 클릭해 “Thinking” 기능을 직접 켤 수 있습니다. 이때 적용되는 모델이 GPT-5.4 mini입니다. 단, GPT-5.4 Thinking 풀 버전이 아니라 mini 기반 추론 모드라는 점을 구분해야 합니다.
두 경로 모두 mini를 사용하지만, 맥락이 다릅니다. 경로 ①은 한도를 다 쓴 뒤의 대체 모델이고, 경로 ②는 추론 기능을 직접 활성화한 상태입니다. 같은 mini라도 어느 경로로 들어왔느냐에 따라 대화 흐름과 기대치가 달라질 수 있습니다.
Go 사용자의 경우 Thinking을 켠 뒤 5시간마다 최대 10개 메시지를 보낼 수 있고, GPT-5.4 Thinking 풀 버전을 쓰는 게 아닙니다. 3월 초 Reddit에 올라온 Go 사용자들의 실사용 보고를 보면, Thinking 활성화 후에도 GPT-5.4가 아닌 GPT-5 Thinking mini로 라우팅된다는 경험이 여럿 있었습니다.
벤치마크에서 조용히 드러난 long context 문제
OpenAI 공식 발표문 벤치마크 표 맨 아래에 Long context 항목이 있습니다. 이 부분을 보면 mini의 성격이 분명해집니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 mini | GPT-5 mini |
|---|---|---|---|
| SWE-Bench Pro (코딩) | 57.7% | 54.4% | 45.7% |
| OSWorld-Verified (컴퓨터 사용) | 75.0% | 72.1% | 42.0% |
| MRCR 8-needle 64K~128K ⚠️ | 86.0% | 47.7% | 35.1% |
| MRCR 8-needle 128K~256K | 79.3% | 33.6% | 19.4% |
| GPQA Diamond (전문 지식) | 93.0% | 88.0% | 81.6% |
(출처: OpenAI 공식 블로그, introducing-gpt-5-4-mini-and-nano, 2026.03.18 / xhigh 추론 설정 기준)
코딩·컴퓨터 사용 항목에서 GPT-5.4 mini는 본체 수준에 거의 근접합니다. 그런데 긴 문맥을 처리하는 MRCR 벤치마크에서는 64K~128K 구간 기준 GPT-5.4(86.0%)와 GPT-5.4 mini(47.7%) 사이에 38.3%p 차이가 납니다. 본체 대비 55% 수준으로 뚝 떨어집니다. 긴 문서 요약이나 대규모 코드베이스 분석 같은 작업에서는 체감 품질이 크게 다를 수 있다는 뜻입니다.
이 부분은 OpenAI가 공식 발표문에서도 직접 인정한 내용입니다. “긴 컨텍스트 작업에서 성능이 저하된다”는 내용이 표로 제시돼 있을 뿐 별도 설명은 없습니다. OpenAI가 공식 이유를 추가로 밝히지 않은 부분입니다.
Codex에서 30% 할당량이 의미하는 것
Codex 사용자에게 mini의 가장 실질적인 의미는 할당량 절감입니다. 공식 발표문에 따르면, Codex에서 GPT-5.4 mini를 쓰면 GPT-5.4 할당량의 30%만 차감됩니다. 같은 Codex 한도로 GPT-5.4 대비 약 3.3배 더 많은 작업을 처리할 수 있다는 계산이 나옵니다. (출처: OpenAI 공식 블로그, 2026.03.18)
💡 발표문의 할당량 수치와 Codex 사용 패턴을 겹쳐보니 이런 활용 구조가 보였습니다
OpenAI는 GPT-5.4를 오케스트레이터(계획·판단), GPT-5.4 mini를 서브에이전트(좁은 태스크 실행)로 나눠 쓰는 구조를 공식 권장합니다. 즉, “큰 모델이 무엇을 할지 결정하고, mini가 빠르게 실행한다”는 방식입니다. 코드베이스 탐색, 대용량 파일 검토, 문서 처리 같은 반복적인 서브태스크를 mini에 넘기면 전체 비용은 낮추면서 메인 추론 품질은 GPT-5.4가 유지합니다.
단, 서브에이전트를 자동으로 mini로 위임하려면 별도 설정이 필요합니다. Codex가 자동으로 판단해 mini로 넘기는 경우도 있지만, 프롬프트에서 명시적으로 지정하거나 AGENTS 설정에서 서브에이전트 구성을 직접 만들어야 합니다. Reddit의 Codex 커뮤니티에서 “자동으로 위임되냐”는 질문이 많이 올라왔는데, 공식 문서는 “명시적으로 요청할 때만 서브에이전트를 생성한다”고 적고 있습니다.
Codex nano는 현재 API 전용입니다. ChatGPT나 Codex 앱에서는 쓸 수 없고, 가격도 입력 $0.20/1M 토큰, 출력 $1.25/1M 토큰으로 mini($0.75/$4.50)보다 훨씬 저렴합니다. 분류·데이터 추출·순위 지정처럼 단순한 서브태스크에는 nano가 맞고, 그 이상의 작업에는 mini를 쓰라는 게 OpenAI의 가이드입니다.
API 사용자에게 실제로 유리한 조건
API에서 GPT-5.4 mini는 400K 토큰 컨텍스트 윈도우를 지원합니다. 텍스트·이미지 입력, 도구 사용, 함수 호출, 웹 검색, 파일 검색, 컴퓨터 사용, 스킬 기능을 모두 지원합니다. 가격은 입력 $0.75/1M 토큰, 출력 $4.50/1M 토큰입니다.
API 가격 비교 (2026.03.18 기준)
| 모델 | 입력 (1M 토큰) | 출력 (1M 토큰) | 컨텍스트 |
|---|---|---|---|
| GPT-5.4 mini | $0.75 | $4.50 | 400K |
| GPT-5.4 nano | $0.20 | $1.25 | – |
| GPT-5 mini (이전 세대) | $0.25 | $2.00 | – |
(출처: OpenAI 공식 블로그, 나무위키 GPT-5 문서 종합, 2026.03.18 기준 / 가격은 변동될 수 있음)
API에서 컴퓨터 사용(Computer Use) 기능이 mini에서도 지원된다는 점은 주목할 만합니다. GPT-5.4의 핵심 기능 중 하나였던 스크린샷 해석 및 UI 자동화를 mini 가격으로 쓸 수 있습니다. OSWorld-Verified에서 GPT-5.4(75.0%)와 mini(72.1%)의 차이가 2.9%p에 불과하다는 점도 실용적입니다.
💡 이전 세대 모델 가격과 기능 변화를 같이 보니 이 패턴이 보였습니다
OpenAI의 mini 라인업은 세대가 오를수록 “대체 모델”에서 “독립 실행 가능한 소형 에이전트”로 성격이 이동하고 있습니다. GPT-5.4 mini가 GPT-5.4 본체의 컴퓨터 사용 성능을 72.1% 수준까지 따라잡은 건 이 흐름을 보여주는 수치입니다. 앞으로 mini 계열이 단순 채팅 보조가 아닌 에이전트 파이프라인의 핵심 구성 요소가 될 가능성이 높습니다.
ChatGPT Plus 사용자 입장에서는 GPT-5.4 Thinking 주간 한도(3,000개)가 소진되면 자동으로 mini로 전환됩니다. 이 자동 전환은 주간 한도에 집계되지 않기 때문에, 한도를 다 쓴 뒤에도 Instant가 필요에 따라 Thinking으로 라우팅하는 경우는 여전히 작동합니다. 한도 걱정 없이 Thinking 기능을 적당히 쓸 수 있는 구조가 된 셈입니다.
자주 묻는 질문
마치며
그런데 “무료로 된다”, “GPT-5.4랑 거의 같다”는 이야기를 그대로 받아들이면 당황스러운 경험이 생깁니다. Free 사용자의 Thinking은 한도가 엄격하고, long context 성능 수치는 본체와 절반 가까이 차이가 납니다. 공식 발표문에 모두 적혀 있지만, 눈에 잘 안 띄는 곳에 있는 숫자들입니다.
짧고 반복적인 작업, 코딩 서브에이전트, 스크린샷 해석 같은 용도에서는 mini가 충분히 실용적입니다. 반면 긴 문서 분석이나 대규모 코드베이스 탐색처럼 넓은 컨텍스트가 필요한 작업에는 본체나 더 높은 요금제가 필요합니다. 쓰임새에 맞춰 선택하는 게 현명합니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 — “Introducing GPT-5.4 mini and nano” (2026.03.18): openai.com/index/introducing-gpt-5-4-mini-and-nano
- OpenAI Help Center — “GPT-5.3 and GPT-5.4 in ChatGPT” (2026.03.18 기준): help.openai.com 공식 문서
- OpenAI 모델 출시 노트 (2026.03.18 기준): help.openai.com 출시 노트
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI는 모델 스펙·가격·한도를 사전 고지 없이 업데이트하는 경우가 있으므로, 중요한 판단 전에 공식 문서를 직접 확인하시길 권장합니다. 본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다.











댓글 남기기