GPT-5.4 mini 무료, 써보니 이게 빠져 있었습니다

Published on

in

GPT-5.4 mini 무료, 써보니 이게 빠져 있었습니다

2026.03.30 기준
GPT-5.4 mini / nano
OpenAI 공식 발표 기준

GPT-5.4 mini 무료, 써보니 이게 빠져 있었습니다

3월 20일부터 Free·Go 티어에서도 “GPT-5.4 수준”을 쓸 수 있다는 말이 퍼지고 있습니다. 틀린 말은 아닙니다. 다만 공식 문서에 적혀 있는 사용 구조를 그대로 따라가 보면, 결론이 달라지는 구간이 딱 두 곳 나옵니다.

72.1%
OSWorld 컴퓨터 조작 (mini)
47.7%
128K↑ 구간 MRCR (mini)
30%
Codex 쿼터 소모 (mini)

“무료로 GPT-5.4 수준”이라는 말, 실제 구조는 다릅니다

3월 20일, OpenAI가 Free·Go 티어 사용자도 “+’ 아이콘 → Thinking 선택”으로 GPT-5.4 mini Thinking에 접근할 수 있게 됐다고 발표했습니다. (출처: OpenAI 공식 블로그, 2026.03.20) 여기까지만 보면 “무료 사용자도 GPT-5.4 수준”이 맞습니다. 그런데 공식 헬프센터 문서를 같이 놓고 보면 구조가 조금 다릅니다.

Free 티어의 기본 한도는 5시간마다 GPT-5.3으로 최대 10개 메시지입니다. (출처: OpenAI 헬프센터 “GPT-5.3 및 GPT-5.4 in ChatGPT”, 2026.03.) 10개를 소진하면 그때서야 mini로 자동 전환됩니다. 즉, GPT-5.4 mini를 “처음부터 선택해서 쓰는 것”이 아니라, 기본 한도를 다 쓴 뒤에 내려오는 대체 모델로 작동하는 구조입니다. Free에서 Thinking 기능을 쓰고 싶다면 ‘+’ 메뉴에서 수동으로 선택해야 하고, Go 플랜도 5시간마다 최대 10개 메시지 제한이 Thinking에는 별도로 붙습니다.

💡 공식 헬프센터 문서와 발표문을 나란히 놓고 보니 이런 차이가 보였습니다. 한도를 다 썼을 때 “자동으로 내려오는 모델”과 “처음부터 선택해서 쓰는 모델”은 사용 경험이 다릅니다.

▲ 목차로 돌아가기

코딩·화면 인식에서 본체와 3%p 차이밖에 안 납니다

솔직히 이 부분은 예상보다 훨씬 좋습니다. OpenAI 공식 발표 벤치마크에 따르면, 실제 PC 화면을 보고 마우스·키보드를 조작하는 능력을 측정하는 OSWorld-Verified에서 GPT-5.4 mini는 72.1%를 기록했습니다. 플래그십 GPT-5.4(75.0%)와의 차이가 2.9%p에 불과합니다. (출처: OpenAI 공식 릴리스노트 “Introducing GPT-5.4 mini and nano”, 2026.03.17)

코딩 벤치마크인 SWE-Bench Pro에서도 mini는 54.4%로, 본체(57.7%)와 3.3%p 차이입니다. 이전 세대 GPT-5 mini가 45.7%였던 것과 비교하면 8.7%p 향상된 수치입니다. 실제 소프트웨어 버그 수정 작업에서 mini를 써도 본체 성능의 94% 수준이 나온다는 뜻입니다.

벤치마크 GPT-5.4 (본체) GPT-5.4 mini GPT-5 mini (구)
SWE-Bench Pro 57.7% 54.4% 45.7%
OSWorld-Verified 75.0% 72.1% 42.0%
Terminal-Bench 2.0 75.1% 60.0% 38.2%
GPQA Diamond 93.0% 88.0% 81.6%

출처: OpenAI 공식 릴리스노트, 2026.03.17 / xhigh effort 기준

▲ 목차로 돌아가기

128K 이상 문서에서 성능이 절반으로 꺾이는 구간이 있습니다

이 부분이 기존 블로그 어디에도 제대로 나오지 않는 내용입니다. GPT-5.4 mini의 컨텍스트 창은 400K 토큰으로 본체(1M)보다 작지만 넉넉해 보입니다. 그런데 OpenAI 공식 발표문 벤치마크 표를 자세히 보면, 긴 문서 처리 능력(Long context) 지표에서 128K를 넘어가는 순간 점수가 크게 꺾입니다.

MRCR v2 8-needle 테스트(여러 긴 문서 속 특정 정보를 찾는 능력)에서 64K~128K 구간 기준으로 본체는 86.0%, mini는 47.7%입니다. 절반에 가까운 차이입니다. (출처: OpenAI 공식 릴리스노트 “Introducing GPT-5.4 mini and nano”, 2026.03.17) 128K~256K 구간에서는 본체 79.3%, mini 33.6%로 격차가 더 벌어집니다. 400K 토큰을 넣을 수는 있지만, 중간 이후 구간의 정보를 정확하게 ‘찾아내는 능력’은 크게 떨어집니다.

📊 Long context 구간별 성능 비교

64K~128K MRCR
본체 86.0%
mini 47.7%
128K~256K MRCR
본체 79.3%
mini 33.6%

출처: OpenAI 공식 릴리스노트, 2026.03.17

실무에서 이게 중요한 이유는 간단합니다. 긴 계약서, 대용량 코드베이스, 수십 페이지 보고서를 넣고 “이 부분 찾아줘”라는 작업에서 mini를 본체 대신 쓰면 안정적인 결과를 기대하기 어렵습니다. 128K는 영문 기준 약 10만 단어 분량입니다. 국내 시중 소설 한 권이 약 10만 자(한글 기준)인 점을 감안하면, 중편 소설 이상의 분량을 다루는 순간부터 격차가 벌어집니다.

▲ 목차로 돌아가기

Codex에서 쿼터를 30%만 쓴다는 말이 실제로 의미하는 것

Codex(OpenAI의 코딩 에이전트 플랫폼)에서 GPT-5.4 mini를 서브에이전트로 쓰면 GPT-5.4 플래그십 쿼터의 30%만 차감됩니다. (출처: OpenAI 공식 릴리스노트 “Introducing GPT-5.4 mini and nano”, 2026.03.17) 같은 쿼터로 GPT-5.4 본체 작업 1개를 돌릴 때, mini 서브에이전트를 3.3개 돌릴 수 있다는 계산입니다.

개발자 입장에서 이 구조가 유리한 경우는 분명합니다. 큰 코딩 프로젝트를 플래그십이 ‘계획’하고, 반복적인 단순 파일 수정·테스트 실행은 mini에게 맡기는 멀티에이전트 파이프라인에서 비용 효율이 뚜렷하게 납니다. 다만 앞서 확인한 것처럼, 대용량 코드베이스 전체를 컨텍스트에 올려두고 분석하는 작업에는 mini를 서브에이전트로 쓰기보다 본체를 유지하는 쪽이 안전합니다.

💡 쿼터 30% 구조를 Codex 서브에이전트 설정과 함께 보면, 단순 작업과 복잡 작업을 어디서 나눠야 하는지 자연스럽게 기준이 생깁니다. 공식 발표문에 이미 이 기준이 나와 있습니다.

▲ 목차로 돌아가기

nano는 컴퓨터 조작용으로 쓰면 안 되는 이유가 있습니다

GPT-5.4 nano를 소개하는 글들을 보면 “저렴하고 빠른 경량 모델”이라는 설명이 주를 이룹니다. 맞는 말입니다. 그런데 어떤 작업에 쓰느냐에 따라 결과가 극단적으로 달라지는 수치가 있습니다. OSWorld-Verified(실제 컴퓨터 화면 조작 벤치마크)에서 mini는 72.1%인데, nano는 39.0%입니다. (출처: OpenAI 공식 릴리스노트, 2026.03.17) 절반 수준입니다.

이 차이는 단순히 “약간 못한다”는 수준이 아닙니다. 컴퓨터 조작 에이전트(스크린 읽기, 클릭, 타이핑 자동화)를 구성할 때 nano를 선택하면 성공률이 mini의 54% 수준에 머뭅니다. 같은 API 비용 대비 생산성을 따지면 nano가 더 비쌀 수 있습니다. 반면 텍스트 분류, 데이터 추출, 단순 JSON 파싱 같은 텍스트 전용 작업에서는 nano의 저렴한 가격($0.20/100만 토큰 입력)이 압도적으로 유리합니다.

작업 유형 추천 모델 이유
컴퓨터 화면 조작·UI 자동화 mini OSWorld 72.1% vs nano 39.0%
코딩 버그 수정 (128K 이하) mini SWE-Bench 54.4%, 본체 대비 94%
텍스트 분류·JSON 추출 nano 입력 $0.20/1M으로 비용 최소화
128K↑ 장문 분석·검색 본체 GPT-5.4 mini MRCR 47.7% → 정확도 급락

출처: OpenAI 공식 릴리스노트, 2026.03.17 수치 기반 / 가격은 API 기준

▲ 목차로 돌아가기

플랜별 사용 흐름을 그대로 따라가 보면 이렇게 됩니다

막상 써보면 자기 플랜에서 mini를 어떻게 만나는지가 달라집니다. Free 플랜에서는 5시간마다 GPT-5.3으로 최대 10개 메시지가 기본값이고, 그 한도를 다 소진하면 자동으로 mini 버전으로 내려옵니다. (출처: OpenAI 헬프센터, 2026.03.) Thinking을 원하면 직접 ‘+’ → Thinking 수동 선택이 필요하고, 이때 별도로 5시간에 10개 메시지 제한이 붙습니다.

Plus/Go 플랜은 3시간마다 GPT-5.3으로 160개 메시지가 기본값입니다. 이 한도를 소진하면 역시 mini로 전환됩니다. GPT-5.4 Thinking을 수동 선택하면 주당 최대 3,000개 메시지 한도가 별도로 존재합니다. Thinking에서 Instant(GPT-5.3)로 자동 전환되는 케이스는 이 주간 한도에 포함되지 않아, 한도 초과 이후에도 시스템이 판단해서 Thinking으로 자동 넘어갈 수는 있습니다.

플랜별 mini 접근 요약

  • Free: 5h마다 GPT-5.3 × 10개 → 한도 소진 시 mini 자동 전환 / Thinking은 ‘+’ 수동 선택 필요
  • Go: 3h마다 GPT-5.3 × 160개 → 한도 소진 시 mini / Thinking은 5h마다 10개 별도 한도
  • Plus: 3h마다 160개 → 한도 소진 시 mini / Thinking은 주당 3,000개 한도
  • Pro: GPT-5 모델 무제한(약관 내), GPT-5.4 Pro 포함

출처: OpenAI 헬프센터 “GPT-5.3 및 GPT-5.4 in ChatGPT”, 2026.03.

▲ 목차로 돌아가기

API 가격표로 직접 계산해봤습니다

ChatGPT가 아닌 API로 활용하는 개발자라면 가격 구조를 직접 따져봐야 합니다. OpenAI 공식 발표문에 나온 API 가격은 이렇습니다. (출처: OpenAI 공식 릴리스노트, 2026.03.17)

모델 입력 (100만 토큰) 출력 (100만 토큰) 컨텍스트 창
GPT-5.4 mini $0.75 $4.50 400K
GPT-5.4 nano $0.20 $1.25 API 전용
GPT-5.4 (본체) $2.50 $15.00 1M

출처: OpenAI 공식 릴리스노트 “Introducing GPT-5.4 mini and nano”, 2026.03.17

입력 토큰 기준으로 본체 대비 mini는 약 3.3배, nano는 약 12.5배 저렴합니다. 출력 토큰은 본체 대비 mini 3.3배, nano 12배 차이입니다. 단순 텍스트 작업 100만 건을 nano로 처리하면 본체 대비 약 12배 비용 절감이 가능한 셈인데, 그 작업에 화면 조작이 포함되면 nano의 39% 성공률이 발목을 잡습니다. 작업 유형을 먼저 분류하는 게 가격 최적화보다 선행되어야 하는 이유입니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q1. 무료 ChatGPT 사용자도 GPT-5.4 mini를 쓸 수 있나요?
네, 쓸 수 있습니다. 다만 두 가지 경로입니다. 첫째, 기본 GPT-5.3 한도(5시간마다 10개)를 소진하면 자동으로 mini로 내려옵니다. 둘째, ‘+’ → Thinking을 수동 선택하면 GPT-5.4 mini Thinking을 직접 쓸 수 있고, 이때 5시간마다 별도 10개 한도가 붙습니다. (출처: OpenAI 헬프센터, 2026.03.)
Q2. GPT-5.4 nano를 ChatGPT 앱에서 선택할 수 있나요?
아니요. GPT-5.4 nano는 API 전용으로만 제공됩니다. ChatGPT 앱이나 웹에서는 선택지에 표시되지 않습니다. 개발자가 API를 통해 직접 호출하는 방식으로만 사용할 수 있습니다. (출처: OpenAI 공식 릴리스노트, 2026.03.17)
Q3. GPT-5.4 mini의 컨텍스트 창이 400K라면 긴 문서도 문제없나요?
‘넣는 것’과 ‘정확히 찾아내는 것’은 다릅니다. 400K까지 입력은 가능하지만, 64K~128K 구간에서 이미 본체(86.0%)의 절반 수준(47.7%)으로 검색 정확도가 떨어집니다. 128K 이상 문서에서 특정 정보를 정확하게 추출해야 한다면 본체 GPT-5.4 사용을 권장합니다. (출처: OpenAI 공식 릴리스노트, 2026.03.17 MRCR 벤치마크)
Q4. Codex에서 GPT-5.4 mini의 쿼터 30%가 구체적으로 어떻게 작동하나요?
Codex에서 GPT-5.4 본체 작업 1건을 실행하면 플래그십 쿼터 100%가 소모됩니다. 같은 작업을 mini 서브에이전트에 위임하면 30%만 소모되어, 동일 쿼터로 약 3.3배 더 많은 작업을 처리할 수 있습니다. 단순 코딩 자동화·파일 수정 반복 작업에서 비용 효율이 높습니다. (출처: OpenAI 공식 릴리스노트, 2026.03.17)
Q5. GPT-5.4 mini와 경쟁 모델(Claude Haiku 4.5, Gemini 3 Flash)과의 차이는?
코딩 벤치마크(Terminal-Bench 2.0) 기준으로 GPT-5.4 mini가 60.0%로 Claude Haiku 4.5(약 41.0%)와 Gemini 3 Flash(약 47.6%)를 앞선다는 비교 데이터가 있습니다. 컴퓨터 조작(OSWorld) 역시 mini의 강점 구간입니다. 다만 long-context 정확도 등 세부 항목별로는 직접 비교 공식 데이터가 아직 공개되지 않은 부분이 있습니다.

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.4 mini는 코딩과 화면 조작 분야에서 본체 성능의 94~96% 수준을 훨씬 낮은 비용에 쓸 수 있다는 점에서 분명히 인상적입니다. “무료 사용자도 GPT-5.4 수준”이라는 말도 틀린 건 아닙니다. 다만 그 ‘수준’이 한도 소진 이후 자동으로 내려오는 구조라는 점, 그리고 128K 이상 장문 처리에서 공식 수치상 정확도가 절반 이하로 꺾인다는 점은 이 모델을 어떤 용도에 쓸지 결정하기 전에 먼저 알아야 하는 내용입니다.

nano는 텍스트 전용 반복 작업에서 가격 대비 효율이 압도적이지만, 컴퓨터 조작·화면 인식 에이전트에 쓰면 성공률이 39%까지 떨어집니다. 작업 유형을 먼저 분류하고 모델을 고르는 순서가 돌아가야 제대로 씁니다. 이 부분을 정리해두고 쓰면, 같은 ChatGPT Plus 요금으로도 체감이 꽤 달라집니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. OpenAI 공식 릴리스노트 “Introducing GPT-5.4 mini and nano” (2026.03.17)
  2. OpenAI 헬프센터 “ChatGPT의 GPT-5.3 및 GPT-5.4” — 사용 한도·티어별 제공 정보
  3. OpenAI 공식 릴리스노트 “GPT-5.4를 소개합니다” (2026.03.05) — 본체 벤치마크 전체 표

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 사용 한도·가격·벤치마크 수치는 OpenAI 공식 문서 기준(2026.03.30 확인)이며, OpenAI의 업데이트에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기