GPT-5.4 mini, 빠르다는 말이 전부가 아닙니다

Published on

in

GPT-5.4 mini, 빠르다는 말이 전부가 아닙니다

2026.03.17 기준
gpt-5.4-mini-2026-03-17
⚠ 출시 당일 가격 3배 인상

GPT-5.4 mini, 빠르다는 말이 전부가 아닙니다

OpenAI가 2026년 3월 17일 출시한 GPT-5.4 mini와 nano. “소형 모델인데 플래그십 수준”이라는 발표가 맞는 부분도 있지만, 공식 벤치마크를 직접 들여다보면 조용히 숨겨진 수치들이 있습니다. 특히 긴 컨텍스트 성능과 가격 논란은 지금 이 모델을 선택하려는 분들이 반드시 먼저 확인해야 할 부분입니다.

출시 당일, 가격표가 바뀌었습니다

GPT-5.4 mini가 공개된 2026년 3월 17일, Reddit 커뮤니티에서는 독특한 목격담이 올라왔습니다. 출시 직전까지 입력 $0.25/100만 토큰, 출력 $2/100만 토큰으로 알려졌던 가격이, 정식 발표 시점에는 입력 $0.75/100만 토큰, 출력 $4.50/100만 토큰으로 공개됐습니다. (출처: r/codex, 2026.03.17 / OpenAI API 공식 가격 페이지)

입력 기준으로 3배, 출력 기준으로 약 2.25배 올랐습니다. 사전 유출됐던 정보와 실제 가격 사이의 간극이 이렇게 컸던 경우는 드뭅니다. OpenAI 측이 별도 이유를 공개하지 않은 부분입니다.

💡 공식 가격과 유출 가격을 같이 놓고 보면, 마케팅과 정책 사이에서 꽤 큰 조정이 있었다는 게 보입니다. 실제 API 예산을 짤 때 유출 정보 의존은 금물입니다.

최종 공식 가격은 GPT-5 mini($0.25/$2) 대비 3배 비싸지만, GPT-5.4 풀버전($2.50/$15)의 약 30% 수준입니다. (출처: OpenAI API 공식 가격 페이지)

▲ 목차로 돌아가기

“플래그십 수준”이 무너지는 구간이 있습니다

GPT-5.4 mini를 “거의 플래그십 수준”이라고 말할 수 있는 영역이 분명히 있습니다. 코딩 벤치마크인 SWE-Bench Pro에서 54.4%를 기록해 GPT-5.4(57.7%)와 불과 3.3%p 차이입니다. (출처: OpenAI 공식 발표, 2026.03.17) 일반 코딩 작업에서는 체감 차이가 크지 않습니다.

그런데 긴 컨텍스트 작업에 들어가면 이야기가 완전히 달라집니다. OpenAI가 공개한 MRCR v2 벤치마크(8-needle 테스트)를 보면, 128K~256K 구간에서 GPT-5.4 mini는 33.6%를 기록했습니다. GPT-5.4 풀버전이 같은 구간에서 79.3%인 것과 비교하면, 성능이 절반 이하로 떨어집니다. 단순 속도나 비용 문제가 아닙니다. (출처: OpenAI 공식 발표, 2026.03.17)

벤치마크 GPT-5.4 GPT-5.4 mini GPT-5 mini
SWE-Bench Pro 57.7% 54.4% 45.7%
MRCR v2 128K~256K 79.3% 33.6% 19.4%
OSWorld-Verified 75.0% 72.1% 42.0%
Terminal-Bench 2.0 75.1% 60.0% 38.2%

※ reasoning_effort xhigh 기준 / 출처: OpenAI 공식 발표 (2026.03.17)

MRCR 128K~256K 구간에서 33.6% vs 79.3%. 두 배 넘는 차이입니다. 긴 문서 분석이나 대규모 코드베이스 리뷰에 mini를 쓰려 한다면, 이 수치를 먼저 봐야 합니다.

▲ 목차로 돌아가기

nano는 mini의 하위 호환이 아닙니다

GPT-5.4 nano는 mini보다 싼 대신 더 낮은 성능이라고 단순하게 생각하면 손해 보는 케이스가 생깁니다. 실제로 nano는 컴퓨터 사용(Computer Use) 과제에서 39.0%(OSWorld-Verified)를 기록했는데, 이 숫자는 이전 세대인 GPT-5 mini(42.0%)보다도 낮습니다. nano를 UI 자동화나 컴퓨터 제어 에이전트에 연결하면 기대 이하의 결과가 나올 가능성이 높습니다. (출처: OpenAI 공식 발표, 2026.03.17)

💡 공식 벤치마크를 구조별로 비교해 보니, nano와 mini가 잘하는 영역이 완전히 다릅니다. nano는 범용 서브에이전트나 대량 분류·라우팅 작업에 적합하고, 컴퓨터 조작이 들어가는 과제는 mini 이상이 필요합니다.

반면 GPQA Diamond(과학 추론)에서는 nano가 82.8%로, 이전 세대 mini의 81.6%를 앞섭니다. 텍스트 기반 추론과 구조화된 출력 작업에서는 nano가 가성비 우위를 점합니다. 가격은 입력 $0.20/100만 토큰, 출력 $1.25/100만 토큰으로 mini의 약 27% 수준입니다. (출처: OpenAI API 공식 가격 페이지)

▲ 목차로 돌아가기

Codex에서는 실제로 비용이 줄어듭니다

Codex 앱, CLI, IDE 확장에서 GPT-5.4 mini를 쓰면 GPT-5.4 쿼터의 30%만 소모됩니다. (출처: OpenAI 공식 발표, 2026.03.17) 즉, 같은 Codex 플랜에서 GPT-5.4 대신 mini를 사용하면 동일 예산으로 약 3.3배 더 많은 작업을 처리할 수 있습니다.

SWE-Bench Pro 기준 mini(54.4%)와 풀버전(57.7%)의 차이는 3.3%p입니다. 반복적인 단순 코드 수정·리팩터링·테스트 자동화처럼 정확도보다 처리량이 중요한 작업에서는 mini가 훨씬 합리적인 선택입니다. 솔직히 말하면, 코딩 실무의 60~70%는 이런 단순 반복 작업입니다.

다만 새로운 기능 설계나 아키텍처 결정처럼 창의적 추론이 필요한 작업에는 Terminal-Bench 기준 격차(75.1% vs 60.0%)가 체감에 나타납니다. 작업 유형에 따라 모델을 나눠 쓰는 것이 현실적인 전략입니다.

▲ 목차로 돌아가기

경쟁 소형 모델과 어떻게 다른가

GPT-5.4 nano($0.20/$1.25)는 가격 기준으로 Claude Haiku 4.5($1.00/$5.00)를 크게 밑돕니다. 가격만 보면 nano가 압도적이지만, OSWorld 컴퓨터 사용 비교에서는 Claude Haiku 4.5(표준 OSWorld 50.7%)가 nano(OSWorld-Verified 39.0%)보다 높은 수치를 기록했습니다. 두 벤치마크가 다른 기준이라 직접 비교가 까다롭지만, 차이가 12%p에 달하기 때문에 경시하기 어렵습니다. (출처: DataCamp, 2026.03.17)

GPQA Diamond와 τ2-bench Telecom에서는 GPT-5.4 nano가 각각 9.8%p, 9.5%p 앞서며 텍스트 추론과 도구 호출 정확도에서 우위를 보입니다. 컴퓨터 자동화 에이전트가 아닌 텍스트 처리·분류·라우팅 기반 서비스를 개발한다면 nano의 가성비가 돋보입니다.

💡 다른 글들이 mini와 풀버전만 비교하는 사이, nano와 경쟁 소형 모델 간의 영역별 교차 비교를 해 보면 “어느 작업에 nano를 쓰면 안 되는지”가 보입니다. 범용적으로 쓰면 실망할 수 있는 모델입니다.

▲ 목차로 돌아가기

ChatGPT에서 어떻게 만날 수 있나

ChatGPT 앱에서는 Free와 Go 요금제 사용자가 Thinking 기능을 켤 때 기본값으로 GPT-5.4 mini가 적용됩니다. Plus·Business 사용자가 GPT-5.4 Thinking 주간 한도(3,000개)에 도달하면 자동으로 mini로 전환되는 구조입니다. (출처: OpenAI Help Center, 2026.03.18)

한 가지 특이한 점이 있습니다. Instant 모드(GPT-5.3)가 자동으로 GPT-5.4 Thinking으로 전환할 때는 주간 한도를 소비하지 않습니다. 반면 사용자가 직접 Thinking을 선택하면 한도가 줄어듭니다. 메뉴를 건드리지 않고 Instant 상태로 두면 GPT-5.4 수준의 추론을 한도 걱정 없이 받을 수 있습니다.

GPT-5.4 nano는 ChatGPT에 직접 노출되지 않고 API 전용으로만 제공됩니다. 일반 ChatGPT 사용자는 nano를 의식할 필요가 없으며, API를 활용하는 개발자나 기업이 주된 대상입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. GPT-5.4 mini는 무료 ChatGPT에서도 쓸 수 있나요?

Free 요금제에서 Thinking(+) 메뉴를 열면 GPT-5.4 mini가 기본값으로 적용됩니다. 단, Free는 5시간마다 GPT-5.3 기준 10개 메시지 한도가 있고, 한도 초과 시 자동으로 mini로 내려갑니다. 즉, 무료 사용자가 Thinking을 직접 켜지 않아도 한도 초과 상황에서 mini가 작동합니다. (출처: OpenAI Help Center)

Q2. GPT-5.4 mini와 nano, 무엇을 선택해야 하나요?

컴퓨터 자동화·UI 제어·멀티스텝 에이전트 과제라면 mini(OSWorld-Verified 72.1%)를 선택해야 합니다. 반면 텍스트 분류·데이터 라우팅·대량 API 호출처럼 추론보다 처리량과 비용이 중요한 경우라면 nano($0.20/$1.25)가 적합합니다. nano는 ChatGPT에는 없고 API 전용입니다.

Q3. 긴 문서를 다룰 때 mini 대신 뭘 써야 하나요?

128K 토큰 이상 긴 컨텍스트 작업에서 mini의 MRCR v2 정확도는 33.6%까지 하락합니다. 이런 용도에는 GPT-5.4 풀버전(79.3%)을 쓰거나, 긴 문서를 구간별로 분할해 mini에 순차 처리하는 방식이 현실적입니다. 비용은 더 들더라도 결과물 품질이 중요한 법률 문서·기술 명세서 분석이라면 풀버전을 권장합니다.

Q4. Codex에서 mini를 쓰면 쿼터가 실제로 얼마나 아껴지나요?

Codex에서 mini는 GPT-5.4 쿼터의 30%만 사용합니다. 월 Codex Pro 플랜 쿼터 100단위가 있다면, GPT-5.4로는 100개 작업을 처리하지만 mini로는 약 333개 작업까지 처리할 수 있습니다. 단순 버그 수정·리팩터링·테스트 작성 등에는 충분한 성능입니다. (출처: OpenAI 공식 발표, 2026.03.17)

Q5. GPT-5 Thinking mini는 언제 지원이 종료되나요?

GPT-5.4 mini 출시에 따라 기존 GPT-5 Thinking mini는 2026년 4월 18일(KST)에 지원이 종료될 예정입니다. Enterprise/Edu 플랜의 GPT-4o 맞춤형 GPT 지원도 2026년 4월 3일로 완전 종료됩니다. 기존 커스텀 GPT를 운영 중인 기업 담당자는 마이그레이션 일정을 지금 확인해야 합니다. (출처: OpenAI Help Center)

▲ 목차로 돌아가기

마치며

GPT-5.4 mini는 “소형 모델의 한계”를 많이 좁힌 건 사실입니다. SWE-Bench Pro에서 54.4%는 불과 6개월 전 플래그십 수준입니다. 코딩, 도구 호출, 시각 이해 전반에서 이전 세대 mini를 확실히 앞섭니다.

다만 긴 컨텍스트에서의 급격한 성능 하락과 출시 당일의 가격 인상, 그리고 nano와의 영역 구분 없이 무조건 mini를 선택하는 습관은 기대와 결과 사이의 간극을 만들 수 있습니다. 개인적으로는 Codex에서 단순 반복 작업에 mini를 기본으로 두고, 복잡한 설계 작업은 풀버전으로 전환하는 이원화 전략이 현재로선 가장 합리적이라고 생각합니다.

OpenAI가 공식 발표문에서 직접 말했듯이, 마지막 몇 퍼센트의 정확도를 얻기 위해 드는 비용은 기하급수적으로 늘어납니다. mini와 nano는 그 “마지막 몇 퍼센트”를 포기하고 나머지 가치를 얻는 선택입니다. 어떤 과제에서 그 포기가 용납되는지 먼저 파악하고 쓰는 것이 핵심입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 발표 — GPT-5.4 mini 및 nano 출시 (2026.03.17)
  2. OpenAI API 공식 가격 페이지 — developers.openai.com/api/docs/pricing
  3. OpenAI Help Center — ChatGPT의 GPT-5.3 및 GPT-5.4 (2026.03.18)
  4. DataCamp — GPT-5.4 mini and nano: Benchmarks, Access, and Reactions (2026.03.17)

본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 문서(gpt-5.4-mini-2026-03-17 기준) 및 공개 벤치마크를 바탕으로 작성됐으며, 추정치는 별도로 표기했습니다. 최신 정보는 반드시 OpenAI 공식 채널에서 확인하시기 바랍니다.

댓글 남기기


최신 글

  • 세금포인트 조회 사용 2026, 할인 혜택 전 확인
    세금포인트 조회 사용 2026 기준으로 포인트 잔액, 사용처와 조건, 납세담보 등 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 현금영수증 미발급 신고 2026, 포상금 전 증빙
    현금영수증 미발급 신고 2026 기준으로 결제 증빙, 상호·연락처, 요청 기록 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 보육료 전환 신청 2026, 양육수당 중복 체크
    보육료 전환 신청 2026 기준으로 입소일과 신청일, 양육수당·부모급여, 보육료 자격 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청년월세지원 신청 2026, 임대차 서류 체크
    청년월세지원 신청 2026 기준으로 나이·거주 요건, 계약서와 이체 내역, 본인·원가구 소득 확인 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민취업지원제도 신청 2026, 구직촉진수당 체크
    국민취업지원제도 신청 2026 기준으로 유형과 자격, 월 소득과 재산, 구직활동 계획 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기