GPT-5.4 미니, 싸다고 했는데 3배 비쌉니다

Published on

in

GPT-5.4 미니, 싸다고 했는데 3배 비쌉니다
2026.03.25 기준 / GPT-5.4 mini 출시 직후
IT/AI

GPT-5.4 미니, 싸다고 했는데 3배 비쌉니다

OpenAI가 2026년 3월 17일 GPT-5.4 미니와 나노를 공개하면서 “더 빠르고 저렴하다”고 강조했습니다. GPT-5.4보다는 맞습니다. 그런데 전 세대 GPT-5 미니와 비교하면 이야기가 달라집니다. 입력 토큰 비용이 3배, 출력은 2.25배 올랐습니다. 벤치마크 수치, 가격 구조, 실사용 후기를 직접 따져봤습니다.

54.4%
SWE-Bench Pro (mini)
2x+
GPT-5 mini 대비 속도
3배↑
전 세대 대비 입력 토큰 비용

GPT-5.4 미니가 뭔지 30초 정리

2026년 3월 17일, OpenAI가 GPT-5.4의 경량화 버전 두 개를 동시에 냈습니다. GPT-5.4 미니와 GPT-5.4 나노입니다. 플래그십 GPT-5.4가 나온 지 12일 만입니다. 빠르다고 느껴지는 이유는 이 두 모델이 GPT-5.4 같은 기간 동안 이미 내부에서 함께 개발됐기 때문입니다.

GPT-5.4 미니는 코딩 어시스턴트, 서브에이전트 실행, 컴퓨터 제어(스크린샷 해석) 작업에 최적화된 모델입니다. 400K 컨텍스트 윈도우에 텍스트·이미지 입력, 함수 호출, 웹 검색, 컴퓨터 사용까지 지원합니다. API와 Codex, ChatGPT에서 모두 사용할 수 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

GPT-5.4 나노는 API 전용입니다. ChatGPT나 Codex 앱에서는 아직 사용 불가합니다. 분류, 데이터 추출, 순위 매기기, 단순 코딩 서브에이전트 용도로 설계됐습니다. OpenAI가 나노를 API에만 풀어놓은 건 B2C 제품보다 대량 처리 파이프라인을 주요 타깃으로 본다는 뜻이기도 합니다.

▲ 목차로 돌아가기

벤치마크 수치, 직접 읽어보면 이렇습니다

OpenAI가 공개한 벤치마크를 표로 정리했습니다. 숫자만 보면 GPT-5.4 미니가 꽤 인상적입니다. 그런데 항목마다 차이가 다릅니다.

벤치마크 GPT-5.4 미니 나노 GPT-5 미니
SWE-Bench Pro (코딩) 57.7% 54.4% 52.4% 45.7%
OSWorld-Verified (컴퓨터 제어) 75.0% 72.1% 39.0% 42.0%
GPQA Diamond (과학 추론) 93.0% 88.0% 82.8% 81.6%
Terminal-Bench 2.0 (터미널) 75.1% 60.0% 46.3% 38.2%
Toolathlon (툴 호출) 54.6% 42.9% 35.5% 26.9%

출처: OpenAI 공식 블로그 「Introducing GPT-5.4 mini and nano」 (2026.03.17), xhigh 추론 설정 기준

💡 공식 발표문과 실제 벤치마크 수치를 함께 보니 이런 패턴이 보였습니다. 미니는 코딩과 컴퓨터 제어에서 플래그십과 3~4%p 차이밖에 나지 않지만, 터미널 작업과 툴 호출에서 15%p 이상 벌어집니다. 단순히 “플래그십의 90% 성능”이라고 뭉뚱그리면 이 차이를 놓치게 됩니다.

OSWorld-Verified에서 미니(72.1%)가 인간 평균(72.4%)과 거의 같다는 점이 눈길을 끕니다. 컴퓨터 화면을 자율적으로 조작하는 능력이 사람 수준에 도달했다는 뜻입니다. 다만 이 수치는 OpenAI가 자체 시뮬레이션으로 추정한 지연 시간을 기반으로 한 것이라 실제 운영 환경과 차이가 생길 수 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

▲ 목차로 돌아가기

가격이 싸다는 말, 기준이 다릅니다

GPT-5.4보다는 분명히 싸습니다. 그런데 전 세대 모델과 비교하면 이야기가 뒤집힙니다.

모델 입력 (1M 토큰) 출력 (1M 토큰) 전 세대 대비
GPT-5.4 $2.50 $15.00
GPT-5.4 미니 $0.75 $4.50 입력 3배↑
GPT-5.4 나노 $0.20 $1.25 입력 4배↑
GPT-5 미니 (전 세대) $0.25 $2.00
GPT-5 나노 (전 세대) $0.05 $0.40

출처: OpenAI 공식 가격표 (2026.03.17 기준), letsdatascience.com 분석 교차 검증

2023년 이후 AI 모델 가격은 세대가 바뀔수록 떨어지는 게 공식이었습니다. GPT-4 Turbo → GPT-4o → GPT-4o 미니 순서로 지속적으로 낮아졌고, 개발자들은 이 흐름을 당연하게 받아들였습니다. GPT-5.4 미니와 나노는 그 흐름을 처음으로 역전시킨 모델입니다.

⚠️ 이게 실무에서 의미하는 건 단순합니다. 기존 GPT-5 미니로 짜둔 파이프라인을 그대로 GPT-5.4 미니로 교체하면, 동일한 요청에 대해 청구 금액이 약 3배 올라갑니다. 성능 향상분을 파이프라인이 실제로 활용할 수 있는지 먼저 따져봐야 합니다.

경쟁사와 비교하면 상황이 조금 다릅니다. Gemini 3 Flash의 입력 토큰 비용은 $0.50으로 GPT-5.4 미니($0.75)보다 약 33% 저렴합니다. 벤치마크 격차가 비용 차이를 정당화하는지는 파이프라인의 성격에 따라 다릅니다.

▲ 목차로 돌아가기

서브에이전트로 쓰면 셈이 달라집니다

GPT-5.4 미니의 가격 인상을 단순히 부정적으로만 볼 수 없는 이유가 있습니다. OpenAI가 설계한 Codex 서브에이전트 구조 때문입니다. Codex에서 GPT-5.4 미니는 GPT-5.4 쿼터의 30%만 소모합니다. GPT-5.4 대비 1/3 비용으로 서브태스크를 병렬 처리할 수 있다는 뜻입니다. (출처: OpenAI 공식 블로그, 2026.03.17)

💡 OpenAI의 공식 설명과 Codex 쿼터 구조를 함께 놓고 보면 이 모델의 실제 포지셔닝이 보입니다.

상정된 사용 흐름:
① GPT-5.4 (플래그십) → 계획 수립, 최종 판단
② GPT-5.4 미니 → 코드베이스 탐색, PR 초안 작성, 스크린샷 해석 (병렬 실행)
③ GPT-5.4 나노 → 분류, 단순 추출 (대량 처리)

이 구조는 새로운 개념이 아닙니다. 계층적 에이전트 시스템은 2024년부터 다양한 형태로 존재했습니다. 달라진 건 서브에이전트의 성능입니다. SWE-Bench Pro 54.4%짜리 모델이 서브에이전트 역할을 맡으면, 코딩 워크플로우의 대부분 구체적인 태스크를 위임할 수 있게 됩니다.

역으로 생각하면 OpenAI 생태계 안에 점점 더 깊이 묶이는 구조이기도 합니다. 오케스트레이터(GPT-5.4) → 서브에이전트(미니·나노)로 워크플로우가 최적화될수록, 경쟁사 모델로의 전환 비용이 높아집니다.

▲ 목차로 돌아가기

나노는 컴퓨터 제어에 쓰면 안 됩니다

GPT-5.4 나노의 OSWorld-Verified 점수는 39.0%입니다. 그런데 GPT-5 미니(구형)의 같은 벤치마크 점수가 42.0%입니다. 전 세대 미니보다 컴퓨터 제어 성능이 낮습니다. 구형 모델이 더 잘하는 항목이 있다는 게 공식 수치로 드러난 겁니다. (출처: OpenAI 공식 벤치마크 테이블, 2026.03.17)

⚠️ 나노 선택 전 확인할 것: 작업이 이미지 캡션 생성, 데이터 분류, 단순 추출처럼 컴퓨터 UI 조작이 없는 경우에만 나노가 효율적입니다. 데스크탑 자동화나 스크린샷 기반 작업이 포함되면 나노 대신 미니를 써야 합니다.

반면 과학 추론(GPQA Diamond)에서는 나노(82.8%)가 GPT-5 미니(81.6%)를 앞섭니다. 저렴한 모델로 대량의 추론 작업을 처리해야 한다면 나노는 실제로 좋은 선택입니다. Simon Willison의 계산에 따르면 GPT-5.4 나노로 사진 76,000장을 설명하는 비용이 약 52달러입니다. 대규모 비전 파이프라인에서는 이 수치가 결정적인 차이를 만듭니다. (출처: letsdatascience.com, 2026.03)

▲ 목차로 돌아가기

실제 개발자들은 어떻게 쓰고 있을까요

Reddit r/AI_Agents에서 출시 4일 후 개발자 실사용 후기 스레드를 확인했습니다. 몇 가지 패턴이 반복됩니다. 첫째, xhigh 추론 설정이 항상 좋지는 않습니다. “단계가 4개 이상인 시퀀스 작업에서는 xhigh보다 high 설정이 더 나은 결과를 냈다”는 의견이 여럿입니다. 지나치게 추론하다 이전 결정을 번복하거나 불필요한 툴 호출을 추가하는 현상이 나타납니다.

둘째, GPT-5.4와 Claude Sonnet 4.6는 “다르게 실패”합니다. 한 개발자의 표현이 인상적이었습니다. “GPT-5.4는 조용히 방향을 이탈하고, Sonnet 4.6은 문제가 생기면 멈추고 알려준다. 에러 핸들링 구조에 따라 이 차이가 벤치마크 점수보다 더 중요하다.” 코딩 에이전트 환경에서 어느 쪽을 선호할지는 팀의 디버깅 철학에 달려 있습니다.

💡 실사용 후기와 공식 벤치마크를 교차해서 보면 드러나는 것이 있습니다. 벤치마크는 단일 태스크 완료율을 측정하지만, 실제 에이전틱 워크플로우에서 중요한 건 “문제가 생겼을 때 얼마나 투명하게 신호를 주는가”입니다. 이 부분은 벤치마크에 잡히지 않는 차이입니다.

셋째, 여러 개발자가 GPT-5.4와 Claude Opus/Sonnet을 함께 쓰는 방식을 채택하고 있습니다. 한쪽이 만든 코드를 다른 쪽이 리뷰하는 패턴입니다. 특정 모델에 완전히 올인하기보다 각각의 강점을 나눠 쓰는 방식이 실무에서 퍼지고 있습니다.

▲ 목차로 돌아가기

GPT-5.4 미니 vs 경쟁 모델, 숫자로 보면

GPT-5.4 나노 vs Claude Haiku 4.5 비교는 특히 흥미롭습니다. DataCamp 분석에 따르면 가격 면에서 나노($0.20/입력 1M 토큰)가 Claude Haiku 4.5($1.00)보다 5배 저렴합니다. 나노가 Claude Haiku 4.5의 가격을 정면으로 하회하는 구조입니다.

항목 GPT-5.4 미니 Gemini 3 Flash Claude Haiku 4.5
입력 토큰 (1M) $0.75 $0.50 $1.00
출력 토큰 (1M) $4.50 $5.00
컨텍스트 윈도우 400K
OSWorld (컴퓨터 제어) 72.1% 미발표 50.7%*
GPQA Diamond 88.0% 미발표

*Claude Haiku 4.5는 OSWorld(표준), GPT-5.4 미니는 OSWorld-Verified(더 어려운 버전) 기준 — 벤치마크 버전이 달라 직접 비교에 주의 필요. 출처: DataCamp 분석 (2026.03), OpenAI 공식 블로그 (2026.03.17)

코딩·컴퓨터 제어 작업에서는 GPT-5.4 미니의 비용 프리미엄이 어느 정도 정당화됩니다. 이미지 캡션이나 텍스트 분류처럼 성능 차이를 활용할 수 없는 단순 추론 작업이라면, Gemini 3 Flash나 나노로 내려가는 게 더 합리적입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Q1. GPT-5.4 미니는 ChatGPT 무료 플랜에서도 쓸 수 있나요?

Free와 Go 티어 사용자는 ChatGPT의 Thinking 기능에서 GPT-5.4 미니가 기본 모델로 제공됩니다. 다른 티어 사용자에게는 GPT-5.4 Thinking 한도를 초과했을 때 폴백 모델로 작동합니다. (출처: OpenAI 공식 블로그, 2026.03.17)

Q2. GPT-5.4 나노는 ChatGPT에서 쓸 수 없나요?

맞습니다. 현재(2026.03.25 기준) GPT-5.4 나노는 API 전용입니다. ChatGPT나 Codex 앱에서는 사용 불가합니다. 향후 일정은 OpenAI가 아직 공식적으로 밝히지 않은 부분입니다.

Q3. 기존 GPT-5 미니 기반 파이프라인을 그냥 교체해도 될까요?

성능 향상은 실제입니다. 그러나 입력 토큰 비용이 3배 오릅니다. 이미지 캡션, 분류, 단순 요약처럼 태스크 정의가 고정된 파이프라인이라면 성능 향상분을 활용하지 못하면서 비용만 늘어납니다. 새 모델로 교체 전, 실제 워크플로우에서 성능 개선이 체감되는지 먼저 A/B 테스트를 권합니다.

Q4. Codex에서 GPT-5.4 미니는 쿼터를 얼마나 소비하나요?

Codex 내에서 GPT-5.4 미니는 GPT-5.4 쿼터의 30%만 소모합니다. GPT-5.4를 직접 쓰는 것보다 약 1/3 비용으로 서브태스크를 처리할 수 있습니다. (출처: OpenAI 공식 블로그, 2026.03.17)

Q5. xhigh 추론 설정이 항상 좋은 건 아닌가요?

실제 개발자들 사이에서 공통적으로 나오는 피드백입니다. 4단계 이상 순차 작업에서는 xhigh가 오히려 불필요한 툴 호출을 추가하거나 이전 결정을 번복하는 경향이 보입니다. 복잡한 시퀀스 작업에서는 high 설정을 먼저 테스트해 보는 게 낫습니다. 다만 이는 OpenAI 공식 권고사항이 아닌 실사용 경험을 기반으로 한 내용입니다.

▲ 목차로 돌아가기

마치며

GPT-5.4 미니는 성능으로는 꽤 인상적인 모델입니다. 컴퓨터 제어에서 인간 평균에 근접하고, 코딩 벤치마크에서 플래그십과 3%p 차이밖에 나지 않습니다. 속도도 전 세대보다 2배 이상 빠릅니다.

그런데 가격 이야기는 좀 다르게 봐야 합니다. 솔직히 말하면, “저렴하다”는 OpenAI의 프레이밍은 GPT-5.4 대비 기준입니다. 전 세대와 비교했을 때 입력 토큰 단가가 3배 올랐다는 사실은 보도자료에서 강조되지 않습니다. 기존 파이프라인을 운영하던 개발자라면 청구서가 달라진다는 걸 직접 계산해 봐야 합니다.

나노는 더 조심해야 합니다. OSWorld 컴퓨터 제어 성능이 전 세대 미니보다 낮다는 공식 수치가 있습니다. 컴퓨터 자동화가 포함된 워크플로우에서 나노를 쓰면 오히려 퇴보입니다. 대량 이미지 처리·텍스트 분류 파이프라인에서만 나노를 선택하는 게 맞습니다.

Codex 서브에이전트 구조 안에서 쓴다면 이야기가 달라집니다. GPT-5.4 쿼터의 30%만 소모하면서 병렬 처리 효율을 높일 수 있습니다. 다만 그 구조가 OpenAI 생태계 의존도를 더 높인다는 건 사용 결정 전에 한 번쯤 생각해볼 부분입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 「Introducing GPT-5.4 mini and nano」 — https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
  2. DataCamp 분석 「GPT-5.4 mini and nano: Benchmarks, Access, and Reactions」 — https://www.datacamp.com/blog/gpt-5-4-mini-nano
  3. letsdatascience.com 가격 분석 「GPT-5.4 Mini and Nano: Pricing vs Performance Analysis」 — https://letsdatascience.com/blog/openai-s-smaller-models-are-more-capable-they-re-also-4x-pricier
  4. Reddit r/AI_Agents 실사용 후기 스레드 (2026.03.09) — https://www.reddit.com/r/AI_Agents/comments/1rpe4v3/

본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다. 수치 인용 시 원문 출처를 병기했으나, 벤치마크 조건(추론 설정, 벤치마크 버전 등)에 따라 해석이 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기