GPT-5.4, 저렴하다는 말이 맞는 조건이 있습니다

magister

Published on

2026년 3월 26일

IT/AI

2026.03.05 출시 기준 · GPT-5.4 공식 발표 기준

Claude Opus 4.6보다 싸다는 말은 맞습니다. 그런데 272K 토큰을 넘기는 순간, 계산이 달라집니다.
OpenAI 공식 문서에 이미 나와 있는 내용인데 많은 글에서 이걸 빠뜨리고 있습니다.

OSWorld 75.0% — 인간 전문가 72.4% 초과

272K 초과 시 2× 과금 페널티

Pro 모델 입력가 $30/1M — 일반 모델의 12배

GPT-5.4는 OpenAI가 2026년 3월 5일 공식 출시한 프론티어 범용 모델입니다.
이전 모델인 GPT-5.3-Codex의 코딩 특화 역량을 통합하면서, 추론·컴퓨터 사용·전문 지식 작업을 하나의 모델에 묶은 것이 핵심입니다.
(출처: OpenAI 공식 블로그, 2026.03.05)

모델 라인업은 gpt-5.4(일반), gpt-5.4-mini, gpt-5.4-nano, gpt-5.4-pro 네 가지입니다.
ChatGPT 안에서는 GPT-5.4 Thinking이라는 이름으로 Plus, Team, Pro 플랜 사용자에게 제공되며,

이름 규칙이 좀 특이한데, GPT-5.3의 주력 범용 버전을 건너뛰고 5.4로 올라간 이유는 5.3 계열이 각각
일상 대화용(Instant)과 코딩 특화(Codex)로 분기됐고, 5.4는 그 두 가지를 다시 하나로 합쳤기 때문입니다.
이유는 OpenAI 공식 문서에 그대로 나와 있습니다.

▲ 목차로 돌아가기

인간 전문가를 처음 넘어선 벤치마크 수치

OSWorld는 AI가 실제 데스크톱 환경에서 스크린샷과 마우스·키보드 조작을 통해 작업을 완수하는지를 측정하는 벤치마크입니다.
인간 전문가의 기준선이 72.4%인데, GPT-5.4는 이를 처음으로 넘어섰습니다.
(출처: OpenAI 공식 발표, 2026.03.05)

벤치마크	GPT-5.4	GPT-5.2	비고
OSWorld-Verified	75.0%	47.3%	인간 72.4% 초과
GDPval (44개 직군)	83.0%	70.9%	전문가 수준 달성
BrowseComp (웹 검색)	82.7%	65.8%	Pro는 89.3%
SWE-Bench Pro (코딩)	57.7%	55.6%	Claude는 80.8%
투자은행 모델링 (내부)	87.3%	68.4%	스프레드시트 특화

여기서 주목할 부분이 있습니다. OSWorld 75%가 인간을 넘어섰다는 건 맞는데,
이 기능은 API와 Codex 환경에서만 제공됩니다.
ChatGPT Plus 월 $20짜리 구독으로는 컴퓨터 사용 기능이 없습니다.
OpenAI 공식 발표문에 직접 그렇게 적혀 있습니다.

💡 공식 발표문과 실제 접근 조건을 같이 놓고 보니 이런 차이가 보였습니다

“GPT-5.4가 인간을 넘어섰다”는 헤드라인은 전부 API·Codex 기반 수치입니다.
일반 ChatGPT 사용자에게는 컴퓨터 사용 기능 자체가 없습니다.
같은 모델명이지만 실제로는 다른 제품을 쓰는 셈입니다.

▲ 목차로 돌아가기

API 가격표를 직접 뜯어봤습니다 — 싼 게 맞긴 합니다

OpenAI 공식 API 가격표(developers.openai.com/api/docs/pricing)에서 직접 확인한 수치입니다.
일반 GPT-5.4 기준으로는 Claude Opus 4.6보다 확실히 저렴합니다.

모델	입력 /1M 토큰	출력 /1M 토큰	장문 입력
gpt-5.4	$2.50	$15.00	$5.00 / $22.50
gpt-5.4-pro	$30.00	$180.00	$60.00 / $270.00
Claude Opus 4.6	$5.00	$25.00	200K+ 별도 정책
gpt-5.4-mini	$0.75	$4.50	장문 과금 없음
Gemini 3.1 Pro (참고)	$2.00	$12.00	200K+ 상위 구간

일반 gpt-5.4는 Claude Opus 4.6보다 입력 기준으로 절반 수준입니다.
토큰 효율성도 개선되어 GPT-5.2 대비 같은 작업을 더 적은 토큰으로 처리한다고 OpenAI 측이 밝혔습니다.
비용만 보면 분명히 유리합니다 — 단, 다음 섹션의 조건이 붙습니다.

▲ 목차로 돌아가기

272K 토큰을 넘기면 생기는 일

입력 토큰이 272,000개를 초과하면, 초과분부터 사용량 한도가 2배로 차감됩니다.
(출처: OpenAI 공식 발표, 2026.03.05)

이게 실제로 어떤 의미인지 계산해봤습니다.

📐 직접 계산: 500K 토큰 입력 시 실제 비용

구간 ① 0~272K 토큰: 272,000 × $2.50 / 1,000,000 = $0.68

구간 ② 272K~500K (장문 과금 $5.00): 228,000 × $5.00 / 1,000,000 = $1.14

총 입력 비용: $0.68 + $1.14 = $1.82

반면 Claude Opus 4.6의 500K 토큰 입력은 500,000 × $5.00 / 1,000,000 = $2.50

500K 토큰 기준으로도 GPT-5.4가 저렴하긴 합니다. 그런데 Pro 모델이라면 이야기가 완전히 달라집니다.

⚠️ GPT-5.4 Pro + 장문 컨텍스트 조합이 가장 비쌉니다

(출처: OpenAI API 가격표, developers.openai.com/api/docs/pricing)

같은 500K 입력을 Pro로 돌리면: 500,000 × $60.00 / 1,000,000 = $30.00.
Claude Opus 4.6의 12배입니다. “GPT가 Claude보다 싸다”는 말은 일반 모델, 단문 컨텍스트에서만 성립합니다.

다만 OpenAI는 같은 작업을 더 적은 토큰으로 처리하도록 모델 효율을 개선했다고 밝혔고,
Batch API나 Flex 처리를 사용하면 표준 요금의 50%로 줄어듭니다.
반복 처리 워크로드라면 이 옵션을 먼저 따져보는 게 맞습니다.

▲ 목차로 돌아가기

1M 컨텍스트, 실제로 다 쓸 수 있을까요?

그런데 OpenAI 공식 벤치마크 표를 보면 흥미로운 수치가 있습니다.

컨텍스트 구간	GPT-5.4 정확도
4K~8K 토큰	97.3%
64K~128K 토큰	86.0%
256K~512K 토큰	57.5%
512K~1M 토큰	36.6%

(출처: OpenAI 공식 발표, 2026.03.05)
512K를 넘기면 특정 정보를 찾아내는 정확도가 36.6%로 떨어집니다. 3번 물어보면 2번은 못 찾는 수준입니다.

💡 1M 컨텍스트의 한계를 가격 구조와 같이 보면 보이지 않던 부분이 보입니다

능동적으로 가져오는 구조를 권장하도록 설계되어 있습니다. 272K 초과 시 2배 과금 페널티가
이 설계 철학의 경제적 표현입니다.
반면 Claude Opus 4.6은 MRCR v2 1M 8-needle에서 76.0%를 기록해, 장문을 통째로 넣는 워크로드에 더 유리합니다.
(출처: MindStudio 벤치마크 비교, 2026.03.15)

OpenAI 공식 발표문에 “Codex includes experimental support for the 1M context window”라고 명시되어 있습니다.

▲ 목차로 돌아가기

Claude Opus 4.6, Gemini 3.1 Pro와 뭐가 다른가

세 모델 모두 2026년 3월 전후에 출시됐고, 각자 다른 부분에서 강점을 가지고 있습니다.
한 줄로 정리하면 이렇습니다.

GPT-5.4

✅ 컴퓨터 사용·도구 호출·스프레드시트 강세

✅ 일반 모델 기준 세 모델 중 가격 중간

❌ 대규모 코드베이스 분석은 Claude에 밀림

Claude Opus 4.6

✅ SWE-Bench 80.8% — 코딩 1위

✅ 1M 컨텍스트 검색 정확도 압도적(76%)

❌ 입력 기준 GPT-5.4의 2배 비용

Gemini 3.1 Pro

✅ ARC-AGI-2 77.1% — 추상 추론 1위

✅ 세 모델 중 기본 단가 최저 ($2.00/$12.00)

❌ 1M 컨텍스트 검색 정확도 26.3%로 급락

터미널 환경에서 스크립트를 반복 실행하고 외부 도구를 자주 호출하는 작업이라면 GPT-5.4가 유리합니다.
Terminal-Bench 2.0에서 75.1%로 Claude(65.4%)와 Gemini(68.5%)를 앞섭니다.
(출처: OpenAI 공식 발표, 2026.03.05)

반면 수십만 줄짜리 코드베이스를 한꺼번에 읽히고 리팩토링을 맡기거나, 수천 페이지 계약서를 통째로
분석해야 하는 작업이라면 Claude Opus 4.6의 구조가 더 안정적입니다.
작업 유형이 뭔지를 먼저 정하고 모델을 고르는 게 맞습니다.

▲ 목차로 돌아가기

Q&A

Q1. GPT-5.4와 GPT-5.4 Pro는 ChatGPT에서 둘 다 쓸 수 있나요?

API에서는 gpt-5.4와 gpt-5.4-pro를 모두 직접 호출할 수 있습니다.
(출처: OpenAI 공식 발표, 2026.03.05)

Q2. 272K 토큰 초과 시 2배 과금은 ChatGPT 사용자에게도 적용되나요?

아닙니다. 이 규정은 API 사용자에게만 해당합니다.
ChatGPT에서의 컨텍스트 창 정책은 별도로 적용되며, OpenAI 공식 발표에 따르면
ChatGPT 내 GPT-5.4 Thinking의 컨텍스트 창은 GPT-5.2 Thinking과 동일하게 유지됩니다.

Q3. Batch API로 비용을 얼마나 줄일 수 있나요?

Batch API와 Flex 처리 옵션을 사용하면 표준 API 요금의 50%가 적용됩니다.
단, 24시간 내 처리를 보장하지 않으므로 실시간 응답이 필요한 서비스에는 적합하지 않습니다.
(출처: OpenAI API 가격표)

Q4. GPT-5.2는 언제까지 쓸 수 있나요?

계속 이용 가능합니다. 이후에는 퇴역 처리될 예정이라고 OpenAI가 공식 발표했습니다.

Q5. Tool Search 기능이 실제로 비용 절감에 도움이 되나요?

OpenAI 내부 테스트에서 MCP Atlas 250개 작업 기준, Tool Search 적용 시 총 토큰 사용량이
47% 감소했다고 밝혔습니다. 도구 정의 전체를 매번 프롬프트에 넣던 방식 대신
필요할 때만 정의를 불러오는 구조로 바뀐 덕분입니다.
(출처: OpenAI 공식 발표, 2026.03.05)

▲ 목차로 돌아가기

마치며

일반 모델 기준 Claude Opus 4.6의 절반 비용 — 수치만 보면 선택할 이유가 많습니다.

그런데 솔직히 말하면, “GPT-5.4가 가장 저렴하다”는 말은 조건이 붙어야 맞습니다.
일반 모델, 272K 이하, 단문 작업이면 확실히 저렴합니다.
Pro 모델을 쓰거나, 장문 컨텍스트를 자주 돌린다면 계산이 완전히 달라집니다.

컴퓨터 사용 기능도 API·Codex 전용이라는 점, 1M 컨텍스트가 아직 실험적 단계라는 점도
실제로 사용하기 전에 확인해야 할 부분입니다.

결론은 단순합니다. MVP 개발, 도구 자동화, 스프레드시트 작업처럼 빠르고 짧게 반복하는 작업이면 GPT-5.4.
대규모 코드베이스 리팩토링이나 수십만 토큰짜리 문서 분석이면 Claude Opus 4.6.
어느 쪽이 무조건 낫다고 말하기 어려운 시장이 됐습니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

OpenAI 공식 발표 — Introducing GPT-5.4
https://openai.com/index/introducing-gpt-5-4/
OpenAI API 공식 가격표
https://developers.openai.com/api/docs/pricing
DataCamp — GPT-5.4 vs Claude Opus 4.6 벤치마크 비교 (2026.03.11)
https://www.datacamp.com/blog/gpt-5-4-vs-claude-opus-4-6
MindStudio — GPT-5.4 vs Claude Opus 4.6 vs Gemini 3.1 Pro 비교 (2026.03.15)
https://www.mindstudio.ai/blog/gpt-54-vs-claude-opus-46-vs-gemini-31-pro-benchmarks/

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
모든 가격 수치는 2026년 3월 기준 OpenAI 공식 API 가격표를 기반으로 하며, 환율·부가세는 별도입니다.
AI 서비스 업데이트 주기가 매우 빠르므로 실제 적용 전 공식 문서를 반드시 확인하시기 바랍니다.

AI 모델 비교, Claude Opus 4.6, GPT-5.4, LLM 비용 비교, OpenAI API 가격

GPT-5.4, 저렴하다는 말이 맞는 조건이 있습니다

인간 전문가를 처음 넘어선 벤치마크 수치

API 가격표를 직접 뜯어봤습니다 — 싼 게 맞긴 합니다

272K 토큰을 넘기면 생기는 일

1M 컨텍스트, 실제로 다 쓸 수 있을까요?

Claude Opus 4.6, Gemini 3.1 Pro와 뭐가 다른가

Q&A

마치며

📎 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4, 저렴하다는 말이 맞는 조건이 있습니다

인간 전문가를 처음 넘어선 벤치마크 수치

API 가격표를 직접 뜯어봤습니다 — 싼 게 맞긴 합니다

272K 토큰을 넘기면 생기는 일

1M 컨텍스트, 실제로 다 쓸 수 있을까요?

Claude Opus 4.6, Gemini 3.1 Pro와 뭐가 다른가

Q&A

마치며

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기