GPT-5.4, 써보니 이게 안 됩니다
공식 수치로 확인한 되는 것과 막히는 것
(인간 72.4% 초과)
(GPT-5.2는 70.9%)
(동일 정확도 유지)
(GPT-5.2 대비)
GPT-5.4가 뭔지 30초 요약
한 줄로 정리하면, 이전까지 코딩 전용으로 따로 운영하던 GPT-5.3-Codex의 능력을 일반 모델에 흡수시킨 통합형입니다. 코딩, 추론, 컴퓨터 조작, 전문 업무를 하나의 모델로 처리하겠다는 게 핵심입니다. 추가로 최대 100만 토큰 컨텍스트 창, 새로운 Tool Search 기능, 응답 중간 수정 기능이 처음 포함됐습니다.
ChatGPT Plus·Team·Pro 구독자는 지금 바로 GPT-5.4 Thinking으로 전환됩니다. 기존에 쓰던 GPT-5.2 Thinking은 90일간 레거시 모델 메뉴에서 선택 가능하고, 2026년 6월 5일 완전 종료됩니다. (출처: OpenAI 헬프센터, 2026.03.05)
컴퓨터 조작에서 AI가 사람을 넘겼습니다
솔직히 말하면, 이 수치는 처음 봤을 때 좀 무거웠습니다. GPT-5.4는 OSWorld-Verified 벤치마크에서 75.0%를 기록했습니다. 이 벤치마크는 AI가 스크린샷을 보면서 실제 데스크탑 환경을 마우스·키보드로 조작하는 능력을 측정합니다. 그런데 이 시험에서 사람이 기록한 점수는 72.4%입니다. 즉, 범용 AI 모델이 처음으로 데스크탑 조작에서 인간 기준을 넘어선 겁니다. (출처: OpenAI 공식 발표, 2026.03.05)
💡 공식 발표문과 직전 모델 수치를 같이 보니 이런 차이가 보였습니다. GPT-5.2는 OSWorld에서 47.3%였습니다. 한 버전 만에 27.7%p가 오른 겁니다. 다른 주요 벤치마크에서 최대 상승폭이 12~17%p 수준인데, 컴퓨터 조작만 유독 두 배 가까이 뛰었습니다. 이 모델이 추론이나 코딩보다 에이전트 자동화 방향으로 집중 개선됐다는 신호입니다.
웹 브라우저 조작 벤치마크인 WebArena-Verified에서는 67.3%(GPT-5.2는 65.4%), Online-Mind2Web에서는 스크린샷만으로 92.8%를 기록했습니다. ChatGPT Atlas Agent Mode 대비 22%p 앞섭니다. 실무에서 뭘 의미하냐면, 이 모델에 “이 양식 채워줘”, “이 사이트에서 데이터 긁어와” 같은 지시를 주면 스스로 클릭하고 타이핑하며 처리할 수 있다는 겁니다.
API에서 이 기능은 computer 툴 파라미터로 접근할 수 있습니다. 개발자는 개별 애플리케이션의 리스크 수준에 맞게 확인 정책을 직접 설정할 수 있습니다.
Pro 버전이 일반 버전보다 못한 경우가 있습니다
막상 해보면 다릅니다. “Pro면 무조건 낫겠지”라고 생각하기 쉬운데, 공식 발표문 벤치마크를 보면 GPT-5.4 Pro가 GPT-5.4보다 오히려 낮은 항목이 있습니다.
| 벤치마크 | GPT-5.4 | GPT-5.4 Pro | 비고 |
|---|---|---|---|
| GDPval (전문가 작업) | 83.0% | 82.0% | 일반이 더 높음 |
| BrowseComp (웹 리서치) | 82.7% | 89.3% | Pro가 더 높음 |
| ARC-AGI-2 (추상 추론) | 73.3% | 83.3% | Pro가 더 높음 |
| FrontierMath Tier 4 (고급 수학) | 27.1% | 38.0% | Pro가 더 높음 |
| IB 스프레드시트 모델링 | 87.3% | 83.6% | 일반이 더 높음 |
💡 GDPval과 IB 스프레드시트 모델링, 두 벤치마크에서 일반 GPT-5.4가 Pro보다 앞섭니다. 이 두 벤치마크의 공통점은 실무 산출물 — 보고서, 스프레드시트, 프레젠테이션 — 을 직접 완성하는 작업이라는 점입니다. Pro는 복잡한 추론과 수학 문제, 장기 웹 리서치에서 차이를 냅니다. 업무용으로 쓰는 경우라면 굳이 Pro 요금을 낼 이유가 줄어드는 셈입니다. (출처: OpenAI 공식 발표, 2026.03.05)
이 부분이 좀 아쉬웠습니다. OpenAI도 공식 발표문에서 “일상적인 전문가 작업에는 표준 GPT-5.4가 더 유능하다”고 직접 인정했습니다. Pro 요금제($30/M 입력 토큰, $180/M 출력 토큰)는 최고 난도 수학 문제나 장기 웹 리서치가 필요한 특수 케이스에 적합합니다.
Tool Search — 비용이 어디서 줄어드는지 계산해봤습니다
직접 따라할 수 있는 비용 계산식
예를 들어 MCP 서버 20개가 연결된 워크플로우에서 요청 1건당 입력 토큰이 기존 방식으로 10,000토큰이었다면:
· 기존: 10,000 × $2.50 / 1,000,000 = $0.025 / 건
· Tool Search 적용 시(47% 감소): 5,300 × $2.50 / 1,000,000 = $0.01325 / 건
하루 1,000건 처리 기준으로 월 370달러 이상이 절감됩니다. 이 수치가 의미하는 건, 토큰 효율이 가격 인상(GPT-5.2 $1.75→GPT-5.4 $2.50)을 실질적으로 일부 상쇄한다는 점입니다.
단, 이 절감 효과는 API와 Codex에서만 적용됩니다. ChatGPT 인터페이스에서는 Tool Search를 직접 설정할 수 없습니다. 1M 토큰 컨텍스트 창도 마찬가지로 API·Codex 전용입니다. ChatGPT에서는 GPT-5.4 Thinking의 컨텍스트 창이 GPT-5.2와 동일하게 유지됩니다.
GPT-5.3-Codex를 여전히 못 이기는 항목이 있습니다
생각보다 간단하지 않습니다. OpenAI가 GPT-5.4를 “GPT-5.3-Codex의 코딩 능력을 흡수한 통합 모델”이라고 소개했지만, 실제 코딩 벤치마크를 보면 통합한 게 항상 넘어선 건 아닙니다.
| 코딩 벤치마크 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| SWE-Bench Pro (실제 버그 수정) | 57.7% | 56.8% | 55.6% |
| Terminal-Bench 2.0 (터미널 작업) | 75.1% | 77.3% | 62.2% |
Terminal-Bench 2.0에서 GPT-5.3-Codex(77.3%)가 GPT-5.4(75.1%)보다 2.2%p 앞서 있습니다. 이 벤치마크는 터미널 환경에서 명령어를 직접 실행하는 순수 터미널 작업 능력을 측정합니다. (출처: OpenAI 공식 발표, 2026.03.05) 즉, 배포 스크립트 작성이나 서버 CLI 작업처럼 터미널 집중형 업무라면, 지금 당장 GPT-5.4가 GPT-5.3-Codex보다 무조건 낫다고 할 수 없습니다.
Codex에서 GPT-5.4로 전환이 롤아웃 중인데, 이 점은 알고 있는 게 낫습니다. 터미널 집중 워크플로우에서 성능 차이를 체감하면 확인 필요한 지점입니다.
반면 웹 프런트엔드 개발에서는 GPT-5.4가 명확하게 앞섭니다. 인간 평가에서 GPT-5.4의 프레젠테이션을 68% 시간 선호했고, 스프레드시트 모델링은 87.3%로 GPT-5.2(68.4%) 대비 거의 20%p 올랐습니다.
요금과 접근 조건 — 실제로 얼마를 내야 하는지
결론부터 말씀드리면, API 요금은 GPT-5.2보다 올랐습니다. 단, 토큰 효율 향상이 일부 상쇄합니다.
| 모델 | 입력 (1M 토큰) | 캐시 입력 | 출력 (1M 토큰) |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14.00 |
| gpt-5.4 | $2.50 | $0.25 | $15.00 |
| gpt-5.2-pro | $21.00 | — | $168.00 |
| gpt-5.4-pro | $30.00 | — | $180.00 |
Batch·Flex 처리는 표준 요금의 절반, Priority 처리는 두 배입니다. 1M 컨텍스트 초과(272K 이상) 요청은 일반 사용량의 2배로 집계됩니다. (출처: OpenAI 공식 발표, 2026.03.05) 비용 민감한 대량 처리라면 Batch 요금으로 상당히 낮출 수 있습니다.
ChatGPT 접근 조건은 아래와 같습니다.
- 무료 사용자: 5시간마다 GPT-5.3 Instant 최대 10회 (GPT-5.4 Thinking 미제공)
- Plus / Go: 3시간마다 GPT-5.3 Instant 160회, Thinking 주당 3,000회
- Pro / Business / Enterprise: 무제한 (남용 방지 기준 적용)
- GPT-5.4 Pro: Pro, Enterprise, Edu 전용
여기서 걸립니다. Thinking 모드에서 컨텍스트 창은 Plus 기준 최대 256K(입력 128K + 출력 128K)이고, Pro 기준은 400K(입력 272K + 출력 128K)입니다. 1M 컨텍스트는 오직 API·Codex에서만 사용 가능합니다. ChatGPT 인터페이스에서 “100만 토큰 컨텍스트 쓴다”는 건 현재 기준으로 불가능합니다.
자주 묻는 것들
마치며
기대했던 것과 달랐던 부분도 있습니다. Pro 버전이 일반 GPT-5.4보다 전문가 작업 벤치마크에서 낮다는 점, ChatGPT 인터페이스에서는 1M 컨텍스트와 Computer Use를 직접 못 쓴다는 점, 터미널 전용 작업에서는 GPT-5.3-Codex가 아직 앞선다는 점은 챙겨두는 게 낫습니다.
일반 업무용 ChatGPT 사용자라면 Plus로도 충분하고, API·Codex 개발자라면 Tool Search 적용 여부가 비용에서 실질적인 차이를 만듭니다. 가장 비싼 Pro API($30/M)는 프런티어 수학 연구나 장기 웹 리서치처럼 그 성능 차이를 실제로 필요로 하는 케이스에 남겨두는 게 현명합니다.
본 포스팅 참고 자료
- ① OpenAI 공식 발표 — Introducing GPT-5.4 (openai.com/index/introducing-gpt-5-4/)
- ② OpenAI 헬프센터 — GPT-5.3 and GPT-5.4 in ChatGPT (help.openai.com)
- ③ TechCrunch — OpenAI launches GPT-5.4 with Pro and Thinking versions (techcrunch.com)
- ④ AlmCorp — GPT-5.4: Features, Benchmarks, Pricing & Computer Use (almcorp.com/blog/gpt-5-4/)
본 포스팅은 2026년 3월 20일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. API 가격, 컨텍스트 창, 모델 은퇴 일정은 OpenAI 공식 문서에서 최신 내용을 확인하시기 바랍니다.


댓글 남기기