GPT-5.4, 써보니 이게 안 됩니다

magister

Published on

2026년 3월 20일

IT/AI

2026.03.05 출시 기준 / GPT-5.4 Thinking · API · Codex

GPT-5.4, 써보니 이게 안 됩니다
공식 수치로 확인한 되는 것과 막히는 것

75.0%

OSWorld 데스크탑 조작
(인간 72.4% 초과)

83.0%

GDPval 전문가 작업
(GPT-5.2는 70.9%)

47%

Tool Search 토큰 절감
(동일 정확도 유지)

33%

개별 오류 감소율
(GPT-5.2 대비)

GPT-5.4가 뭔지 30초 요약

한 줄로 정리하면, 이전까지 코딩 전용으로 따로 운영하던 GPT-5.3-Codex의 능력을 일반 모델에 흡수시킨 통합형입니다. 코딩, 추론, 컴퓨터 조작, 전문 업무를 하나의 모델로 처리하겠다는 게 핵심입니다. 추가로 최대 100만 토큰 컨텍스트 창, 새로운 Tool Search 기능, 응답 중간 수정 기능이 처음 포함됐습니다.

ChatGPT Plus·Team·Pro 구독자는 지금 바로 GPT-5.4 Thinking으로 전환됩니다. 기존에 쓰던 GPT-5.2 Thinking은 90일간 레거시 모델 메뉴에서 선택 가능하고, 2026년 6월 5일 완전 종료됩니다. (출처: OpenAI 헬프센터, 2026.03.05)

▲ 목차로 돌아가기

컴퓨터 조작에서 AI가 사람을 넘겼습니다

솔직히 말하면, 이 수치는 처음 봤을 때 좀 무거웠습니다. GPT-5.4는 OSWorld-Verified 벤치마크에서 75.0%를 기록했습니다. 이 벤치마크는 AI가 스크린샷을 보면서 실제 데스크탑 환경을 마우스·키보드로 조작하는 능력을 측정합니다. 그런데 이 시험에서 사람이 기록한 점수는 72.4%입니다. 즉, 범용 AI 모델이 처음으로 데스크탑 조작에서 인간 기준을 넘어선 겁니다. (출처: OpenAI 공식 발표, 2026.03.05)

💡 공식 발표문과 직전 모델 수치를 같이 보니 이런 차이가 보였습니다. GPT-5.2는 OSWorld에서 47.3%였습니다. 한 버전 만에 27.7%p가 오른 겁니다. 다른 주요 벤치마크에서 최대 상승폭이 12~17%p 수준인데, 컴퓨터 조작만 유독 두 배 가까이 뛰었습니다. 이 모델이 추론이나 코딩보다 에이전트 자동화 방향으로 집중 개선됐다는 신호입니다.

웹 브라우저 조작 벤치마크인 WebArena-Verified에서는 67.3%(GPT-5.2는 65.4%), Online-Mind2Web에서는 스크린샷만으로 92.8%를 기록했습니다. ChatGPT Atlas Agent Mode 대비 22%p 앞섭니다. 실무에서 뭘 의미하냐면, 이 모델에 “이 양식 채워줘”, “이 사이트에서 데이터 긁어와” 같은 지시를 주면 스스로 클릭하고 타이핑하며 처리할 수 있다는 겁니다.

API에서 이 기능은 computer 툴 파라미터로 접근할 수 있습니다. 개발자는 개별 애플리케이션의 리스크 수준에 맞게 확인 정책을 직접 설정할 수 있습니다.

▲ 목차로 돌아가기

Pro 버전이 일반 버전보다 못한 경우가 있습니다

막상 해보면 다릅니다. “Pro면 무조건 낫겠지”라고 생각하기 쉬운데, 공식 발표문 벤치마크를 보면 GPT-5.4 Pro가 GPT-5.4보다 오히려 낮은 항목이 있습니다.

벤치마크	GPT-5.4	GPT-5.4 Pro	비고
GDPval (전문가 작업)	83.0%	82.0%	일반이 더 높음
BrowseComp (웹 리서치)	82.7%	89.3%	Pro가 더 높음
ARC-AGI-2 (추상 추론)	73.3%	83.3%	Pro가 더 높음
FrontierMath Tier 4 (고급 수학)	27.1%	38.0%	Pro가 더 높음
IB 스프레드시트 모델링	87.3%	83.6%	일반이 더 높음

💡 GDPval과 IB 스프레드시트 모델링, 두 벤치마크에서 일반 GPT-5.4가 Pro보다 앞섭니다. 이 두 벤치마크의 공통점은 실무 산출물 — 보고서, 스프레드시트, 프레젠테이션 — 을 직접 완성하는 작업이라는 점입니다. Pro는 복잡한 추론과 수학 문제, 장기 웹 리서치에서 차이를 냅니다. 업무용으로 쓰는 경우라면 굳이 Pro 요금을 낼 이유가 줄어드는 셈입니다. (출처: OpenAI 공식 발표, 2026.03.05)

이 부분이 좀 아쉬웠습니다. OpenAI도 공식 발표문에서 “일상적인 전문가 작업에는 표준 GPT-5.4가 더 유능하다”고 직접 인정했습니다. Pro 요금제($30/M 입력 토큰, $180/M 출력 토큰)는 최고 난도 수학 문제나 장기 웹 리서치가 필요한 특수 케이스에 적합합니다.

▲ 목차로 돌아가기

Tool Search — 비용이 어디서 줄어드는지 계산해봤습니다

직접 따라할 수 있는 비용 계산식

예를 들어 MCP 서버 20개가 연결된 워크플로우에서 요청 1건당 입력 토큰이 기존 방식으로 10,000토큰이었다면:
· 기존: 10,000 × $2.50 / 1,000,000 = $0.025 / 건
· Tool Search 적용 시(47% 감소): 5,300 × $2.50 / 1,000,000 = $0.01325 / 건
하루 1,000건 처리 기준으로 월 370달러 이상이 절감됩니다. 이 수치가 의미하는 건, 토큰 효율이 가격 인상(GPT-5.2 $1.75→GPT-5.4 $2.50)을 실질적으로 일부 상쇄한다는 점입니다.

단, 이 절감 효과는 API와 Codex에서만 적용됩니다. ChatGPT 인터페이스에서는 Tool Search를 직접 설정할 수 없습니다. 1M 토큰 컨텍스트 창도 마찬가지로 API·Codex 전용입니다. ChatGPT에서는 GPT-5.4 Thinking의 컨텍스트 창이 GPT-5.2와 동일하게 유지됩니다.

▲ 목차로 돌아가기

GPT-5.3-Codex를 여전히 못 이기는 항목이 있습니다

생각보다 간단하지 않습니다. OpenAI가 GPT-5.4를 “GPT-5.3-Codex의 코딩 능력을 흡수한 통합 모델”이라고 소개했지만, 실제 코딩 벤치마크를 보면 통합한 게 항상 넘어선 건 아닙니다.

코딩 벤치마크	GPT-5.4	GPT-5.3-Codex	GPT-5.2
SWE-Bench Pro (실제 버그 수정)	57.7%	56.8%	55.6%
Terminal-Bench 2.0 (터미널 작업)	75.1%	77.3%	62.2%

Terminal-Bench 2.0에서 GPT-5.3-Codex(77.3%)가 GPT-5.4(75.1%)보다 2.2%p 앞서 있습니다. 이 벤치마크는 터미널 환경에서 명령어를 직접 실행하는 순수 터미널 작업 능력을 측정합니다. (출처: OpenAI 공식 발표, 2026.03.05) 즉, 배포 스크립트 작성이나 서버 CLI 작업처럼 터미널 집중형 업무라면, 지금 당장 GPT-5.4가 GPT-5.3-Codex보다 무조건 낫다고 할 수 없습니다.

Codex에서 GPT-5.4로 전환이 롤아웃 중인데, 이 점은 알고 있는 게 낫습니다. 터미널 집중 워크플로우에서 성능 차이를 체감하면 확인 필요한 지점입니다.

반면 웹 프런트엔드 개발에서는 GPT-5.4가 명확하게 앞섭니다. 인간 평가에서 GPT-5.4의 프레젠테이션을 68% 시간 선호했고, 스프레드시트 모델링은 87.3%로 GPT-5.2(68.4%) 대비 거의 20%p 올랐습니다.

▲ 목차로 돌아가기

요금과 접근 조건 — 실제로 얼마를 내야 하는지

결론부터 말씀드리면, API 요금은 GPT-5.2보다 올랐습니다. 단, 토큰 효율 향상이 일부 상쇄합니다.

모델	입력 (1M 토큰)	캐시 입력	출력 (1M 토큰)
gpt-5.2	$1.75	$0.175	$14.00
gpt-5.4	$2.50	$0.25	$15.00
gpt-5.2-pro	$21.00	—	$168.00
gpt-5.4-pro	$30.00	—	$180.00

Batch·Flex 처리는 표준 요금의 절반, Priority 처리는 두 배입니다. 1M 컨텍스트 초과(272K 이상) 요청은 일반 사용량의 2배로 집계됩니다. (출처: OpenAI 공식 발표, 2026.03.05) 비용 민감한 대량 처리라면 Batch 요금으로 상당히 낮출 수 있습니다.

ChatGPT 접근 조건은 아래와 같습니다.

무료 사용자: 5시간마다 GPT-5.3 Instant 최대 10회 (GPT-5.4 Thinking 미제공)
Plus / Go: 3시간마다 GPT-5.3 Instant 160회, Thinking 주당 3,000회
Pro / Business / Enterprise: 무제한 (남용 방지 기준 적용)
GPT-5.4 Pro: Pro, Enterprise, Edu 전용

여기서 걸립니다. Thinking 모드에서 컨텍스트 창은 Plus 기준 최대 256K(입력 128K + 출력 128K)이고, Pro 기준은 400K(입력 272K + 출력 128K)입니다. 1M 컨텍스트는 오직 API·Codex에서만 사용 가능합니다. ChatGPT 인터페이스에서 “100만 토큰 컨텍스트 쓴다”는 건 현재 기준으로 불가능합니다.

▲ 목차로 돌아가기

자주 묻는 것들

GPT-5.4와 GPT-5.2 Thinking 중 어떤 걸 써야 하나요?

2026년 3월 5일부터 Plus·Pro 구독자는 GPT-5.4 Thinking이 기본으로 전환됩니다. GPT-5.2 Thinking은 레거시 모델 메뉴에서 선택 가능하지만 2026년 6월 5일 완전 종료됩니다. 전반적인 성능은 GPT-5.4가 높습니다. 단, 특수 터미널 작업 중심이라면 전환 초기에 체감 차이가 있을 수 있어 확인이 필요합니다. (출처: OpenAI 헬프센터, 2026.03.05)

Computer Use 기능을 ChatGPT에서도 쓸 수 있나요?

ChatGPT 인터페이스에서는 직접 Computer Use 툴을 조작하는 기능은 현재 제공되지 않습니다. 이 기능은 API의 computer 툴 파라미터와 Codex에서 접근할 수 있습니다. Codex에서는 Playwright (Interactive) 실험적 스킬을 통해 웹·Electron 앱 시각 디버깅이 가능합니다. (출처: OpenAI 공식 발표, 2026.03.05)

Tool Search는 기존 API 연동 코드에 자동으로 적용되나요?

아닙니다. Tool Search는 새로 추가된 API 파라미터이며 기존 연동 코드에는 자동으로 영향을 주지 않습니다. 적용하려면 업데이트된 API 문서를 참고해 별도로 설정해야 합니다. 적용 전후 토큰 사용량을 직접 비교해 효율 개선을 확인하는 것을 권장합니다. (출처: OpenAI 공식 발표, 2026.03.05)

1M 토큰 컨텍스트 창은 ChatGPT에서도 쓸 수 있나요?

현재 기준으로 1M 토큰 컨텍스트는 API와 Codex 전용입니다. ChatGPT 인터페이스의 GPT-5.4 Thinking 컨텍스트 창은 GPT-5.2 Thinking과 동일하게 유지됩니다(Plus 256K, Pro 400K). Codex에서 1M 컨텍스트는 실험적 기능으로, model_context_window와 model_auto_compact_token_limit 파라미터로 설정합니다. 272K 초과 요청은 사용량 한도에서 2배로 집계됩니다. (출처: OpenAI 공식 발표, 2026.03.05)

GPT-5.4 출시 이후 GPT-5.3-Codex는 어떻게 되나요?

Codex에서 GPT-5.4가 GPT-5.3-Codex를 대체하는 형태로 롤아웃 중입니다. OpenAI는 GPT-5.3-Codex의 코딩 능력이 GPT-5.4에 통합됐다고 설명합니다. SWE-Bench Pro 기준으로 GPT-5.4(57.7%)가 GPT-5.3-Codex(56.8%)를 소폭 앞서지만, Terminal-Bench 2.0에서는 GPT-5.3-Codex(77.3%)가 아직 앞섭니다. 별도 은퇴 일정은 발표되지 않았습니다. (출처: OpenAI 공식 발표, 2026.03.05)

▲ 목차로 돌아가기

마치며

기대했던 것과 달랐던 부분도 있습니다. Pro 버전이 일반 GPT-5.4보다 전문가 작업 벤치마크에서 낮다는 점, ChatGPT 인터페이스에서는 1M 컨텍스트와 Computer Use를 직접 못 쓴다는 점, 터미널 전용 작업에서는 GPT-5.3-Codex가 아직 앞선다는 점은 챙겨두는 게 낫습니다.

일반 업무용 ChatGPT 사용자라면 Plus로도 충분하고, API·Codex 개발자라면 Tool Search 적용 여부가 비용에서 실질적인 차이를 만듭니다. 가장 비싼 Pro API($30/M)는 프런티어 수학 연구나 장기 웹 리서치처럼 그 성능 차이를 실제로 필요로 하는 케이스에 남겨두는 게 현명합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

① OpenAI 공식 발표 — Introducing GPT-5.4 (openai.com/index/introducing-gpt-5-4/)
② OpenAI 헬프센터 — GPT-5.3 and GPT-5.4 in ChatGPT (help.openai.com)
③ TechCrunch — OpenAI launches GPT-5.4 with Pro and Thinking versions (techcrunch.com)
④ AlmCorp — GPT-5.4: Features, Benchmarks, Pricing & Computer Use (almcorp.com/blog/gpt-5-4/)

본 포스팅은 2026년 3월 20일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. API 가격, 컨텍스트 창, 모델 은퇴 일정은 OpenAI 공식 문서에서 최신 내용을 확인하시기 바랍니다.

Aardvark OpenAI, AI에이전트2026, ChatGPT 2026, GPT-5.4, LLM비교

GPT-5.4, 써보니 이게 안 됩니다

GPT-5.4, 써보니 이게 안 됩니다
공식 수치로 확인한 되는 것과 막히는 것

GPT-5.4가 뭔지 30초 요약

컴퓨터 조작에서 AI가 사람을 넘겼습니다

Pro 버전이 일반 버전보다 못한 경우가 있습니다

Tool Search — 비용이 어디서 줄어드는지 계산해봤습니다

GPT-5.3-Codex를 여전히 못 이기는 항목이 있습니다

요금과 접근 조건 — 실제로 얼마를 내야 하는지

자주 묻는 것들

마치며

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4, 써보니 이게 안 됩니다

GPT-5.4, 써보니 이게 안 됩니다공식 수치로 확인한 되는 것과 막히는 것

GPT-5.4가 뭔지 30초 요약

컴퓨터 조작에서 AI가 사람을 넘겼습니다

Pro 버전이 일반 버전보다 못한 경우가 있습니다

Tool Search — 비용이 어디서 줄어드는지 계산해봤습니다

GPT-5.3-Codex를 여전히 못 이기는 항목이 있습니다

요금과 접근 조건 — 실제로 얼마를 내야 하는지

자주 묻는 것들

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

GPT-5.4, 써보니 이게 안 됩니다
공식 수치로 확인한 되는 것과 막히는 것