GPT-5.4, 잘 쓰는 조건이 따로 있습니다

Published on

in

GPT-5.4, 잘 쓰는 조건이 따로 있습니다

2026.03.05 출시 기준
GPT-5.4 / GPT-5.4 Thinking / GPT-5.4 Pro

GPT-5.4, 잘 쓰는 조건이 따로 있습니다

OpenAI가 2026년 3월 5일 공개한 GPT-5.4. GDPval 83%, 컴퓨터 사용 75%… 수치가 꽤 인상적인데, 막상 내 요금제에서 어떻게 작동하는지가 빠져 있습니다. 공식 발표문과 Help Center를 같이 놓고 보니 생각보다 중요한 차이가 보였습니다.

83.0%
GDPval 지식 업무 점수
75.0%
OSWorld 컴퓨터 사용 (인간 72.4%)
33%
개별 주장 오류 감소 (vs GPT-5.2)

GPT-5.4가 이전 모델과 다른 딱 한 가지

GPT-5.4를 한 문장으로 요약하면, 이전까지 따로 존재하던 모델들을 하나로 합쳤다는 겁니다. GPT-5.3-Codex의 코딩 능력, 에이전트 워크플로, 컴퓨터 사용 기능이 추론 모델 하나에 전부 들어갔습니다. 기존에는 코딩이 필요하면 Codex, 추론이 필요하면 Thinking 모드, 컴퓨터 조작이 필요하면 또 다른 설정으로 스위치해야 했는데, 그 경계가 없어진 셈입니다. (출처: OpenAI 공식 발표, 2026.03.05)

특히 눈에 띄는 건 컴퓨터 사용(computer use)이 이번에 처음으로 범용 모델에 들어왔다는 점입니다. 스크린샷을 보고 마우스·키보드 동작을 생성하거나, Playwright 같은 라이브러리로 앱을 직접 조작하는 기능인데, 이전 GPT-5.x 계열에는 코딩 특화 모델에서만 쓸 수 있었던 기능입니다. (출처: OpenAI 공식 발표, 2026.03.05) 말 그대로 “대화형 챗봇”에서 “실제 작업을 완료하는 에이전트”로 한 발 더 나아간 구조입니다.

단, 이게 ChatGPT 화면에서 항상 활성화돼 있는 건 아닙니다. API와 Codex에서 활용하는 기능이고, 일반 Plus 사용자 기준으로는 컴퓨터 조작보다 Thinking 품질 개선이 더 체감할 포인트입니다.

▲ 목차로 돌아가기

벤치마크 수치, 얼마나 믿어도 될까

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. GPT-5.4의 GDPval 83%는 OpenAI 자체 벤치마크 기준이고, 44개 직종 전문가와의 비교입니다. 숫자 자체는 맞지만, 어떤 조건에서 나온 숫자인지를 알아야 체감과 일치합니다.

GDPval 83.0%는 GPT-5.4가 미국 GDP 상위 9개 산업에서 44개 직종의 실제 업무 결과물(영업 프레젠테이션, 재무 모델, 제조 도면 등)을 해당 분야 전문가와 비교했을 때 이기거나 같은 수준으로 평가받은 비율입니다. GPT-5.2 대비 70.9%에서 83.0%로 올라간 수치입니다. (출처: OpenAI 공식 발표, 2026.03.05) 이는 한 단계 업데이트로 전문가 수준 업무 결과를 12.1%p 더 따라잡았다는 의미입니다.

그런데 한 가지 조건이 있습니다. GDPval 측정은 추론 설정을 ‘xhigh’로 놓고 진행했습니다. ChatGPT Plus의 기본 설정은 ‘Standard’이고, Extended나 Heavy는 Pro 사용자에게만 제공됩니다. (출처: OpenAI Help Center, GPT-5.3 and GPT-5.4 in ChatGPT) Plus 구독자가 GPT-5.4 Thinking을 쓸 때 실제로 경험하는 추론 깊이는 벤치마크 환경과 다를 수 있습니다.

OSWorld-Verified 75.0%는 더 강렬한 수치입니다. 같은 벤치마크에서 인간 성능이 72.4%로 측정됐으니, GPT-5.4가 처음으로 컴퓨터 사용 영역에서 인간을 앞선 공식 수치가 나온 겁니다. (출처: OpenAI 공식 발표, 2026.03.05) GPT-5.2가 47.3%였으니 단 한 세대에 27.7%p가 오른 셈입니다.

벤치마크 GPT-5.4 GPT-5.2 증가폭
GDPval (지식 업무) 83.0% 70.9% +12.1%p
OSWorld (컴퓨터 사용) 75.0% 47.3% +27.7%p
BrowseComp (웹 리서치) 82.7% 65.8% +16.9%p
SWE-Bench Pro (코딩) 57.7% 55.6% +2.1%p
스프레드시트 모델링 (내부) 87.3% 68.4% +18.9%p

출처: OpenAI 공식 발표 (2026.03.05) / 표 안 수치는 xhigh 추론 설정 기준

▲ 목차로 돌아가기

요금제별로 실제 쓸 수 있는 범위가 다릅니다

💡 GPT-5.4 Thinking을 수동으로 선택한 메시지만 주간 한도에 카운트됩니다. ChatGPT가 자동으로 전환해 준 경우는 한도를 깎지 않습니다. 공식 Help Center에 그대로 나와 있는 내용인데, 이 구조를 모르면 한도 관리 방식이 완전히 달라집니다.

ChatGPT에서 GPT-5.4 Thinking을 쓰는 방법은 두 가지입니다. 모델 선택 화면에서 직접 ‘Thinking’을 고르거나, ‘Instant’ 모드를 켜둔 채로 시스템이 자동으로 Thinking으로 넘겨주도록 두는 방식입니다. 여기서 중요한 차이가 생깁니다. (출처: OpenAI Help Center, 2026.03 기준)

Plus, Business 플랜 기준, 수동으로 Thinking을 선택하면 주간 3,000건 한도가 있습니다. 그런데 Instant가 자동으로 Thinking으로 전환한 경우에는 이 3,000건 한도가 차감되지 않습니다. 즉, 한도를 다 쓴 뒤에도 Instant 모드에서 복잡한 질문을 하면 ChatGPT가 알아서 Thinking으로 처리해 줄 수 있습니다. 오해 없이 쓸 수 있는 구조입니다.

요금제 GPT-5.3 한도 GPT-5.4 Thinking 수동 컨텍스트 창
Free 10건 / 5시간 ❌ 사용 불가 16K
Plus / Go 160건 / 3시간 3,000건 / 주 256K
Pro 무제한 무제한 400K
Business / Enterprise 무제한 3,000건 / 주 256K

출처: OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (2026.03 기준)

추론 깊이(Thinking time) 설정도 요금제마다 다릅니다. Standard와 Extended는 Plus, Business에서 모두 쓸 수 있지만, Light와 Heavy 옵션은 Pro 사용자에게만 열려 있습니다. Plus에서 쓰는 GPT-5.4 Thinking은 사실상 가운데 2단계 중에서만 고를 수 있다는 뜻입니다.

▲ 목차로 돌아가기

1M 토큰이지만 조용히 숨겨진 청구 조건

💡 1M 토큰 컨텍스트를 쓰면 272K 초과분부터 입력 토큰 요금이 2배로 청구됩니다. OpenAI 공식 모델 문서에 명시된 내용이지만, 발표 헤드라인에는 잘 안 나오는 부분입니다.

1M 토큰 컨텍스트는 API와 Codex에서 지원하는 기능입니다. ChatGPT 화면에서 직접 1M을 쓰는 건 아니고, 개발자가 API로 호출할 때 model_context_window를 설정해야 활성화됩니다. (출처: OpenAI 공식 발표, 2026.03.05) 일반 ChatGPT 사용자에게 바로 체감되는 기능은 아닙니다.

가격 구조도 놓치면 안 됩니다. API 기준으로 gpt-5.4는 입력 토큰 1M당 $2.50이고 출력은 $15입니다. 그런데 입력 프롬프트가 272K 토큰을 넘어가면 해당 세션 전체에 대해 입력 요금이 2배(5.00/M)로 적용됩니다. (출처: OpenAI 공식 모델 문서) 긴 문서나 코드베이스를 통째로 넣는 작업을 자주 하는 분이라면 비용이 예상보다 빠르게 오를 수 있습니다.

모델 입력 (표준) 272K 초과 시 출력
gpt-5.2 $1.75 / M $14.00 / M
gpt-5.4 $2.50 / M $5.00 / M $15.00 / M
gpt-5.4-pro $30.00 / M $180.00 / M

출처: OpenAI 공식 발표 (2026.03.05) / Batch·Flex는 표준 요금의 50%, Priority는 2배

지역 처리(Regional processing) 엔드포인트를 쓰면 요금에 10%가 추가됩니다. 입력과 출력 모두에 적용되는 추가 요금이라 대용량 요청이 많은 팀에서는 미리 계산해두는 게 좋습니다.

▲ 목차로 돌아가기

Tool Search가 실제로 아끼는 비용

💡 수십 개 MCP 서버를 연결해도 토큰이 47% 줄어드는 구조가 생겼습니다. Scale의 MCP Atlas 벤치마크 250개 태스크에서 확인된 수치입니다. API 과금 구조를 이해하면 이 기능이 왜 중요한지 바로 보입니다.

기존 방식에서는 에이전트에 연결된 모든 툴의 정의가 프롬프트에 처음부터 들어갔습니다. MCP 서버가 36개만 연결돼 있어도 수만 토큰이 매 요청마다 프롬프트 앞에 쌓였고, 이 토큰은 실제로 쓰지 않아도 전부 비용으로 청구됐습니다. GPT-5.4의 Tool Search는 모델이 필요한 순간에만 해당 툴 정의를 불러옵니다. (출처: OpenAI 공식 발표, 2026.03.05)

Scale MCP Atlas 벤치마크에서 36개 MCP 서버를 Tool Search 뒤에 배치했을 때 전체 토큰 사용량이 47% 줄어들었고, 정확도는 동일하게 유지됐습니다. (출처: OpenAI 공식 발표, 2026.03.05) gpt-5.4 기준 입력 $2.50/M으로 환산하면, 요청 1,000건당 약 $50 이상의 입력 비용 차이가 날 수 있다는 뜻입니다.

ChatGPT 사용자에게는 직접 보이는 변화가 아니지만, MCP 연동을 활용하는 개발자나 자동화 파이프라인을 운영하는 팀에게는 체감 비용이 달라지는 구조 변화입니다. 단순히 모델이 똑똑해졌다는 것과는 다른 차원의 업데이트입니다.

▲ 목차로 돌아가기

GPT-5.4 Pro가 필요한 경우와 그렇지 않은 경우

GPT-5.4 Pro와 기본 GPT-5.4의 벤치마크를 나란히 놓으면 꽤 재미있는 패턴이 나옵니다. 대부분의 직종 실무 지표에서는 오히려 기본 GPT-5.4가 Pro보다 높습니다. GDPval은 기본 83.0% vs Pro 82.0%, 스프레드시트 모델링은 기본 87.3% vs Pro 83.6%입니다. (출처: OpenAI 공식 발표, 2026.03.05) 더 비싼 Pro가 실무 작업에서는 더 낮은 점수가 나온 겁니다.

💡 Pro가 확실히 앞서는 영역

  • ARC-AGI-2: 기본 73.3% → Pro 83.3% (+10%p)
  • FrontierMath Tier 4 (난이도 최상): 기본 27.1% → Pro 38.0% (+10.9%p)
  • BrowseComp (웹 리서치): 기본 82.7% → Pro 89.3% (+6.6%p)
  • Humanity’s Last Exam w/tools: 기본 52.1% → Pro 58.7% (+6.6%p)

출처: OpenAI 공식 발표 벤치마크 테이블 (2026.03.05)

결론은 이렇습니다. 엑셀 모델링, 발표자료 작성, 코드 작성처럼 실무에서 흔히 쓰는 작업은 기본 GPT-5.4로 충분하고 오히려 Pro보다 낫습니다. Pro가 가치를 발휘하는 건 수학 올림피아드 수준의 극한 추론, ARC-AGI-2 같은 순수 패턴 인식, 딥 웹 리서치처럼 긴 시간 집중 탐색이 필요한 작업입니다. 일반 업무용으로 매달 $200 Pro를 결제하는 건 오버스펙일 수 있습니다.

API 요금도 큰 차이입니다. gpt-5.4는 입력 $2.50/M인 반면, gpt-5.4-pro는 $30/M으로 12배 차이입니다. 실무 결과물 품질이 Pro에서 더 낮게 나오는 벤치마크가 있다는 점까지 감안하면, Pro는 선택이 아니라 특수 목적에 한해 쓰는 도구에 가깝습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. GPT-5.4는 무료 사용자도 쓸 수 있나요?
Q2. GPT-5.2 Thinking은 언제 사라지나요?
Q3. GPT-5.4의 한국어 성능은 어떤가요?
OpenAI가 GPT-5.4의 한국어 성능을 별도로 벤치마크하거나 공개한 수치는 없습니다. 이전에 GPT-5 초기 버전에서 한국어 어색함 문제가 지적됐던 것과 비교해 5.x 계열에서 개선됐다는 사용자 반응이 있지만, 공식 수치는 아직 공개되지 않았습니다.
Q4. GPT-5.4 mini는 무엇이고, 언제 쓰면 좋나요?
2026년 3월 17일 공개된 GPT-5.4 mini는 코딩 서브에이전트, 분류, 데이터 추출처럼 빠른 응답이 필요한 고볼륨 작업에 최적화된 모델입니다. Codex에서 GPT-5.4 쿼터의 30%만 소비해 비용 효율이 높습니다. OSWorld-Verified에서 72.1%로 GPT-5.4(75.0%)에 근접한 성능을 낮은 지연으로 제공합니다. (출처: OpenAI 공식 발표, 2026.03.17)
Q5. Instant 모드에서 Thinking으로 자동 전환될 때 어떻게 알 수 있나요?
Instant 모드에서 ChatGPT가 자동으로 Thinking으로 전환하면, 짧은 추론의 경우 Thinking 트레이스(생각 과정)가 표시되지 않을 수도 있습니다. 수동으로 Thinking을 선택한 경우에는 항상 Thinking 트레이스가 표시됩니다. 이것이 두 방식의 UI 차이입니다. (출처: OpenAI Help Center, 2026.03 기준)

▲ 목차로 돌아가기

마치며

GPT-5.4는 숫자만 보면 역대급 업데이트가 맞습니다. GDPval 83%, OSWorld 75%, 스프레드시트 모델링 87.3%는 이전 모델들과 비교해 꽤 큰 폭의 향상입니다. 그런데 막상 내 요금제에서 어떻게 쓸 수 있는지를 보면 얘기가 달라집니다. Plus에서 Heavy 추론은 안 되고, 1M 토큰은 272K 넘으면 2배 과금이 되고, Pro는 실무 작업 벤치마크에서 오히려 기본 모델보다 낮은 경우도 있습니다.

솔직히 말하면 일반 ChatGPT Plus 사용자 기준으로는 달라진 체감이 크지 않을 수도 있습니다. 추론 깊이가 Standard로 고정돼 있고, 컴퓨터 사용 기능도 API에서 쓰는 영역이라서입니다. 반대로 API를 직접 다루는 개발자나 Codex로 코딩 파이프라인을 운영하는 팀에게는 Tool Search와 gpt-5.4 mini 조합이 실질적인 비용 절감을 가져다줄 수 있는 구조입니다.

어떻게 쓸지를 먼저 정한 다음 모델을 고르는 게 맞는 순서입니다. 벤치마크 수치에 끌려서 Pro를 결제하기 전에, 내가 주로 하는 작업이 ARC-AGI-2 풀기인지 엑셀 만들기인지부터 봐야 합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. OpenAI 공식 발표 — Introducing GPT-5.4: https://openai.com/index/introducing-gpt-5-4/
  2. OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT: https://help.openai.com/en/articles/11909943-gpt-53-and-gpt-54-in-chatgpt
  3. OpenAI 공식 발표 — Introducing GPT-5.4 mini and nano: https://openai.com/index/introducing-gpt-5-4-mini-and-nano/
  4. TechCrunch — OpenAI launches GPT-5.4 with Pro and Thinking versions: https://techcrunch.com/2026/03/05/openai-launches-gpt-5-4/


본 포스팅은 2026년 3월 27일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 발표 및 Help Center에서 인용했으며, 실제 사용 환경에 따라 결과가 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기