GPT-5.4, 공식 문서 4가지로 직접 확인했습니다

Published on

in

GPT-5.4, 공식 문서 4가지로 직접 확인했습니다

📅 2026.03.05 출시 기준
GPT-5.4 / ChatGPT

GPT-5.4, 공식 문서 4가지로 직접 확인했습니다

“컴퓨터를 직접 조작한다”, “100만 토큰”이라는 말이 쏟아졌습니다. 그런데 막상 공식 문서를 하나씩 열어보니 기대와 다른 조건들이 꽤 있었습니다. 요금·한계·무료 사용자 범위까지 실제로 확인한 내용을 정리했습니다.

2026.03.05
공식 출시일
272K→1M
컨텍스트 토큰
$2.50/$15
API 입출력 단가
75.0%
데스크탑 조작 성공률

GPT-5.4가 정확히 무엇인지부터

GPT-5.4는 OpenAI가 2026년 3월 5일 공식 출시한 최신 프론티어 모델입니다. (출처: OpenAI 공식 블로그, 2026.03.05) 공식 발표에서 강조한 핵심은 세 가지입니다. 추론·코딩·에이전트 기능을 단일 모델에 통합했다는 점, 처음으로 네이티브 컴퓨터 사용 기능을 탑재했다는 점, 그리고 최대 100만 토큰 컨텍스트를 지원한다는 점입니다.

GPT-5 시리즈가 2025년 8월 등장한 이후 7개월 만에 GPT-5.1, GPT-5.2 Codex, GPT-5.3 Codex를 거쳐 GPT-5.4까지 5번째 모델이 나온 셈입니다. 이 속도 자체가 하나의 신호입니다. OpenAI가 Claude Opus 4.6(Anthropic), Gemini 3.1 Pro(Google)와의 격차를 좁히기 위해 빠르게 이터레이션하고 있다는 뜻이기도 합니다.

GPT-5.4는 두 가지 변형으로 제공됩니다. ChatGPT Plus 이상 구독자가 쓸 수 있는 GPT-5.4 Thinking과, ChatGPT Pro($200/월) 및 Enterprise 전용인 GPT-5.4 Pro입니다. (출처: VentureBeat, 2026.03.05) 무료 사용자는 모델이 자동으로 라우팅될 때만 제한적으로 접근할 수 있습니다. 무료라고 홍보한 글들이 말하지 않은 조건입니다.

💡 공식 발표문과 실제 플랜 구조를 같이 놓고 보니 이런 차이가 보였습니다.
GPT-5.4 Thinking과 GPT-5.4 Pro는 이름이 비슷해 보이지만 접근 요금 체계와 API 단가가 완전히 다릅니다. Plus 구독자가 쓰는 Thinking과 Pro 구독자가 쓰는 Pro는 실질적으로 다른 모델에 가깝습니다.

▲ 목차로 돌아가기

컴퓨터 직접 조작 — 수치로 본 실제 성능

GPT-5.4의 가장 큰 신기능은 ‘네이티브 컴퓨터 사용(Native Computer Use)’입니다. AI가 화면을 보고, 커서를 움직이고, 버튼을 클릭하고, 텍스트를 입력하는 방식으로 실제 소프트웨어를 조작하는 기능입니다. 이전 모델들이 API를 통해서만 외부 도구를 쓸 수 있었다면, GPT-5.4는 API가 없는 레거시 시스템이나 내부 툴에도 접근할 수 있게 됐습니다.

OpenAI가 공개한 OSWorld-Verified 벤치마크에서 GPT-5.4는 75.0%를 기록했습니다. 같은 벤치마크에서 인간 성능 기준치는 72.4%입니다. 숫자만 보면 AI가 사람을 앞섰습니다. (출처: OpenAI 공식 블로그, 2026.03.05) 그런데 이 수치는 맥락이 있습니다. OSWorld는 데스크탑 UI 조작 능력을 측정하지만, 복잡한 다단계 작업에서의 실제 완료율은 이보다 훨씬 낮습니다.

계산해보면 이렇습니다. 각 단계에서 성공 확률이 90%인 10단계 작업의 전체 완료 확률은 0.9¹⁰ ≈ 35%입니다. 성공률이 95%로 올라도 20단계짜리 작업의 완료 확률은 0.95²⁰ ≈ 36%에 불과합니다. 단순한 1~3단계 작업에서는 충분히 신뢰할 수 있지만, 기업 업무처럼 20단계 이상의 워크플로에서는 사람의 감독 없이 완전 자동화하기 어렵습니다. (출처: MindStudio AI Blog, 2026.03.07)

벤치마크 GPT-5.4 GPT-5.2 인간 기준
OSWorld-Verified (데스크탑) 75.0% 47.3% 72.4%
WebArena-Verified (브라우저) 67.3% 65.4%
Online-Mind2Web (스크린샷 단독) 92.8%

(출처: OpenAI 공식 블로그, 2026.03.05 / serenitiesai.com, 2026.03.10)

▲ 목차로 돌아가기

1M 토큰이라는 수치의 숨겨진 조건

GPT-5.4가 ‘100만 토큰 컨텍스트’를 지원한다는 건 사실입니다. 문제는 이 수치가 균등하게 작동하지 않는다는 점입니다. OpenAI 공식 발표에 따르면 272,000 토큰을 넘는 입력은 기본 요금의 2배로 청구됩니다. (출처: VentureBeat, 2026.03.05) 컨텍스트가 길수록 돈도 두 배로 나갑니다.

정확도 문제도 있습니다. OpenAI가 공개한 MRCR v2 8-needle 테스트 결과를 보면, 4K~128K 구간에서는 86~97%의 정확도를 보이지만 256K~512K 구간에서는 57.5%로 뚝 떨어지고, 512K~1M 구간에서는 36.6%까지 내려갑니다. (출처: serenitiesai.com, 2026.03.10) 1M 토큰을 넣었다고 모델이 1M 토큰 전체를 동등한 품질로 처리하는 게 아닙니다.

⚠️ 실사용 기준 권장 범위: 256K 이하
100만 토큰 지원이 맞지만, 256K를 넘어가는 순간 정확도가 눈에 띄게 하락합니다. 대형 코드베이스 전체를 한번에 넣는 건 비용과 품질 모두에서 손해입니다. 코드베이스를 모듈 단위로 나눠 넣는 방식이 훨씬 효율적입니다.

Codex에서는 기본 컴팩션 기준이 272K 토큰으로 설정되어 있습니다. 개발자가 직접 model_context_window 설정을 올리지 않으면 자동으로 272K 내에서 압축됩니다. 즉 별도 설정 없이 쓰는 일반 개발자는 사실상 272K 모델을 쓰는 셈입니다. 1M 토큰은 실험적 기능으로 분류됩니다. (출처: serenitiesai.com, 2026.03.10)

▲ 목차로 돌아가기

요금제별로 받는 게 다릅니다

ChatGPT 구독 플랜에 따라 GPT-5.4 접근 방식이 완전히 다릅니다. 무료 사용자는 OpenAI가 내부적으로 모델을 자동 배정할 때만 GPT-5.4에 접근됩니다. 내가 선택하는 게 아닙니다. Go 플랜($8/월)도 제한적 접근만 허용됩니다. GPT-5.4 Pro는 ChatGPT Pro($200/월)와 Enterprise 플랜 전용입니다. (출처: serenitiesai.com, 2026.03.10)

플랜 월 요금(한국) GPT-5.4 Thinking GPT-5.4 Pro
Free 0원 자동 배정만
Go 약 13,000원 제한적
Plus 약 29,000원 ✅ 확장 접근
Pro 약 299,000원 ✅ 무제한*

(출처: serenitiesai.com, 2026.03.10 / OpenAI 공식 가격 페이지)

API 요금은 사용자 구독과 별개입니다. gpt-5.4 기준 입력 토큰 $2.50/1M, 출력 토큰 $15/1M입니다. gpt-5.4-pro는 입력 $30/1M, 출력 $180/1M으로 기본 모델 대비 12배 비쌉니다. (출처: OpenAI 공식 가격 페이지 / VentureBeat, 2026.03.05) 일반 ChatGPT Plus 사용자가 “GPT-5.4를 쓰고 있다”고 할 때, 그게 Thinking 버전인지 Pro 버전인지는 맥락을 더 봐야 합니다.

💡 같은 GPT-5.4라도 API로 쓸 때와 ChatGPT 구독으로 쓸 때 경제성이 완전히 다릅니다.
월 10만 토큰 이하로 쓰는 개인 사용자라면 Plus 구독이 훨씬 저렴합니다. API 비용은 대량 워크플로를 돌리는 개발자에게 실질적인 수치입니다.

▲ 목차로 돌아가기

벤치마크보다 중요한 실패 패턴

GPT-5.4는 일반 지식 작업 벤치마크(GDPval)에서 44개 직업 기준 전문가보다 우수한 결과를 83%의 비율로 기록했습니다. 투자은행 애널리스트 스프레드시트 모델링에서는 87.3%를 받았습니다. (출처: VentureBeat, 2026.03.05) 숫자만 보면 상당히 인상적입니다.

그런데 ability.ai의 실사용 테스트에서 확인된 수치는 다릅니다. GPT-5.4는 모르는 것을 모른다고 말하지 않고 89%의 확률로 그럴듯한 오답을 자신 있게 제시합니다. 이 수치는 이전 모델인 GPT-5.3 Codex보다도 높은 할루시네이션 비율입니다. (출처: ability.ai, 2026.03.13) 이게 실제 운영 환경에서 GPT-5.4가 가장 위험한 특성입니다.

OpenAI도 이 부분을 인정합니다. 공식 발표에 따르면 GPT-5.2 대비 개별 클레임의 오류가 33% 줄었고 전체 응답에서 오류가 포함될 가능성이 18% 낮아졌다고 밝혔습니다. (출처: OpenAI 공식 블로그, 2026.03.05) 그런데 이 개선이 ‘오답을 인정하지 않는 비율’에 해당하는 건 아닙니다. 정확도가 오른 동시에, 틀렸을 때 그걸 숨기는 경향도 함께 있습니다.

⚠️ 금융·법률·의료 자료에 그대로 적용하면 안 되는 이유
모르면 “모른다”고 하는 모델이 아닙니다. 전문 도메인일수록 AI 출력을 검증하는 단계를 설계에 포함해야 합니다.

▲ 목차로 돌아가기

GPT-5.3 Codex와 바꿀 필요가 없는 경우

“최신 모델이 나왔으니 무조건 올려야 한다”는 생각은 비용 낭비로 이어집니다. 직접 따져볼 수 있는 기준을 정리했습니다. GPT-5.3 Codex는 API 입력 기준 $2.00/1M, 출력 $8.00/1M입니다. GPT-5.4는 입력 $2.50/1M, 출력 $15.00/1M입니다. 출력 토큰 단가가 87.5% 더 비쌉니다. (출처: nxcode.io, 2026.03.13)

더 놀라운 건 성능 데이터입니다. ability.ai의 테스트에 따르면 GPT-5.4가 특정 전문 도메인 벤치마크(OpenAI-Proof Q&A)에서 GPT-5.3 Codex보다 낮은 점수를 받았습니다. (출처: ability.ai, 2026.03.13) 최신 모델이 이전 버전보다 특정 영역에서 뒤처지는 경우가 생깁니다. 코딩 특화 파이프라인을 운영 중이라면 GPT-5.4로 마이그레이션 전에 실제 태스크로 A/B 테스트가 필수입니다.

💡 OpenAI 공식 로드맵에 GPT-5.3 Codex 지원 종료 계획은 없습니다.
두 모델이 다른 세그먼트를 커버하도록 의도적으로 설계됐습니다. GPT-5.4로 전체를 교체하기보다 태스크 유형에 따라 모델을 나눠 쓰는 게 현실적입니다.

GPT-5.4로 바꾸면 유리한 경우 vs 안 바꿔도 되는 경우

✅ 바꾸는 게 유리

  • 컴퓨터 사용 기능이 필요한 에이전트
  • 272K+ 컨텍스트가 필요한 워크플로
  • 추론 깊이를 조절해야 하는 복합 태스크
  • Excel/Sheets 통합 자동화

⏸️ 지금 당장 안 바꿔도 되는 경우

  • 순수 코딩 파이프라인 (속도·비용 우선)
  • 특정 전문 도메인에 특화된 워크플로
  • GPT-5.3 Codex가 잘 작동하는 환경
  • 고정 예산으로 토큰 수를 최적화 중인 경우

▲ 목차로 돌아가기

Q&A 5가지

Q1. GPT-5.4 무료로도 쓸 수 있나요?

무료 계정에서도 GPT-5.4에 접근되는 경우가 있습니다. 다만 OpenAI가 내부적으로 자동 배정할 때만 해당되고, 사용자가 직접 GPT-5.4를 선택해서 쓸 수는 없습니다. 실질적으로 GPT-5.4를 원하는 방식으로 쓰려면 Plus 플랜 이상이 필요합니다. (출처: VentureBeat, 2026.03.05)

Q2. GPT-5.2 Thinking은 언제까지 쓸 수 있나요?

GPT-5.2 Thinking은 레거시 모델로 3개월간 유지됩니다. 2026년 6월 5일 완전 종료 예정입니다. 기존 GPT-5.2 기반 파이프라인이 있다면 그 전에 마이그레이션 테스트를 마쳐야 합니다. (출처: serenitiesai.com, 2026.03.10)

Q3. 컴퓨터 사용 기능이 보안상 위험하지 않나요?

OpenAI는 GPT-5.4를 Preparedness Framework 기준 ‘높은 사이버 위험’ 등급으로 분류하고 있습니다. 가장 큰 위험은 프롬프트 인젝션으로, 악성 웹 콘텐츠가 모델의 행동을 가로채려는 시도입니다. 공식 권고는 격리된 가상머신(VM) 환경에서 실행하고 최소 권한 원칙을 적용하는 것입니다. (출처: OpenAI 공식 블로그, 2026.03.05)

Q4. reasoning_effort 파라미터는 ChatGPT에서도 쓸 수 있나요?

reasoning_effort 파라미터는 API 전용 기능입니다. ChatGPT 인터페이스에서는 제공되지 않습니다. none/low/medium/high/xhigh 5단계 중 직접 선택해서 쓰려면 OpenAI API 키로 직접 호출해야 합니다. ChatGPT에서는 모델이 내부적으로 적절한 추론 수준을 자동 선택합니다. (출처: nxcode.io, 2026.03.13)

Q5. Claude Opus 4.6과 비교하면 어떤 걸 고르는 게 나을까요?

코딩 벤치마크(SWE-bench Verified)에서 GPT-5.4는 80.0%, Claude Opus 4.6은 80.8%입니다. 실질적으로 비슷한 수준입니다. 가격 차이가 큽니다. Claude Opus 4.6 출력 기준 $25/1M 대비 GPT-5.4는 $15/1M으로 40% 저렴합니다. 대규모 볼륨 작업에서는 GPT-5.4가 유리하고, 복잡한 다파일 리팩토링에서는 Claude Opus 4.6이 아직 조금 앞서는 편입니다. (출처: nxcode.io, 2026.03.13)

▲ 목차로 돌아가기

마치며

GPT-5.4는 분명 의미 있는 업그레이드입니다. 컴퓨터 직접 조작, 272K 컨텍스트 기본 제공, reasoning_effort 5단계 조절 — 이 조합은 에이전트 기반 자동화를 실제로 더 쉽게 만들어줍니다. Claude Opus 4.6 대비 40% 저렴한 출력 단가도 대규모 운영 환경에서 실질적인 차이를 만듭니다.

다만 공식 문서를 꼼꼼히 읽으면 조건들이 보입니다. 1M 토큰 전부를 쓰면 비용 2배에 정확도 36.6%로 뚝 떨어집니다. 모르는 걸 89% 확률로 자신 있게 말합니다. GPT-5.3 Codex보다 특정 전문 도메인에서 더 낮은 점수를 받기도 합니다. 최신 모델이라고 모든 면에서 더 좋은 건 아닙니다.

솔직히 말하면, GPT-5.4로 당장 전환이 필요한 사용자는 생각보다 적습니다. 에이전트 워크플로를 개발 중이거나 컴퓨터 사용 기능을 필요로 하는 개발자라면 지금 바로 테스트할 가치가 있습니다. 일반 ChatGPT Plus 사용자라면 기존 사용 패턴에서 별 차이를 느끼기 어려울 수 있습니다.

📌 이 포스팅 핵심 3줄 요약

  • 컴퓨터 사용 + reasoning_effort 조절 → 에이전트 개발자에게 실질적 업그레이드
  • 1M 토큰은 256K 초과 시 2배 과금 + 정확도 급락, 실사용 권장 범위는 256K 이하
  • 모르면 89% 확률로 자신 있게 틀림 → 전문 도메인에서 검증 레이어 필수

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Introducing GPT-5.4 (openai.com/index/introducing-gpt-5-4/)
  2. VentureBeat — OpenAI launches GPT-5.4 with native computer use mode (venturebeat.com)
  3. NxCode — GPT-5.4 Release Date, Features & Pricing (nxcode.io)
  4. Serenitiesai — GPT-5.4: Everything Developers Need to Know (serenitiesai.com)
  5. Ability.ai — GPT-5.4 Operational Risks (ability.ai)
  6. MindStudio AI Blog — What Is Native Computer Use in AI Models? (mindstudio.ai)

본 포스팅은 2026년 3월 25일 기준 공개된 정보를 바탕으로 작성되었습니다. OpenAI의 서비스 정책·요금·UI·기능은 업데이트로 언제든 변경될 수 있습니다. 최신 정보는 OpenAI 공식 사이트에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기