📅 2026.03.05 출시 | OpenAI 공식 발표
ChatGPT가 단순 ‘질문-답변’ 도구였던 시대는 끝났습니다. GPT-5.4는 마우스를 직접 클릭하고, 키보드를 입력하며, 앱을 여닫는 에이전트형 모델입니다. 데스크탑 탐색 능력에서 인간 평균을 처음으로 추월한 이 모델의 모든 것을 지금 바로 확인하세요.
GDPval 83.0%
환각 33% 감소
최대 100만 토큰
GPT-5.4는 OpenAI가 2026년 3월 5일 공개한 최신 프론티어 모델입니다. ChatGPT(GPT-5.4 Thinking 명칭), API, Codex에 동시 배포되었으며, 이전 세대인 GPT-5.3-Codex(코딩 특화)와 GPT-5.2(범용)를 하나로 통합한 통합형 모델입니다. 가장 중요한 변화는 단 하나입니다. 바로 일반 목적 모델로는 최초로 ‘컴퓨터 직접 조작’ 기능이 내장되었다는 점입니다.
기존 GPT 시리즈는 텍스트·이미지를 생성하거나 코드를 짜주는 데 그쳤습니다. 반면 GPT-5.4는 마우스를 클릭하고, 키보드로 입력하고, 스크린샷을 보며 앱을 조작합니다. 개념적으로는 “AI 인턴을 고용해서 내 컴퓨터 앞에 앉혀두는 것”에 가깝습니다. 사용자가 “이 엑셀 자료 정리해서 PPT 만들고 메일 보내줘”라고 하면, GPT-5.4는 각 단계를 스스로 실행합니다.
또한 GPT-5.4는 GPT-5.3-Codex(코딩 특화 모델)를 대체하면서도, 코딩 성능은 거의 동급 이상을 유지합니다. 이는 OpenAI가 “특화 모델 여러 개를 관리하던 시대”에서 “하나의 통합 모델”로 전략을 전환했음을 의미합니다. 개발자 입장에서는 어떤 모델을 골라야 할지 고민하는 피로가 줄어듭니다.
💡 핵심 요약: GPT-5.4 = GPT-5.2(범용) + GPT-5.3-Codex(코딩) + 컴퓨터 조작 + 100만 토큰 컨텍스트. 역대 OpenAI 모델 중 가장 광범위한 기능을 단일 모델로 통합.
6가지 핵심 기능 완전 해부
① 컴퓨터 직접 조작 (Computer Use)
② 100만 토큰 컨텍스트 윈도우
API와 Codex 환경에서 최대 100만 토큰의 컨텍스트를 지원합니다. 책 수십 권 분량의 문서, 수만 줄짜리 코드베이스 전체를 한 번에 넣고 분석할 수 있습니다. 표준 컨텍스트는 272K 토큰이며, 272K 초과분은 2배 요금이 적용되는 실험적 기능입니다. ChatGPT 인터페이스에서는 GPT-5.2와 동일한 컨텍스트 창을 유지합니다(1M 컨텍스트는 API·Codex 전용).
③ 도구 검색(Tool Search): 토큰 47% 절감
MCP(Model Context Protocol) 서버 등 수많은 도구를 연동할 때, 기존 방식은 모든 도구 정의를 프롬프트에 미리 통째로 넣어야 했습니다. GPT-5.4는 필요한 순간에만 해당 도구의 정의를 검색·조회하는 방식으로 전환해, Scale MCP Atlas 벤치마크(250개 태스크, 36개 MCP 서버) 기준 토큰 소비를 47% 줄이면서도 정확도를 유지했습니다. 대규모 툴 생태계를 운영하는 기업에게 비용 절감 효과가 큽니다.
④ 중간 응답 수정(Mid-Response Course Correction)
ChatGPT에서 GPT-5.4 Thinking은 긴 응답을 시작하기 전 접근 방법의 아웃라인을 먼저 보여줍니다. 사용자는 이 계획을 읽고, 방향이 틀렸으면 완성되기 전에 수정 지시를 내릴 수 있습니다. 원하는 결과물을 얻기 위해 처음부터 다시 시작하는 번거로움이 줄어듭니다. 현재 chatgpt.com과 Android 앱에서 지원되며, iOS 지원은 곧 추가될 예정입니다.
⑤ 심층 웹 리서치 강화
BrowseComp(여러 소스를 검색해 어렵게 찾아야 하는 정보를 얼마나 잘 찾는지 측정) 벤치마크에서 GPT-5.4는 82.7%로, GPT-5.2의 65.8%에서 17%포인트 향상되었습니다. GPT-5.4 Pro는 89.3%로 최신 최고 성능을 기록합니다. “여러 사이트에 흩어진 정보를 종합해서 결론을 내줘”류의 작업에서 체감 차이가 큽니다.
⑥ 고해상도 이미지 입력 & 시각 이해 개선
새로운 original 이미지 디테일 레벨을 도입해 최대 1,024만 화소(6,000px 한 변) 해상도 입력을 지원합니다. 고해상도 화면 환경에서 컴퓨터 사용 정확도가 크게 향상되며, 계약서·재무 보고서 등 조밀한 문서 파싱 정확도를 측정하는 OmniDocBench에서 오류율 0.109(GPT-5.2는 0.140, 낮을수록 좋음)를 달성했습니다.
벤치마크로 본 실력 — 숫자가 증명한다
| 벤치마크 | GPT-5.2 | GPT-5.4 | GPT-5.4 Pro | 향상폭 |
|---|---|---|---|---|
| GDPval (전문 업무) | 70.9% | 83.0% | 82.0% | +12.1p |
| OSWorld (데스크탑 조작) | 47.3% | 75.0% | — | +27.7p |
| BrowseComp (웹 리서치) | 65.8% | 82.7% | 89.3% | +16.9p |
| ARC-AGI-2 (추상 추론) | 52.9% | 73.3% | 83.3% | +20.4p |
| SWE-Bench Pro (코딩) | 55.6% | 57.7% | — | +2.1p |
| Toolathlon (도구 활용) | 46.3% | 54.6% | — | +8.3p |
| IB 모델링 (금융분석) | 68.4% | 87.3% | — | +18.9p |
| GPQA Diamond (대학원 과학) | 92.4% | 92.8% | 94.4% | +0.4p |
💡 개인적 해석: 벤치마크 패턴이 흥미롭습니다. GPQA Diamond처럼 이미 인간 전문가 수준에 근접한 영역은 개선폭이 미미합니다. 반면 “AI가 실제 도구를 조작하고 여러 단계 작업을 자율 수행하는 에이전트 영역”에서 폭발적으로 향상됐습니다. GPT-5.4의 방향성이 ‘더 똑똑한 AI’가 아닌 ‘더 많이 일하는 AI’임을 숫자가 말해줍니다.
특히 ARC-AGI-2 점수 20.4%포인트 향상은 주목할 만합니다. 이 벤치마크는 단순 패턴 매칭으로는 높은 점수를 낼 수 없도록 설계된 추상적 추론 테스트입니다. 52.9%에서 73.3%로의 도약은 모델의 근본적인 추론 능력이 향상되었다는 의미 있는 신호로 해석됩니다.
GPT-5.2 Thinking
레거시 (6월 5일 종료)
- 빠른 응답이 필요한 간단한 작업
- 비용 최소화 (입력 $1.75/1M)
- 컴퓨터 조작 기능 없음
- 최대 컨텍스트: 제한적
⚠ 2026년 6월 5일 서비스 종료
GPT-5.4 Thinking ⭐
Plus·Team·Pro 기본 모델
- 컴퓨터 직접 조작 가능
- API: 100만 토큰 컨텍스트
- 환각 33% 감소, 정확도 향상
- GDPval 83% (전문 업무 최강)
✅ 대부분의 사용자에게 추천
GPT-5.4 Pro
Pro·Enterprise 전용
- BrowseComp 89.3% (최고 성능)
- ARC-AGI-2 83.3%
- FrontierMath 38.0%
- 최고난도 수학·과학 문제 처리
💰 API $30/1M 입력 토큰
⚠ 주의: GDPval(전문 업무)에서 GPT-5.4 표준(83.0%)이 GPT-5.4 Pro(82.0%)보다 오히려 높습니다. “가장 어려운 수학·과학 연구”를 제외한 일반 업무에서는 GPT-5.4 표준이 더 나은 선택일 수 있습니다. Pro 플랜 구독료를 지불하면서 Pro 모델을 꼭 써야 하는 건 아닙니다.
요금 완전 정리 — API·ChatGPT 플랜별 비교
API 요금표 (2026년 3월 기준)
| 모델 | 입력 (1M 토큰) | 캐시 입력 | 출력 (1M 토큰) |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14.00 |
| gpt-5.4 ⭐ | $2.50 | $0.25 | $15.00 |
| gpt-5.2-pro | $21.00 | — | $168.00 |
| gpt-5.4-pro | $30.00 | — | $180.00 |
추가 요금 옵션
- Batch & Flex 처리: 표준 요금의 50% — 비실시간 대량 처리에 최적
- Priority 처리: 표준 요금의 200% — 최고 속도 보장, Codex /fast 모드와 동일 속도
- 데이터 레지던시·지역 처리: 표준 요금 +10%
- 1M 토큰 컨텍스트 (Codex 실험적): 272K 초과분 2배 요금 적용
ChatGPT 플랜별 접근 가능 여부
- 무료 플랜: GPT-5.4 출시 시 접근 불가 (추후 공지 예정)
- Plus·Team: GPT-5.4 Thinking 즉시 사용 가능, GPT-5.4 Pro는 미지원
- Pro: GPT-5.4 Thinking + GPT-5.4 Pro 모두 사용 가능
- Enterprise·Edu: 관리자 설정에서 GPT-5.4 얼리 액세스 활성화 가능
💡 비용 최적화 팁: 대량 처리가 필요한 기업이라면 Batch API(50% 할인)와 Tool Search(토큰 47% 절감)를 함께 활용하면 실질 비용을 GPT-5.2 대비 오히려 낮출 수 있습니다. gpt-5.4 입력가격은 gpt-5.2 대비 43% 비싸지만, Tool Search+Batch 조합 시 총 지출이 줄어들 수 있습니다.
실전 활용법 — 직군별 GPT-5.4 사용 전략
직장인·기획자
문서 자동화 + 프레젠테이션 생성
GDPval 83% 달성의 핵심은 금융 모델링(87.3%)과 프레젠테이션(인간 평가자 68%가 GPT-5.4 선호) 분야입니다. “이 엑셀 데이터 바탕으로 임원 보고용 PPT 20장 만들어줘”와 같은 멀티스텝 요청에서 이전 세대와 체감 차이가 큽니다. 컴퓨터 조작 기능(ChatGPT Pro)을 활용하면 실제로 파일을 열고 저장하는 단계까지 자동화됩니다.
개발자
Codex에서 /fast 모드 + Playwright 디버깅
Codex에서 GPT-5.4는 GPT-5.3-Codex를 대체합니다. /fast 모드는 최대 1.5배 빠른 토큰 속도를 제공하며, 실험적 Playwright(Interactive) 스킬로 웹·Electron 앱을 빌드하면서 실시간으로 시각 디버깅이 가능합니다. SWE-Bench Pro에서 GPT-5.3-Codex(56.8%)를 추월해 57.7%를 기록했으나, Terminal-Bench 2.0에서는 여전히 GPT-5.3-Codex(77.3%)보다 낮습니다(75.1%). 터미널 집중 작업은 아직 GPT-5.3-Codex가 소폭 유리합니다.
리서처·분석가
딥 웹 리서치 + 장문 문서 분석
BrowseComp 17%포인트 향상은 경쟁사 분석, 학술 문헌 검토, 시장 조사 등에서 실질적 차이를 만듭니다. “이 주제에 대해 흩어진 자료를 종합해 분석 보고서 써줘”류의 요청에서 GPT-5.4는 더 끈질기게 여러 라운드 검색을 이어갑니다. API에서 1M 토큰 컨텍스트를 활용하면 수백 페이지짜리 계약서나 보고서 전체를 한 번에 처리할 수 있습니다.
엔터프라이즈
Tool Search + MCP 연동 비용 최적화
250개 태스크, 36개 MCP 서버 환경에서 Tool Search만으로 토큰 비용 47% 절감을 달성했습니다. 대규모 MCP 생태계를 구축한 기업이라면 API 파라미터를 통한 Tool Search 적용이 최우선 과제입니다. 또한 Zero Data Retention(ZDR), 데이터 레지던시 엔드포인트, 구성 가능한 컴퓨터 사용 컨펌 정책 등 엔터프라이즈 보안 요구사항도 충족합니다.
안전성과 한계 — 과신하면 안 되는 이유
중요한 안전 특성 중 하나는 Chain-of-Thought(CoT) 가시성입니다. GPT-5.4는 의도적으로 추론 과정을 숨기거나 모니터링을 회피하는 능력이 매우 낮은 것으로 평가됩니다. 이는 AI 모니터링 도구가 모델의 실제 추론 과정을 신뢰성 있게 읽을 수 있다는 의미입니다. 에이전틱 작업에서 의도치 않은 행동을 모니터링 시스템이 거의 100% 감지할 수 있다는 점도 긍정적입니다.
현실적 한계
- 오류율 0이 아닌 점: 개별 클레임 오류율이 33% 감소했다는 것은 여전히 오류가 존재한다는 의미입니다. 중요한 의사결정에는 반드시 인간 검토가 필요합니다.
- GDPval 17%는 여전히 전문가 수준 미달: 83%가 고무적이지만, 100건 중 17건은 전문가보다 못한 결과물을 냅니다.
- Terminal-Bench에서 GPT-5.3-Codex보다 낮음: 터미널 집중 코딩 작업에서는 GPT-5.3-Codex(77.3%)가 GPT-5.4(75.1%)보다 소폭 우위입니다.
- 1M 토큰 컨텍스트는 실험적: ChatGPT가 아닌 Codex/API 전용이며, 272K 초과 시 2배 요금이 부과됩니다.
- 컴퓨터 사용은 사이버보안 이중 용도 우려: OpenAI는 일부 요청에 대해 ZDR 환경에서 비동기 블로킹을 적용합니다. 분류 과정에서 오탐(False Positive)이 발생할 수 있습니다.
💡 실용적 조언: 컴퓨터 조작 기능을 자동화 파이프라인에 적용할 때는 반드시 단계별 컨펌 정책을 설정하고, 실제 운영 환경 적용 전 샌드박스 테스트를 충분히 진행하세요. “AI가 알아서 하겠지”라는 신뢰는 GPT-5.4에도 금물입니다.
Q&A — 자주 묻는 5가지 질문
Q1. GPT-5.4 Thinking은 ChatGPT Plus 플랜에서 바로 쓸 수 있나요?
▾
네, 2026년 3월 5일부터 ChatGPT Plus·Team·Pro 구독자는 GPT-5.4 Thinking을 즉시 사용할 수 있습니다. 기존 GPT-5.2 Thinking을 대체하는 기본 추론 모델로 설정되어 있습니다. GPT-5.2 Thinking은 레거시 모델 드롭다운에서 2026년 6월 5일까지 계속 이용할 수 있으니, 특정 작업에 GPT-5.2가 더 적합하다면 일시적으로 전환도 가능합니다.
Q2. “컴퓨터 직접 조작” 기능은 어떻게 활성화하나요?
▾
ChatGPT에서는 Pro 또는 Enterprise 플랜이 필요하며, 별도 설정 없이 GPT-5.4 Thinking 모드에서 작업을 요청하면 필요 시 자동으로 컴퓨터 조작 기능이 활성화됩니다. API 개발자는 업데이트된 computer 툴을 파라미터에 추가해 사용하고, 개발자 메시지로 행동 방침과 컨펌 정책을 제어할 수 있습니다. Codex에서는 새로운 Playwright(Interactive) 스킬을 통해 웹 및 Electron 앱의 시각적 디버깅이 지원됩니다.
Q3. GPT-5.4와 Claude Opus 4.6 중 어떤 게 더 낫나요?
▾
lmcouncil.ai 기준 2026년 3월 벤치마크에서 GPT-5.4 Pro(74.1%)가 Claude Opus 4.6(67.6%)을 앞서고 있습니다. 특히 전문 업무(GDPval), 컴퓨터 조작(OSWorld), 웹 리서치(BrowseComp)에서는 GPT-5.4의 강점이 두드러집니다. 반면 Claude Opus 4.6은 코딩 전용 에이전트 작업과 장문 창작·추론 영역에서 여전히 강력합니다. 어느 모델이 더 낫다고 단정하기보다, 작업 성격에 따라 병행 사용하는 전략이 현명합니다. API 비용도 gpt-5.4($2.50/1M 입력)가 Claude Opus 4.6($5.00/1M 입력)의 절반 수준으로 저렴합니다.
Q4. GPT-5.2를 쓰던 API 코드, 지금 당장 GPT-5.4로 바꿔야 하나요?
▾
서두를 필요는 없습니다. API에서 gpt-5.2 모델 식별자는 현재 종료 일정이 발표되지 않았습니다(ChatGPT 인터페이스의 GPT-5.2 Thinking은 2026년 6월 5일 종료). 비용 민감한 워크플로우라면 GPT-5.4 전환 후 실제 토큰 소비량이 어떻게 변하는지 벤치마킹해보길 권장합니다. Tool Search 파라미터와 Batch API를 함께 적용하면 가격 인상분을 충분히 상쇄할 수 있는 경우가 많습니다.
Q5. GPT-5.4가 인간 업무를 대체하는 수준에 도달했나요?
▾
“특정 업무에서”는 이미 그 수준입니다. OSWorld에서 데스크탑 탐색 능력이 인간 평균(72.4%)을 초과했고, GDPval 83%는 44개 직종에서 전문가를 83% 상황에서 이기거나 비긴다는 의미입니다. 그러나 전면적 대체는 아직 이릅니다. 17%의 실패율, 높은 창의성이 요구되는 작업, 완전히 새로운 분야의 판단, 사회적 맥락을 요하는 의사결정에서는 여전히 인간의 역할이 필수적입니다. 결국 GPT-5.4를 가장 잘 활용하는 사람이 그렇지 않은 사람보다 경쟁 우위를 가지는 시대가 된 것입니다.
마치며 — GPT-5.4 시대, 우리는 어떻게 일해야 하나
개인적으로 가장 주목하는 변화는 통합화 전략입니다. GPT-5.3-Codex(코딩)와 GPT-5.2(범용)를 분리 운영하던 OpenAI가 단일 모델로 합쳤다는 것은 “가장 좋은 모델 하나가 대부분의 작업을 처리하는” 방향으로 AI 생태계가 성숙해가고 있다는 신호입니다. 사용자 입장에서는 모델 선택 피로가 줄어드는 긍정적인 변화입니다.
그러나 GPT-5.4 시대를 맞이하는 우리에게 필요한 것은 “AI가 내 일을 다 해줄 것”이라는 기대가 아닙니다. 오히려 필요한 능력은 더 정밀해졌습니다. AI에게 어떤 작업을 맡기고, 어떤 단계에서 인간이 검토·판단해야 하는지를 설계하는 능력이 이제 핵심 역량입니다. 83%를 처리하는 AI를 옆에 두고, 나머지 17%를 어디서 어떻게 잡아낼지 아는 사람이 진짜 AI 시대의 승자가 될 것입니다.
✅ 최종 요약: GPT-5.4 = OpenAI 역대 최강 통합 모델 | OSWorld 75% (인간 초월) | GDPval 83% | 환각 33% 감소 | Tool Search 토큰 47% 절감 | API $2.50/1M 입력 | ChatGPT Plus 이상 즉시 사용 가능 | GPT-5.2 Thinking은 2026년 6월 5일 종료
본 포스팅은 OpenAI 공식 발표(openai.com) 및 공개된 벤치마크 데이터를 기반으로 작성되었습니다. 요금 및 기능은 정책 변경에 따라 달라질 수 있으며, 실제 이용 전 공식 사이트를 반드시 확인하세요. 본 콘텐츠는 특정 서비스·제품의 상업적 홍보가 아닌 정보 제공을 목적으로 합니다.






댓글 남기기