GPT-5.4 완전정복: AI가 마우스를 잡는 시대의 진짜 의미

Published on

in

GPT-5.4 완전정복: AI가 마우스를 잡는 시대의 진짜 의미

🔥 2026.03.05 공식 출시

OpenAI 최초 컴퓨터 자율 조작 탑재 — 인간 성능(72.4%) 초과 달성

75.0%
OSWorld 점수
(인간 72.4% 초과)
83.0%
GDPval
(44개 직종 지식노동)
1M
토큰 컨텍스트
(Codex/API)
-33%
환각 오류율
(GPT-5.2 대비)

📅 2026년 3월 14일 기준 최신 공식 데이터 반영 | 출처: OpenAI 공식 발표

GPT-5.4는 2026년 3월 5일, OpenAI가 공개한 역대 가장 도발적인 모델입니다. 단순히 텍스트를 잘 쓰는 것이 아니라, AI가 처음으로 마우스와 키보드를 직접 쥐고 컴퓨터를 스스로 조작하는 시대를 열었습니다. OSWorld 벤치마크에서 인간 평균 성능(72.4%)을 상회하는 75.0%를 기록한 이 모델은, 이제 AI가 “생각하는 도구”를 넘어 “일하는 직원”에 가까워졌음을 공식 선언하고 있습니다.

이 글에서는 GPT-5.4의 핵심인 CUA(Computer Use Agent) 기능의 실체, 벤치마크가 현실에서 의미하는 바, 요금제별 접근 방법, 그리고 경쟁 모델(Claude Opus 4.6, Gemini 3.1 Pro)과의 냉정한 비교까지 한 번에 정리합니다.

OpenAI는 2026년 3월 5일, ChatGPT(GPT-5.4 Thinking), API, Codex 전 채널에 걸쳐 GPT-5.4를 동시 공개했습니다. 이 모델의 정체를 이해하려면 먼저 직전 모델인 GPT-5.3과의 계보를 짚어야 합니다. GPT-5.3은 크게 두 갈래로 나뉘어졌는데, 일상적 속도를 위한 GPT-5.3 Instant(3월 3일 공개)와 코딩 전문 에이전트인 GPT-5.3 Codex가 그것입니다. GPT-5.4는 이 두 갈래를 하나의 프론티어 모델로 통합한 버전이며, 여기에 더해 네이티브 컴퓨터 사용 능력까지 추가한 것이 핵심입니다.

코딩 능력은 GPT-5.3 Codex와 동등하거나 그 이상을 유지하면서도 일반 추론, 지식 노동, 시각 이해, 장문 컨텍스트까지 모두 커버하는 통합 모델이 탄생한 것입니다. OpenAI가 “GPT-5.4″라는 이름을 붙인 것은 단순한 마이너 업데이트가 아니라 “Codex와의 통합”이라는 아키텍처 수준의 도약을 반영하기 위함이라고 공식 설명했습니다.

모델명 출시일 컨텍스트 핵심 포인트
GPT-5.2 2025 하반기 128K 범용 추론, 비교적 높은 환각율
GPT-5.3 Instant 2026.3.3 400K 빠른 응답, 일상 작업 특화
GPT-5.3 Codex 2026 초 272K 코딩 에이전트 전문, CUA 초기 탑재
GPT-5.4 ★ 2026.3.5 1M (API) 통합 프론티어 + 네이티브 CUA + 환각 -33%

※ ChatGPT UI 컨텍스트는 128K이며, 1M 컨텍스트는 Codex 및 API 환경에서만 적용됩니다.

▲ 목차로 돌아가기

CUA(컴퓨터 사용 에이전트): AI가 내 화면을 직접 조작한다

GPT-5.4에서 가장 혁신적인 기능은 단연 네이티브 CUA(Computer Use Agent)입니다. CUA는 AI가 사용자의 컴퓨터 화면을 스크린샷으로 인식하고, 가상 마우스 클릭과 키보드 입력 명령을 내려 실제 소프트웨어와 웹사이트를 조작하는 기술입니다. 과거에도 Claude Opus 4.5의 컴퓨터 사용 기능이나 OpenAI Atlas Agent Mode 등이 있었지만, 범용(general-purpose) 프론티어 모델에 기본 내장된 것은 GPT-5.4가 처음입니다.

CUA의 작동 방식은 크게 두 가지로 나뉩니다. 첫째는 Playwright 같은 자동화 라이브러리를 통해 코드를 작성해 컴퓨터를 조작하는 방식이고, 둘째는 스크린샷에 직접 반응해 마우스·키보드 명령을 발급하는 방식입니다. API에서는 업데이트된 computer 툴을 통해 이 두 방식을 모두 쓸 수 있으며, 개발자는 모델의 안전 행동을 커스텀 확인 정책으로 조정할 수 있습니다.

💡 CUA가 실무에서 할 수 있는 일

회계 소프트웨어에 로그인 → 데이터 입력 → 보고서 출력 → 이메일로 전송까지 사람이 하던 반복 업무를 AI가 대신 처리합니다. 서울 오피스의 ERP 시스템도, SaaS 관리자 대시보드도, CUA 앞에서는 단순한 “화면”에 불과합니다.

시각 인식 해상도 개선 — `original` 파라미터의 등장

▲ 목차로 돌아가기

벤치마크 수치가 실무에서 의미하는 것

GPT-5.4의 벤치마크는 단순 학술 점수가 아닙니다. OpenAI가 공개한 주요 지표들은 모두 “실제 직장인이 매일 하는 업무”를 시뮬레이션한 것들입니다. 숫자가 어떤 현실을 가리키는지 직접 뜯어봐야 합니다.

벤치마크 GPT-5.4 GPT-5.2 무엇을 측정하나
OSWorld-Verified 75.0% 47.3% 데스크탑 화면 탐색, 마우스·키보드 자율 조작
GDPval 83.0% 70.9% 44개 직종 실제 지식 노동(발표자료, 회계, 일정 등)
SWE-Bench Pro 57.7% 55.6% 실제 GitHub 이슈 해결 (소프트웨어 엔지니어링)
BrowseComp 82.7% 65.8% 웹 에이전트 검색: 찾기 어려운 정보 추적 능력
IB 모델링 (내부) 87.3% 68.4% 투자은행 주니어 애널리스트급 엑셀 모델링

제가 가장 주목하는 수치는 GDPval 83.0%입니다. 이 벤치마크는 미국 GDP 상위 9개 산업에 걸친 44개 직종을 대상으로 “실제 업무 산출물”을 평가합니다. 영업 발표 자료 작성, 회계 스프레드시트 모델링, 긴급 진료 일정 조율, 제조 다이어그램 제작까지 포함됩니다. 83%라는 수치는 단순히 “AI가 잘한다”가 아니라, 같은 작업을 주어진 산업 전문가들보다 더 나은 결과물을 83%의 확률로 만들어낸다는 의미입니다. 당장 화이트칼라 노동 시장에 주는 충격이 적지 않을 것입니다.

▲ 목차로 돌아가기

요금제 완전 정리 — 어떤 플랜에서 GPT-5.4를 쓸 수 있나?

플랜 가격(월) GPT-5.4 Thinking GPT-5.4 Pro Codex
Free 무료
Go $8 (~₩13,000)
Plus $20 (~₩29,000) ✅ 한도 있음
Pro ★ $200 (~₩299,000) ✅ 무제한 ✅ 접근 가능 ✅ 확장
Business/Enterprise 문의 ⚙️ 유연 ⚙️ 유연

⚠️ 중요 안내

▲ 목차로 돌아가기

API 가격 심층 분석 — 토큰 효율과 경쟁 모델 비교

개발자·기업 입장에서 GPT-5.4를 선택할 때 가장 먼저 묻는 것은 “얼마나 비싸냐”입니다. OpenAI 공식 가격표에 따르면 API 기준 GPT-5.4는 입력 토큰 100만 개당 $2.50, 출력 100만 개당 $15.00입니다. 전작 GPT-5.2($1.75/$14)보다 소폭 오른 가격이지만, OpenAI는 “토큰 효율이 크게 높아져 동일 작업에 소모되는 총 토큰이 줄었다”고 강조합니다.

모델 입력 (1M 토큰) 출력 (1M 토큰) 비고
gpt-5.2 $1.75 $14.00 캐시 입력 $0.175
gpt-5.4 ★ $2.50 $15.00 캐시 입력 $0.25
gpt-5.2-pro $21.00 $168.00 최고 성능 전용
gpt-5.4-pro $30.00 $180.00 최고 성능 전용
Claude Opus 4.6
(경쟁 모델)
$5.00 $25.00 Anthropic
Gemini 3.1 Pro
(경쟁 모델)
$2.00 $12.00 Google

배치(Batch) 및 Flex 처리를 이용하면 표준 API 가격의 절반 수준으로 사용할 수 있고, 반대로 우선순위 처리(Priority Processing)는 표준 가격의 2배입니다. 경쟁 모델과 단순 가격만 비교하면 Gemini 3.1 Pro($2/$12)가 저렴해 보이지만, CUA 기능·통합 코딩·벤치마크 성능을 종합하면 GPT-5.4의 가성비가 사용 목적에 따라 오히려 유리할 수 있습니다. 특히 Codex 에이전트와 함께 장시간 에이전틱 워크플로우를 돌릴 경우, 토큰 효율 향상 덕분에 실질 비용이 GPT-5.2와 큰 차이가 없거나 낮아질 수 있다는 점을 고려해야 합니다.

▲ 목차로 돌아가기

Tool Search: 토큰 비용을 47% 줄이는 새 기능

Tool Search는 이 문제를 해결합니다. 모델에게 “사용 가능한 도구 목록만 가볍게” 전달하고, 실제로 특정 도구가 필요할 때만 해당 툴 정의를 동적으로 조회해 컨텍스트에 추가하는 방식입니다. OpenAI가 Scale의 MCP Atlas 벤치마크 250개 작업으로 테스트한 결과, 36개 MCP 서버를 모두 활성화한 상태에서 토큰 사용량이 47% 감소하면서 동일한 정확도를 유지했습니다.

💡 기업 개발팀에게 의미하는 바

Slack + Jira + Google Calendar + GitHub + Salesforce를 동시에 연결한 복잡한 에이전트 워크플로우를 구축한다고 가정해 보세요. 이전에는 전체 MCP 서버 스펙이 프롬프트에 실려 요청마다 수만 토큰이 기본으로 소모됐지만, Tool Search를 활용하면 실제로 사용된 도구 정의만 동적으로 로드되어 비용이 절반 이하로 떨어질 수 있습니다.

Thinking Preamble: AI의 사고 계획을 중간에 수정하다

ChatGPT에서의 GPT-5.4 Thinking에는 사전 사고 계획(Upfront Plan of Thinking) 기능도 추가됐습니다. AI가 긴 작업을 시작할 때 먼저 “이렇게 진행하겠습니다”라는 계획을 제시하고, 사용자는 결과물이 완성되기 전에 방향을 수정할 수 있습니다. 여러 번의 대화 턴을 아껴주는 동시에, AI가 엉뚱한 방향으로 수천 토큰을 소모하는 낭비를 막아줍니다. 현재 chatgpt.com과 Android 앱에서 제공 중이며 iOS는 곧 출시 예정입니다.

▲ 목차로 돌아가기

솔직한 총평 — GPT-5.4가 ‘게임체인저’인 이유와 한계

솔직하게 말하면, GPT-5.4는 지금까지 나온 GPT 시리즈 중 처음으로 “AI가 일을 하는 게 체감된다”는 느낌을 주는 모델입니다. 텍스트를 잘 생성하는 것과 실제로 내 PC에서 엑셀을 열고, 데이터를 입력하고, 차트를 저장하는 것은 완전히 다른 차원의 이야기입니다. OSWorld 75%라는 숫자는 “인간보다 낫다”가 아니라, “적어도 많은 반복 업무는 대체 가능하다”는 실용적인 기준선을 넘었다는 뜻입니다.

그러나 한계도 분명합니다. 첫째, 1M 컨텍스트는 API/Codex 전용이며 일반 ChatGPT UI에서는 여전히 128K입니다. 둘째, GPT-5.4 Pro의 API 가격($30/$180)은 매우 비쌉니다. 개인 개발자가 매일 무거운 작업을 돌리기엔 부담스러운 수준입니다. 셋째, CUA 기능은 아직 보안 측면에서 “신뢰할 수 있는 환경” 내에서만 조심스럽게 사용해야 하며, 임의 웹사이트나 불투명한 엔터프라이즈 환경에서의 오작동 리스크는 아직 검증 중입니다. OpenAI 스스로도 이 모델을 “High Cyber Capability” 등급으로 분류하고 추가 모니터링 시스템을 배포 중이라고 밝혔습니다.

결론적으로, GPT-5.4는 개인 일상 사용자보다는 에이전트 기반 자동화를 구축하는 개발자·기업에게 진짜 가치 있는 모델입니다. ChatGPT Plus($20/월) 이용자는 GPT-5.4 Thinking에 제한적으로 접근할 수 있으므로, 새로운 Thinking Preamble 기능과 향상된 웹 리서치 품질을 일상 업무에 활용해 보는 것은 충분히 의미 있는 시도입니다.

▲ 목차로 돌아가기

Q&A — GPT-5.4에 대해 자주 묻는 5가지 질문

Q1. GPT-5.4와 GPT-5.3 Codex 중 어떤 것을 써야 하나요?

코딩만 집중적으로 한다면 GPT-5.3 Codex가 아직도 유효한 선택입니다. 그러나 코딩 + 문서 작성 + 데이터 분석 + 컴퓨터 자율 조작을 하나의 에이전트로 묶어야 한다면 GPT-5.4가 훨씬 유리합니다. SWE-Bench Pro 기준으로 두 모델은 거의 동등(57.7% vs 56.8%)하므로 코딩 성능만으로는 차이가 크지 않습니다. Codex에서는 GPT-5.4로 자동 교체를 권고하고 있습니다.
Q2. ChatGPT 무료 플랜 사용자도 GPT-5.4를 쓸 수 있나요?

아니요. GPT-5.4 Thinking은 Plus 플랜 이상($20/월, 한국 약 ₩29,000)에서만 이용 가능합니다. 무료와 Go($8) 플랜에서는 GPT-5.2 Instant만 사용 가능하며 Thinking 모드 자체가 잠겨 있습니다. 다만 GPT-5.4 Pro($30/$180 API)는 Pro 플랜($200/월) 전용으로, 최고 성능 워크플로우가 목적인 전문가 대상입니다.
Q3. CUA(컴퓨터 사용 에이전트)를 지금 당장 내 PC에서 쓸 수 있나요?

CUA는 Codex 및 API 환경에서 활성화됩니다. ChatGPT 웹 UI에서는 직접적인 데스크톱 조작은 아직 불가능하며, Agent Mode와 Deep Research 형태의 웹 브라우저 제어가 제공됩니다. API에서는 업데이트된 computer 툴을 통해 스크린샷 기반 마우스·키보드 조작을 구현할 수 있으며, Codex에서는 Playwright Interactive 실험적 스킬이 제공됩니다.
Q4. 기존에 GPT-5.2 Thinking을 쓰고 있었는데 어떻게 되나요?

Q5. Claude Opus 4.6 vs GPT-5.4, 어떤 모델이 더 낫나요?

용도에 따라 다릅니다. 정밀한 코드 리뷰·장문 프로덕션 코딩은 Claude Opus 4.6이 여전히 강점이며, API 가격은 입력 $5/출력 $25로 GPT-5.4보다 비쌉니다. 반면 컴퓨터 자율 조작 + 에이전틱 워크플로우 + 멀티툴 환경에서는 GPT-5.4의 CUA와 Tool Search가 우세합니다. 일반 업무 자동화 파이프라인이라면 GPT-5.4의 가격 경쟁력과 통합성이 실질적 이점을 줄 가능성이 높습니다.

▲ 목차로 돌아가기

마치며 — “AI가 일하는 시대”의 시작점에서

Plus 사용자라면 당장 GPT-5.4 Thinking으로 교체하고, 길고 복잡한 문서 분석이나 심층 웹 리서치를 시도해 보시길 추천합니다. 개발자라면 Tool Search와 CUA를 API에서 테스트하고, 기존 Codex 워크플로우를 GPT-5.4로 전환하는 것을 적극 고려하세요. AI가 진짜로 일하기 시작하는 시대, 지금이 바로 준비해야 할 타이밍입니다.

▲ 목차로 돌아가기

※ 본 콘텐츠는 OpenAI 공식 발표 자료(openai.com/index/introducing-gpt-5-4/)를 바탕으로 2026년 3월 14일 기준으로 작성되었습니다. API 가격 및 요금제 정책은 OpenAI의 사전 고지 없이 변경될 수 있으므로, 실제 도입 전 반드시 OpenAI 공식 사이트에서 최신 정보를 확인하시기 바랍니다. 본 글은 특정 서비스 가입을 권유하는 광고가 아닙니다.


댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기