GPT-5.4 컴퓨터 사용: 내 PC를 AI가 직접 조작한다, 지금 안 쓰면 뒤처진다
2026년 3월 5일, OpenAI가 범용 모델 최초로 CUA(Computer-Use Agent)를 기본 탑재한 GPT-5.4를 출시했습니다. 마우스 클릭·키보드 입력을 AI가 스스로 수행하고, OSWorld 벤치마크에서 인간 기준선까지 돌파했습니다. 이 글 하나로 핵심 기능부터 요금·실전 활용법까지 완전 정리합니다.
🖥 OSWorld 75.0% — 인간 초과
📄 컨텍스트 1.05M 토큰
🔻 환각 33% 감소
💰 입력 $2.50/M 토큰
GPT-5.4란? — 3일 만에 두 번 놀란 이유
GPT-5.4 컴퓨터 사용 기능은 OpenAI가 2026년 3월 5일 공식 발표한 차세대 프런티어 모델에 탑재된 핵심 기술입니다. 이미 3월 3일에 GPT-5.3 Instant를 내놓은 OpenAI가 불과 이틀 만에 또 다른 중량급 모델을 출시한 것은 단순한 일정 실수가 아닙니다. 이는 Anthropic의 Claude Opus 4.6와 Google Gemini 3.1 Pro의 협공에 맞서기 위한 치밀한 계층화 전략의 완성이었습니다.
GPT-5.3 Instant가 일상 대화의 80%를 저렴하게 처리하는 ‘빠른 조수’ 역할이라면, GPT-5.4는 전문가용 복합 업무를 위한 ‘고급 컨설턴트’입니다. 특히 이번 모델의 핵심 차별점은 OpenAI 범용 모델 최초로 CUA(Computer-Use Agent, 컴퓨터 사용 에이전트) 기능을 기본 내장했다는 점입니다. 이전까지 컴퓨터 조작 기능은 별도 에이전트 서비스인 ‘오퍼레이터(Operator)’를 통해서만 제한적으로 제공됐는데, 이제는 GPT-5.4 모델 자체에 직접 녹아들어 있습니다.
개인적인 시각으로 보면, 이 릴리즈는 ‘AI가 텍스트를 생성하는 도구’에서 ‘AI가 직접 컴퓨터를 다루는 에이전트’로의 전환을 공식 선언한 이정표입니다. 단순히 성능 수치가 오른 것이 아니라, AI와 인간의 협업 방식 자체가 바뀌는 변곡점이라고 생각합니다.
CUA(컴퓨터 사용) 기능 — 어떻게 내 화면을 조작하나
GPT-5.4의 CUA 기능은 AI가 화면 스크린샷을 시각적으로 분석하고, 마우스 이동·클릭·키보드 타이핑을 직접 수행해 소프트웨어와 웹사이트를 자율적으로 조작하는 능력입니다. 이전에 오퍼레이터가 웹 브라우저 조작에 한정됐다면, GPT-5.4는 데스크톱 앱까지 포함한 포괄적인 컴퓨터 제어를 지원합니다.
CUA가 실제로 하는 일
GPT-5.4는 화면의 UI 요소를 인식하고 버튼·메뉴·텍스트 필드를 찾아냅니다. 이후 클릭·드래그·타이핑·스크롤 같은 마우스·키보드 명령을 생성하고, Playwright 같은 자동화 라이브러리를 활용해 브라우저·앱 환경에서 다단계 워크플로우를 실행합니다. Codex 환경에서는 Electron 기반 데스크톱 앱도 조작할 수 있습니다.
OSWorld 벤치마크 — 인간을 넘다
데스크톱 내비게이션 능력을 측정하는 OSWorld-Verified 벤치마크에서 GPT-5.4는 75.0%를 기록했습니다. 인간의 기준선이 72.4%이므로 AI가 평균적인 인간의 컴퓨터 조작 능력을 이미 초과한 것입니다. 이전 세대인 GPT-5.2는 47.3%에 불과했으니 단번에 27.7%포인트라는 압도적인 도약을 이뤄낸 셈입니다. WebArena-Verified(DOM 기반 웹 자동화)에서도 67.3%로 GPT-5.2의 65.4%를 앞섰고, Online-Mind2Web에서는 무려 92.8%를 달성했습니다.
GPT-5.4 Thinking vs Pro — 어떤 것을 골라야 할까
OpenAI는 GPT-5.4를 두 가지 특화 라인업으로 제공합니다. 상황에 따라 올바른 모델을 선택하는 것이 비용과 성능 양쪽에서 중요합니다.
GPT-5.4 Thinking (gpt-5.4)
깊은 추론과 다단계 문제 해결에 최적화된 표준 모델입니다. 가장 혁신적인 특징은 사고 과정 모니터링(Chain-of-Thought Monitorability)입니다. 모델이 응답을 완성하기 전에 내부 추론 계획(Plan)을 먼저 사용자에게 보여주며, 사용자는 이 단계에서 방향이 잘못됐다면 즉시 개입해 수정 지시를 내릴 수 있습니다. 이는 불필요한 프롬프트 반복을 줄여 시간과 토큰 비용을 동시에 절감합니다. ChatGPT Plus·Team·Pro 사용자라면 바로 접근 가능하며, API에서는 model 값 `gpt-5.4`로 호출합니다.
GPT-5.4 Pro (gpt-5.4-pro)
엔터프라이즈급 최고난도 작업을 위한 고성능 모델입니다. 더 많은 컴퓨팅 자원을 투입해 더 깊게 생각하며, 복잡한 쿼리에 수 분이 걸릴 수 있어 백그라운드 모드 실행이 권장됩니다. 현재 API에서는 Responses API를 통해서만 제공되며, ChatGPT Pro·Enterprise 사용자가 접근할 수 있습니다. API 가격은 입력 $30/M 토큰, 출력 $180/M 토큰으로 표준 Thinking보다 12배 비쌉니다. 금융 시뮬레이션·의료 데이터 분석·대규모 코드베이스 리팩토링처럼 극한 정확도가 필요한 경우에만 투입하는 것이 합리적입니다.
성능 벤치마크 — 숫자로 보는 GPT-5.4의 위치
GPT-5.4의 성능은 OpenAI 공식 발표 데이터와 업계 독립 벤치마크를 통해 여러 방면에서 확인됩니다. 아래 표에서 주요 지표를 GPT-5.2·GPT-5.3-Codex와 비교해 확인할 수 있습니다.
| 벤치마크 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (전문 업무 종합, 승/동점) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro (코딩, Public) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified (데스크톱 조작) | 75.0% | 74.0% | 47.3% |
| Toolathlon (도구 호출 정확도) | 54.6% | 51.9% | 46.3% |
| BrowseComp (웹 탐색·정보 검색) | 82.7% | 77.3% | 65.8% |
| 금융 모델링 (투자은행급) | 87.3% | — | 68.4% |
| MMMU-Pro (시각 추론) | 81.2% | — | 79.5% |
| 환각(할루시네이션) 감소율 | -33% | — | 기준 |
GDPval은 경제학·법률·의학·금융·교육 등 9개 분야 44개 전문 업무를 평가하는 포괄적 벤치마크입니다. GPT-5.4가 83.0%로 GPT-5.2의 71.0%를 12%포인트 이상 앞서며 압도적으로 선두를 달리고 있습니다. 금융 모델링 수치 역시 68.4%에서 87.3%로의 도약은 현업 재무 분석가들에게는 게임체인저급 수치입니다.
실전 활용법 5가지 — 당장 써먹는 CUA 시나리오
GPT-5.4 컴퓨터 사용 기능이 실제 업무에서 가장 빛나는 5가지 시나리오를 소개합니다. 단순히 “이런 것도 된다”는 소개가 아니라, 실제 워크플로에서 어떻게 세팅하고 활용하는지 구체적으로 설명합니다.
경쟁사 가격 모니터링, 주기적인 관공서 공시 데이터 수집 같은 반복 웹 탐색 작업에 CUA를 활용하면 됩니다. GPT-5.4에게 “매일 오전 9시에 A사이트의 특정 표 데이터를 긁어서 Google Sheets에 추가해줘”라고 지시하면, 이후 로그인·클릭·복사·붙여넣기를 스스로 처리합니다. BrowseComp 82.7%라는 수치가 실제 웹 탐색의 신뢰성을 보장합니다.
이번 GPT-5.4 출시와 함께 베타로 공개된 ChatGPT for Excel 애드온을 활용하면, Excel 워크북에 AI를 직접 내장할 수 있습니다. “이 매출 데이터로 DCF 모델을 만들어줘”라고 입력하면 수식 생성·시나리오 분석·차트 생성까지 자동화됩니다. Moody’s·MSCI·Dow Jones Factiva 같은 외부 금융 데이터베이스와의 연동도 지원합니다.
Codex 환경에서 GPT-5.4에 Playwright Interactive 스킬을 연동하면, 브라우저와 Electron 기반 데스크톱 앱에 대한 E2E 테스트를 완전 자동화할 수 있습니다. 코드 수정 후 “변경된 기능에 대한 회귀 테스트를 실행하고 실패 케이스를 GitHub 이슈로 등록해줘”라고 지시하면 이 모든 과정을 연속으로 처리합니다.
GPT-5.4의 신규 도구 검색(Tool Search) 메커니즘은 필요한 도구 정의를 실시간으로 찾아 불러오므로, 모든 도구 정의를 컨텍스트에 미리 담아둘 필요가 없습니다. OpenAI 내부 테스트에서 도구 호출 관련 토큰 사용량이 47% 감소했습니다. 수십 개의 커스텀 함수를 보유한 기업이라면 API 비용이 사실상 절반 가까이 줄어드는 효과입니다.
GPT-5.4 Thinking의 CoT 모니터링 기능은 API `reasoning_content` 스트리밍 객체를 통해 AI의 추론 로그를 그대로 저장할 수 있게 해줍니다. 금융 규제 감사나 의료 데이터 분석 보고서에서 “AI가 왜 이런 결론을 냈는지”를 문서화해야 하는 경우, 이 로그가 컴플라이언스 아티팩트로 활용될 수 있습니다. 단순 대화 요약이 아닌 진짜 설명 가능한(Explainable) AI의 실현입니다.
API 빠른 시작 코드
import openai
client = openai.OpenAI(api_key="YOUR_API_KEY")
# GPT-5.4 기본 호출 — 컴퓨터 사용(CUA) 활성화
response = client.chat.completions.create(
model="gpt-5.4",
messages=[
{"role": "system", "content": "당신은 전문 재무 분석가입니다."},
{"role": "user", "content": "제공된 10년 재무 데이터를 분석해 핵심 성장 지표를 엑셀 구조로 정리하세요."}
],
max_tokens=4096,
temperature=0.2
)
print(response.choices[0].message.content)
요금 완전 정리 — GPT-5.2 대비 얼마나 올랐나
GPT-5.4는 GPT-5.2 대비 성능이 크게 향상된 만큼 API 가격도 올랐습니다. 그러나 Tool Search로 토큰 사용량 47%가 줄어드는 것을 감안하면 실질 비용 증가는 표면 수치보다 적습니다. 아래 표로 모든 모델의 가격을 한눈에 확인할 수 있습니다.
| 모델 (API) | 입력 (100만 토큰당) | 캐시 입력 | 출력 (100만 토큰당) |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14 |
| gpt-5.4 | $2.50 | $0.25 | $15 |
| gpt-5.2-pro | $21 | — | $168 |
| gpt-5.4-pro | $30 | — | $180 |
| gpt-5.3-chat-latest (Instant) | ~$0.30 | — | ~$1.20 |
컨텍스트 윈도우 관련 주의사항도 있습니다. 표준 272K 토큰을 초과하는 초장문 프롬프트를 입력할 경우, 입력 요금은 2배, 출력 요금은 1.5배로 할증 적용됩니다. 1.05M 전체 컨텍스트를 자주 사용하는 경우라면 비용 계획을 별도로 세워야 합니다.
경쟁 구도 — Claude Opus 4.6, Gemini 3.1 Pro와 비교
GPT-5.4가 출시된 배경에는 Anthropic과 Google의 강력한 도전이 있었습니다. 세 모델은 서로 다른 분야에서 각자의 강점을 유지하고 있으며, “단일 최강 모델”은 존재하지 않습니다.
| 시나리오 | 추천 모델 | 근거 |
|---|---|---|
| 전문 보고서·PPT·복합 문서 | GPT-5.4 | GDPval 83.0% 업계 최고 |
| 데스크톱 자동화·CUA | GPT-5.4 | OSWorld 75.0% (인간 기준선 초과) |
| 프로덕션급 코딩·버그 수정 | Claude Opus 4.6 | SWE-Bench 80.8% 업계 최고 |
| 과학 연구·심층 추론 | Gemini 3.1 Pro | GPQA 94.3%, ARC-AGI 77.1% |
| 초장문 문서 처리 | Gemini 3.1 Pro | 컨텍스트 2M 토큰 (최대) |
| 비용 민감형 일상 대화 | GPT-5.3 Instant | ~$0.30/M 극저가 |
| 고정밀 시각 이해 | Claude Opus 4.6 | MMMU-Pro 85.1% 최고 |
저는 이 경쟁 구도를 보면서 오히려 사용자 입장에서는 지금이 AI 활용의 황금기라는 생각이 듭니다. 불과 1년 전이라면 하나의 도구에 의존할 수밖에 없었지만, 지금은 목적에 따라 Claude·Gemini·GPT를 선택적으로 사용하는 ‘멀티 모델 전략’이 실질적인 가치를 만들어 냅니다. 특히 CUA 기능이 필요한 자동화 업무라면 GPT-5.4가 현재 가장 완성도 높은 선택입니다.
❓ 자주 묻는 질문 (Q&A)
GPT-5.4 컴퓨터 사용(CUA) 기능을 무료로 쓸 수 있나요?
GPT-5.4와 GPT-5.3 Instant는 어떻게 다른가요? 어떤 걸 써야 하나요?
CUA 기능을 쓸 때 보안 위험은 없나요?
ChatGPT for Excel은 한국에서 사용할 수 있나요?
GPT-5.4의 1.05M 토큰 컨텍스트를 쓰면 비용이 얼마나 나오나요?
✍️ 마치며 — 총평
GPT-5.4는 단순히 “GPT-5.2보다 좀 더 좋아진 모델”이 아닙니다. AI가 텍스트를 생성하는 도구에서, AI가 직접 컴퓨터를 조작하는 에이전트로 진화했다는 선언입니다. OSWorld 75.0%로 인간 기준선을 돌파한 CUA 기능, CoT 모니터링으로 구현된 투명한 추론, 47% 토큰 절감의 Tool Search — 이 세 가지가 맞물리면 지금까지와는 질적으로 다른 AI 활용이 가능해집니다.
물론 한계도 분명합니다. 코딩 전용 에이전트로서는 여전히 Claude Opus 4.6에 밀리고, 과학적 추론에서는 Gemini 3.1 Pro가 앞섭니다. GPT-5.4 Pro의 가격($30/M 입력)은 개인 사용자에게는 부담스러운 수준이기도 합니다. 그러나 ‘종합 에이전트 업무’라는 맥락에서는 현존 최고 수준의 완성도를 갖춘 것이 사실입니다.
제 솔직한 평가는 이렇습니다. 지금 당장 CUA 기능을 일상 업무에 도입하지 않아도 뒤처지지는 않습니다. 하지만 6개월 후, 12개월 후에 AI 에이전트가 업무 자동화의 표준이 됐을 때 “그때 미리 배워둘걸”이라고 후회하지 않으려면, 지금이 실험을 시작할 적기입니다. 적어도 ChatGPT Plus 구독 상태라면, 오늘 당장 GPT-5.4에게 반복적으로 하는 업무 하나를 맡겨보는 것을 권합니다.
※ 본 포스팅은 OpenAI 공식 발표 자료 및 업계 분석을 바탕으로 작성되었습니다. 가격·스펙·가용 지역 등의 세부 사항은 OpenAI 정책에 따라 변경될 수 있으며, 최신 정보는 openai.com 공식 사이트에서 확인하시기 바랍니다. 본 글은 투자 또는 구매 권유를 목적으로 하지 않습니다.


댓글 남기기