GPT-5.4 완전정복: 컴퓨터 직접 조작하는 AI, 지금 뭐가 달라졌나
2026년 3월 5일, OpenAI가 GPT-5.4를 전격 출시했습니다. 이번엔 단순한 버전 업그레이드가 아닙니다.
AI가 처음으로 마우스와 키보드를 직접 조작하는 ‘컴퓨터 사용(CUA)’ 기능을 메인라인에 탑재했고,
인간 전문가 기준선을 벤치마크에서 돌파했습니다. 무엇이 진짜 달라졌는지, 지금 바로 확인하세요.
🖥 컴퓨터 직접 조작
📊 OSWorld 75.0% (인간 기준선 초과)
💰 Thinking: $2.50/1M 토큰
🔓 Plus 이상 사용 가능
GPT-5.4, 이번엔 진짜 다른 게 맞나요?
솔직하게 말하겠습니다. GPT-5.1, 5.2, 5.3… 숫자만 오르는 업데이트에 피로감을 느끼는 분들이 많습니다.
하지만 GPT-5.4는 그 피로감을 느끼게 만든 바로 그 흐름의 분기점입니다.
이전까지의 업데이트가 “더 똑똑하게”를 향했다면, GPT-5.4는 처음으로 “더 잘 일하게”로 방향을 틀었습니다.
가장 핵심적인 변화는 컴퓨터 사용(Computer Use, CUA) 기능의 메인라인 탑재입니다.
이전까지 이 기능은 Claude Computer Use나 ChatGPT Operator처럼 별도 제품·서비스에서만 제한적으로 제공됐습니다.
AI가 직접 앱을 열고, 클릭하고, 데이터를 입력하는 작업을 수행합니다.
AI 연구 벤치마크인 OSWorld에서 GPT-5.4는 75.0%를 기록했습니다.
인간 전문가의 평균 기준선 72.4%를 OpenAI 메인라인 모델 최초로 넘어선 수치입니다.
이전 GPT-5.2가 같은 벤치마크에서 47.3%를 기록했던 것과 비교하면 실로 도약에 가깝습니다.
이 차이가 이번 업데이트를 단순한 숫자 올리기와 구분 짓는 핵심입니다.
3가지 티어 완벽 해설: Instant·Thinking·Pro
이제 사용자는 세 가지 티어 중 상황에 맞는 것을 선택할 수 있습니다.
세 티어 모두 동일한 GPT-5.4 기반 엔진을 공유하지만, 추론에 투입하는 컴퓨팅 예산과 제한이 다릅니다.
| 표시명 | 추론 깊이 | API 모델명 | 월 접근 플랜 | API 입력 단가 |
|---|---|---|---|---|
| Instant 5.3 | 없음 (즉답) | gpt-5.3 |
무료 포함 전체 | – |
| Thinking 5.4 | high (컴팩션 가능) | gpt-5.4 |
Plus($20), Team, Pro, Enterprise | $2.50/1M |
| Pro 5.4 | xhigh (예산 무제한) | gpt-5.4-pro |
Pro($200), Enterprise 전용 | $30.00/1M |
Auto 모드는 무엇인가?
모델 선택 화면 최상단의 Auto 옵션은 라우팅 레이어입니다.
질문의 복잡도를 자동으로 감지해 Instant 5.3과 Thinking 5.4 중 적합한 모델로 연결합니다.
API 상에서는 gpt-5-chat-latest로 매핑됩니다.
간단한 일상 질문은 빠르게, 복잡한 분석 요청은 깊게 처리하므로
ChatGPT 일반 사용자라면 Auto를 기본으로 쓰는 것이 가장 합리적인 선택입니다.
gpt-5.4-pro는 Chat Completions API를 지원하지 않습니다.반드시 Responses API(
/v1/responses)를 통해서만 호출할 수 있습니다.기존 코드를 Pro 5.4로 업그레이드하려면 API 마이그레이션이 필수입니다.
핵심 기능 7가지 — 직장인 시각으로 뜯어보기
기술 발표 자료에서 나열식으로 제시된 기능들을 실제 한국 직장인의 업무 맥락에서 재해석해 보겠습니다.
1컴퓨터 사용 (Computer Use) — AI가 직접 앱을 제어합니다. 뒤 섹션에서 자세히 설명합니다.
2100만 토큰 컨텍스트 — 기본값은 272K 토큰이지만, API 파라미터 설정으로 최대 100만 토큰까지 늘릴 수 있습니다. 전체 코드베이스, 수백 페이지 법률 문서, 대규모 데이터셋을 단일 요청으로 처리할 수 있게 됩니다. 단, 272K 초과 구간부터는 요금이 2배로 과금되므로 비용 계획이 필요합니다.
3Tool Search — 에이전트 워크플로우에서 모든 도구를 한 번에 로드하는 대신 필요한 것만 검색해 가져옵니다. MCP Atlas 벤치마크 기준 동일 정확도에서 토큰 사용량 47% 절감 효과가 검증됐습니다. API 비용이 걱정되는 개발자에게는 사실상 가장 현실적인 업그레이드입니다.
4컨텍스트 컴팩션 — 긴 멀티턴 에이전트 실행 시, 이전 대화의 맥락을 암호화된 요약 형태로 압축해 다음 턴에 전달합니다. AI가 100단계 이상의 자율 작업에서도 초기 목표와 논리적 흐름을 잃지 않게 됩니다. “아까 말한 거 왜 잊었어?”라는 경험이 대폭 줄어들 것으로 기대됩니다.
5코딩 통합 (GPT-5.3-Codex 흡수) — 기존에 별도로 제공되던 Codex 코딩 모델의 역량이 GPT-5.4 메인라인에 통합되었습니다. SWE-bench Pro 기준 57.7%로, 별도 모델 없이 하나의 API 호출로 코딩·추론·컴퓨터 조작을 모두 처리할 수 있습니다.
6비즈니스 워크플로우 강화 — Microsoft Excel 및 Google Sheets 금융 플러그인을 통한 재무 분석 자동화, 스프레드시트·문서·프레젠테이션 생성·편집 성능 향상, 개별 사실 오류 33% 감소, 오류 포함 전체 응답 18% 감소(vs GPT-5.2)가 공식 발표됐습니다.
7스티어빌리티 (실시간 방향 수정) — AI가 복잡한 작업을 수행하는 도중에 사용자가 개입해 즉시 방향을 바꿀 수 있습니다. 코딩 중 “그 방식 말고 이쪽으로 해줘”라고 말하면 AI가 즉각 논리 회로를 전환합니다. 긴 작업에서의 시행착오를 대폭 줄여줄 기능입니다.
컨텍스트 확장과 오류 감소는 분명히 중요하지만, “AI가 내 대신 클릭을 한다”는 경험이
일반 사용자에게 주는 충격은 수치로 표현되는 다른 기능들과 질적으로 다릅니다.
컴퓨터 사용(CUA): AI가 대신 마우스를 잡다
AI가 직접 브라우저를 열고, 앱을 탐색하며, 양식을 채우고, 파일을 저장하는 일련의 작업을
별도의 자동화 도구 없이 수행합니다. 더 이상 “AI에게 설명해주면 내가 실행”하는 구조가 아닙니다.
이전 모델과의 결정적 차이: Stateless → Stateful
이전 작업에서 어디까지 했는지를 기억하며 다음 단계로 자연스럽게 이어갑니다.
이를 통해 토큰 사용량이 약 2/3 절감된다고 OpenAI는 밝혔습니다.
실전 데모: OpenAI가 공개한 자율 쇼케이스
| 프로젝트 | 소요 시간 | 핵심 내용 |
|---|---|---|
| 회계 장부 정리 (Quicken) | 수 분 이내 | 앱 실행 → UI 탐색 → 데이터 입력 → 저장까지 자율 처리 |
| 도시 생성기 (City Generator) | ~1시간 | 7단계 이상 계획 수립 후 자율 실행, 화면 캡처로 UI 직접 분석 및 자가 수정 |
| 비행 시뮬레이터 | ~3시간 | 단 한 번의 프롬프트로 로컬 개발부터 웹 서버 배포까지 완결 |
| Gmail 자동화 | 수초 이내 | 특정 이메일 분석 → 지정 주소로 답장 전송 완료 |
| 커피숍 웹사이트 | – | 디자인 시안 분석 → 최적 이미지 4개 병렬 생성 → 원본 대조 검증 |
한국 직장인 맥락에서 바로 적용 가능한 시나리오를 생각해보면, 매달 반복되는 엑셀 보고서 작성,
특정 웹사이트에서 데이터를 수집해 정리하는 작업, 반복적인 이메일 분류와 회신 초안 생성 등이
물론 현재는 Codex 환경에서 주로 구현되며, ChatGPT 일반 UI에서의 제한적 지원과는 차이가 있습니다.
구독 플랜별 접근 권한 & API 요금표
API를 사용하는 개발자라면 요금 구조를 정확히 파악해야 비용 폭탄을 피할 수 있습니다.
플랜별 접근 가능 티어
| 구독 플랜 | 월 요금 | Instant 5.3 | Thinking 5.4 | Pro 5.4 |
|---|---|---|---|---|
| Free | 무료 | ✅ | ❌ | ❌ |
| Plus | $20 (약 2.9만원) | ✅ | ✅ | ❌ |
| Team | $25~30/인 | ✅ | ✅ | ❌ |
| Pro | $200 (약 29만원) | ✅ | ✅ | ✅ |
| Enterprise | 별도 협의 | ✅ | ✅ | ✅ |
API 토큰 단가 및 실전 비용 시뮬레이션
| 모델 | 입력 (per 1M) | 캐시 입력 (per 1M) | 출력 (per 1M) |
|---|---|---|---|
| gpt-5.2 (참고용) | $1.75 | $0.175 | $14.00 |
| gpt-5.4 (Thinking) | $2.50 | $0.25 | $15.00 |
| gpt-5.4-pro | $30.00 | – | $180.00 |
하루 50건 에이전트 태스크(평균 입력 8K + 출력 1.5K 토큰) 기준으로 월간 비용을 추정하면,
Thinking 5.4만 쓸 경우 약 $63/월, Pro 5.4만 쓸 경우 약 $765/월입니다.
Thinking 90% + Pro 10% 하이브리드 전략을 쓰면 약 $134/월로 절충할 수 있습니다.
Tool Search로 토큰을 최대 47% 절감하면 실제 비용은 더 낮아질 수 있습니다.
1M 컨텍스트가 필요한 경우 반드시 사전 비용 계산 후 사용하시기 바랍니다.
최신 가격은 OpenAI 공식 API 요금 페이지에서 확인하세요.
Thinking 5.4 vs Pro 5.4: 어떤 걸 써야 하나
정답은 아닙니다. 벤치마크를 보면 오히려 일반 지식 업무에서는 Thinking 5.4가 Pro 5.4를 앞섭니다.
| 벤치마크 | GPT-5.2 | Thinking 5.4 | Pro 5.4 |
|---|---|---|---|
| GDPval (44개 직종 지식 업무) | 70.9% | 83.0% ✓ | 82.0% |
| ARC-AGI-2 (추상 추론) | – | 73.3% | 83.3% ✓ |
| BrowseComp (심층 웹 리서치) | – | 82.7% | 89.3% ✓ |
| OSWorld (컴퓨터 조작) | 47.3% | 75.0% ✓ | – |
| SWE-bench Pro (코딩) | – | 57.7% ✓ | – |
Thinking 5.4를 선택해야 하는 경우
코딩·디버깅·리팩토링처럼 논리적 투명성이 중요한 작업, 여러 소스를 종합하는 심층 리서치,
컴퓨터 조작(CUA) 기반의 업무 자동화에서는 Thinking 5.4가 오히려 더 적합합니다.
결정적으로, Pro 5.4 대비 12배 저렴하면서도 일반 업무 성능은 동등하거나 우세합니다.
Pro 5.4를 선택해야 하는 경우
ARC-AGI-2 수준의 추상 추론 문제, 수십 개 이상의 출처를 철저히 종합하는 법률·금융 분석,
실패 비용이 극도로 높은 프로덕션 에이전트 환경에서는 Pro 5.4의 무제한 컴퓨팅 예산이 빛을 발합니다.
월 $200 Pro 플랜 가입자라면 ChatGPT UI 내에서 무제한에 가깝게 사용 가능합니다.
Pro 5.4를 라우팅과 복잡한 태스크 분해에만 사용하고,
병렬화 가능한 하위 작업은 Thinking 5.4에 위임하는 것입니다.
이 방식으로 최대 성능과 비용 통제를 동시에 달성할 수 있습니다.
솔직한 한계 & 지금 당장 시작하는 법
과장된 기대치로 접근하면 실망만 커지기 때문입니다.
알려진 제한 사항
첫째, 모델 드리프트 문제가 현실입니다. 5.1→5.2→5.3→5.4로 짧은 간격에 연속 출시되면서
같은 모델 ID가 내부적으로 조용히 바뀌는 현상이 프로덕션 환경에서 보고되고 있습니다.
API 기반으로 안정적인 서비스를 운영 중이라면 버전 고정과 회귀 테스트 체계가 필수입니다.
둘째, Pro 5.4의 기능 제한이 아이러니합니다. 가장 비싼 Pro 5.4 티어에서는
이미지 생성, 메모리, 캔버스 기능이 비활성화됩니다. 컴퓨팅 자원이 추론에 집중되기 때문이지만,
이를 모르고 Pro 플랜을 업그레이드하면 기대했던 기능이 없어서 당황할 수 있습니다.
셋째, CUA는 현재 주로 개발자·기업 환경에서 강점을 보입니다.
ChatGPT 일반 UI에서의 컴퓨터 직접 조작은 아직 제한적이며, 풀 CUA 기능은 Codex·API 환경에서 구현됩니다.
일반 사용자가 “AI가 내 컴퓨터를 알아서 다 해주는 것”을 바로 기대하기엔 이릅니다.
GPT-5.4 지금 당장 시작하는 법
일반 사용자라면 기존 ChatGPT Plus 구독($20/월)으로 Thinking 5.4에 즉시 접근 가능합니다.
모델 선택에서 “Thinking 5.4”를 선택하거나 Auto로 두면 됩니다.
AI가 작성하는 도중에 “방향 바꿔줘”라고 개입해보는 것이 가장 직관적인 경험 방법입니다.
API 개발자라면 먼저 OpenAI 공식 API 문서에서
gpt-5.4와 gpt-5.4-pro의 엔드포인트 차이를 확인하고,
Tool Search와 Context Compaction 기능을 소규모 실험 프로젝트에서 먼저 테스트해보시길 권장합니다.
자주 묻는 질문 (Q&A)
GPT-5.4는 무료 사용자도 쓸 수 있나요?
무료 플랜에서는 Instant 5.3만 이용 가능합니다. GPT-5.4의 핵심인 Thinking 5.4에 접근하려면 최소 ChatGPT Plus($20/월) 구독이 필요합니다. Pro 5.4는 $200/월 Pro 플랜 또는 Enterprise 전용입니다.
컴퓨터 사용(CUA) 기능을 지금 당장 써볼 수 있나요?
ChatGPT 일반 UI에서도 제한적으로 경험할 수 있지만, 풀 기능은 OpenAI Codex와 Responses API를 통해 구현됩니다. 일반 사용자 수준에서는 현재 “AI가 내 PC를 완전 자동으로 조작한다”는 경험보다는, 복잡한 웹 리서치와 문서 작업 자동화 수준에서 체감하는 것이 현실적입니다.
기존 GPT-5.2 API 코드를 그대로 GPT-5.4에 쓸 수 있나요?
gpt-5.4(Thinking)는 Chat Completions API와 Responses API 모두 지원하므로 기존 코드에서 모델명만 바꿔 사용할 수 있습니다. 단, gpt-5.4-pro는 Responses API 전용이므로, Pro 티어를 사용하려면 /v1/responses 엔드포인트로 마이그레이션이 필수입니다.
Pro 5.4가 Thinking 5.4보다 항상 더 좋은 성능을 내나요?
아닙니다. GDPval(44개 직종 지식 업무) 벤치마크에서는 Thinking 5.4(83.0%)가 Pro 5.4(82.0%)보다 오히려 높습니다. Pro가 우세한 영역은 추상 추론(ARC-AGI-2)과 심층 웹 리서치(BrowseComp)입니다. 일반 업무에서는 12배 저렴한 Thinking 5.4가 더 합리적인 선택입니다.
GPT-5.2는 언제 서비스가 종료되나요?
OpenAI 공식 발표 기준, GPT-5.2 Instant는 2026년 6월 3일, GPT-5.2 Thinking은 2026년 6월 5일에 서비스가 종료됩니다. API 기반 서비스를 운영 중이라면 이 날짜 이전에 GPT-5.3 또는 GPT-5.4로 마이그레이션을 완료해야 합니다.
마치며 — 총평
컴퓨터 사용 기능의 메인라인 탑재는 단순한 기술 업그레이드가 아니라, AI 활용의 패러다임 전환을 선언합니다.
이제 AI를 “어떻게 잘 프롬프팅하느냐”보다 “어떤 업무를 위임할 것이냐”가 더 중요한 질문이 됩니다.
물론 현실적인 한계도 있습니다. CUA 기능의 실전 적용은 아직 개발자·기업 환경에 집중되어 있고,
빠른 버전 업데이트 주기로 인한 모델 드리프트 리스크도 무시할 수 없습니다.
Pro 5.4의 가격 장벽(월 $200)은 개인 사용자에게 여전히 높습니다.
그럼에도 불구하고, GPT-5.4는 AI가 “도구”에서 “동료”로 진화하는 여정에서 의미 있는 이정표입니다.
ChatGPT Plus 구독자라면 지금 당장 Thinking 5.4로 전환해보시길 강력히 권장합니다.
AI 피로감을 느끼던 분들도, 이번 업데이트만큼은 직접 써보고 판단하시길 바랍니다.
※ 본 포스팅은 2026년 3월 10일 기준으로 공개된 정보를 바탕으로 작성되었습니다. API 요금, 플랜별 접근 권한, 모델 기능은 OpenAI의 정책 변경에 따라 달라질 수 있습니다. 최신 정보는 반드시 OpenAI 공식 페이지에서 확인하시기 바랍니다. 본 콘텐츠는 정보 제공 목적으로 작성되었으며, OpenAI와 공식 제휴 관계에 있지 않습니다.











댓글 남기기