Computer Use 네이티브 최초
OSWorld 75% → 인간(72.4%) 초과
GPT-5.4 완전정복: AI가 마우스를 잡다, 지금 당장 알아야 할 것들
단순히 “더 똑똑한 챗봇”이 아닙니다. GPT-5.4는 컴퓨터를 직접 조작하고, 44개 직업군의 전문가 수준 업무를 83%의 확률로 대체하는 첫 번째 범용 모델입니다. 이 변화가 나와 어떤 관계인지, 지금 5분 안에 파악해 보세요.
GPT-5.4란 무엇인가 — 버전명에 담긴 진짜 의미
2026년 3월 5일, OpenAI가 GPT-5.4를 ChatGPT, API, Codex 전반에 걸쳐 공식 출시했습니다. 이름이 5.2에서 5.3을 거쳐 5.4로 올라갔다고 해서 단순한 업그레이드로 보시면 안 됩니다. OpenAI는 공식 발표에서 “이 버전명은 단순한 점증적 개선이 아니라, Instant 모델과 Thinking 모델이 서로 다른 속도로 진화하는 분기를 반영한다”고 명시했습니다. 즉 GPT-5.4는 기존 추론 모델(GPT-5.2 Thinking)과 코딩 특화 모델(GPT-5.3-Codex)을 단일 프론티어 모델로 통합한, 사실상의 ‘첫 번째 올인원 업무 실행 AI’입니다.
💡 핵심 한 줄 요약
GPT-5.4 = 추론(Thinking) + 코딩(Codex) + 컴퓨터 조작(Computer Use)를 하나로 통합한 범용 프론티어 모델. 이전에는 세 가지를 각각 따로 써야 했습니다.
이 통합이 왜 중요하냐면, 실제 업무는 “추론만 하는 단계”, “코딩만 하는 단계”로 딱 잘라지지 않기 때문입니다. 보고서를 작성하면서 동시에 데이터를 엑셀로 정리하고, 그 결과를 프레젠테이션으로 만들고, 이메일로 발송하는 일련의 흐름이 현실 업무입니다. GPT-5.4는 바로 이 흐름 전체를 단일 모델로 처리하도록 설계됐습니다. ChatGPT Plus·Team·Pro 사용자는 오늘부터 GPT-5.4 Thinking으로 GPT-5.2 Thinking이 자동 교체됩니다. (GPT-5.2 Thinking은 2026년 6월 5일까지 Legacy 모델로 유지)
Computer Use: AI가 처음으로 마우스를 잡다
이번 GPT-5.4에서 가장 주목할 기능은 단연 네이티브 Computer Use입니다. OpenAI는 GPT-5.4를 “범용 목적 모델 중 네이티브 컴퓨터 사용 기능을 탑재한 최초의 모델”이라고 정의했습니다. 기존에도 AI가 코드를 통해 자동화를 수행하거나 마우스·키보드 명령을 흉내내는 시도는 있었지만, 그것은 별도 전문 모델이 필요했습니다. 이제 GPT-5.4 하나로 스크린샷을 보고 판단한 뒤 직접 클릭·입력·드래그 동작을 수행하는 것이 가능합니다.
실제로 어떤 장면을 상상하면 될까요? 여러분이 아침에 출근해서 “이번 주 팀 실적 데이터 엑셀 파일 불러와서 요약 슬라이드 만들고 팀장한테 이메일로 보내줘”라고 말하면, GPT-5.4가 파일 탐색기를 열고, 엑셀을 실행하고, 데이터를 분석하고, PowerPoint를 띄워 슬라이드를 작성하고, Outlook을 열어 첨부 후 발송하는 전 과정을 스스로 수행하는 수준입니다. API에서는 `computer` 툴이 업데이트되어 Playwright 같은 라이브러리를 통한 웹 자동화부터 스크린샷 기반 GUI 조작까지 모두 지원합니다.
⚠️ 알아둘 점
Computer Use 기능은 현재 API와 Codex를 통해 개발자가 구성한 에이전트 환경에서 주로 활용됩니다. ChatGPT 웹 인터페이스에서 사용자가 직접 “내 PC를 조작해 줘”를 바로 실행하는 방식은 아직 단계적으로 배포 중이며, 안전 정책에 따라 확인 절차가 요구될 수 있습니다.
특히 OpenAI는 GPT-5.4의 Computer Use가 “스티어러블(steerable)”하다고 강조합니다. 개발자가 시스템 메시지로 위험 수준에 맞는 확인 정책(confirmation policy)을 설정할 수 있어서, 민감한 작업에는 반드시 사람의 승인을 요구하도록 구성할 수 있습니다. 이 점은 무분별한 자동화로 인한 실수 위험을 줄이는 핵심 안전장치입니다.
벤치마크 수치로 본 GPT-5.4의 실력 — 숫자가 말하는 것
OpenAI가 공개한 벤치마크 수치들은 단순 홍보용 숫자가 아닙니다. 실제 산업 현장에서 어떤 수준의 작업을 처리할 수 있는지를 가늠하는 지표입니다. 가장 중요한 수치들을 정리하면 아래와 같습니다.
| 평가 항목 | GPT-5.4 | GPT-5.2 | 의미 |
|---|---|---|---|
| GDPval (전문가 비교) | 83.0% | 70.9% | 44개 직업군 실무 과제에서 업계 전문가 수준 달성 비율 |
| OSWorld-Verified | 75.0% | 47.3% | 데스크톱 환경 조작 성공률 — 인간 기준치(72.4%)를 초과 |
| BrowseComp | 82.7% | 65.8% | 웹을 지속적으로 탐색해 찾기 어려운 정보를 발굴하는 능력 |
| 투자은행 모델링 (내부) | 87.3% | 68.4% | 주니어 IB 애널리스트 수준의 엑셀 모델링 과제 점수 |
| ARC-AGI-2 (추상 추론) | 73.3% | 52.9% | 학습 데이터 외 패턴 인식 — 일반화 능력의 핵심 지표 |
| 할루시네이션(오류 포함 답변) | −18% 개선 | 기준치 | 사용자가 오류로 신고한 프롬프트 기반 전체 응답 오류율 |
여기서 제가 가장 주목하는 숫자는 GDPval 83.0%입니다. 이 벤치마크는 미국 GDP에 기여하는 상위 9개 산업의 44개 직업을 대상으로 실제 업무 결과물(판매 프레젠테이션, 회계 스프레드시트, 응급실 일정표, 제조 도면 등)을 생성하게 한 뒤 업계 전문가가 평가합니다. GPT-5.4는 이 과제에서 83%의 비교에서 동등하거나 전문가를 앞섰다는 뜻입니다. 이게 GPT-5.2의 70.9% 대비 단순한 수치 개선이 아닌 이유는, 70%에서 83%로의 도약이 “때로는 쓸 만함”에서 “대부분의 경우 믿을 만함”으로의 질적 전환을 의미하기 때문입니다.
한 가지 솔직하게 짚고 넘어갈 점도 있습니다. 벤치마크는 어디까지나 통제된 환경에서의 수치입니다. 현실의 업무는 모호한 지시, 비정형 데이터, 불완전한 맥락으로 가득합니다. 83%가 “모든 직장인을 당장 대체한다”는 의미는 결코 아닙니다. 다만 이 수치가 보여주는 방향성은 명확합니다. AI가 단순 보조 도구를 넘어 실질적인 업무 수행자로 진화하는 속도가 예상보다 훨씬 빠르다는 것입니다.
Tool Search와 1M 컨텍스트 — 왜 에이전트에 핵심인가
GPT-5.4의 덜 알려진 혁신 두 가지, Tool Search와 100만 토큰 컨텍스트 윈도우가 있습니다. 이 둘은 일반 사용자보다는 에이전트 개발자와 기업에게 더 즉각적으로 중요한 기능이지만, 이 기능이 왜 의미 있는지 이해하면 GPT-5.4가 어느 방향으로 가는 모델인지를 정확하게 파악할 수 있습니다.
Tool Search: 도구를 먼저 찾고, 나중에 불러온다
기존 AI 에이전트는 사용 가능한 도구(Tool) 목록 전체를 프롬프트에 미리 넣어야 했습니다. MCP 서버처럼 수만 토큰 분량의 도구 정의를 가진 시스템에서는 이 방식이 비용을 폭발적으로 늘리고 속도를 크게 저하시켰습니다. GPT-5.4는 이를 완전히 뒤집었습니다. 모델이 먼저 가벼운 도구 목록만 받고, 필요할 때 해당 도구의 정의를 그때그때 불러오는(tool search) 방식입니다. OpenAI가 Scale의 MCP Atlas 벤치마크 250개 과제로 실험한 결과, 동일한 정확도를 유지하면서 총 토큰 사용량을 47% 절감했습니다. 이는 곧 API 비용을 절반 가까이 줄이면서 같은 성능을 낼 수 있다는 의미입니다.
100만 토큰 컨텍스트: 책 수십 권을 통째로 기억
GPT-5.4는 Codex 환경에서 최대 100만 토큰의 컨텍스트 윈도우를 지원합니다(API에서도 활성화 가능). 100만 토큰은 약 750만 단어, 또는 소설 25권 분량의 텍스트를 한 번의 대화에서 유지할 수 있다는 뜻입니다. 대규모 코드베이스 전체를 넣고 버그를 추적하거나, 회사의 방대한 내부 문서를 모두 로드한 뒤 정책에 기반한 자동화를 돌리는 것이 현실적으로 가능해집니다. 다만 표준 272K 초과 구간은 사용량이 2배로 계산되므로 비용 설계 시 이 점을 반드시 고려해야 합니다.
이 두 기능의 조합이 중요한 이유는 에이전트가 “길고 복잡한 작업을 처음부터 끝까지 문맥을 잃지 않고 완수하는” 신뢰성의 문제를 크게 해결하기 때문입니다. 지금까지 에이전트의 최대 약점이 긴 작업에서 앞에서 한 일을 잊어버리는 것이었는데, 이 두 기능이 이를 직접 겨냥합니다.
ChatGPT 요금제별 접근법 — 지금 내가 써야 하나
GPT-5.4가 아무리 대단해도 내 상황에 맞는 요금제를 선택하는 것이 현실적인 문제입니다. 현재 ChatGPT 요금체계와 GPT-5.4 접근 범위를 정리했습니다.
| 요금제 | 월 공식가(한국) | GPT-5.4 접근 범위 |
|---|---|---|
| Free | 무료 | GPT-5.4 Thinking 제한적 체험 가능 (횟수 제한) |
| Plus | 약 29,000원 | GPT-5.4 Thinking 기본 제공, 메시지 한도 내 사용 |
| Pro | 약 299,000원 | GPT-5.4 Pro (최고 성능) 포함, 사실상 무제한 사용 |
| API | 사용량 기반 | gpt-5.4 (입력 $2.5/M토큰, 출력 $15/M토큰) |
개인 사용자 대부분에게는 Plus 플랜(월 29,000원)이 현실적인 선택입니다. GPT-5.4 Thinking이 기본 모델로 올라왔으니 추가 비용 없이 즉시 사용할 수 있습니다. Pro 플랜의 GPT-5.4 Pro는 벤치마크상 GDPval 기준으로 GPT-5.4 대비 큰 차이가 없는 경우도 있으나(83.0% vs 82.0%), BrowseComp에서는 89.3%로 상당한 차이를 보이므로 심층 리서치나 복잡한 멀티스텝 에이전트 작업에 자주 쓰는 전문가라면 Pro를 고려할 만합니다.
API 요금에서 주목할 점은 Token Efficiency입니다. OpenAI는 GPT-5.4가 GPT-5.2 대비 동일 과제를 더 적은 토큰으로 해결한다고 밝혔습니다. 입력 가격은 토큰당 소폭 올랐지만(gpt-5.2의 $1.75 → gpt-5.4의 $2.50), 실제 작업 완료에 필요한 총 토큰 수가 줄어들어 복잡한 에이전트 워크플로에서는 오히려 총 비용이 낮아질 수 있습니다.
GPT-5.4가 내 직업에 미치는 영향 — 솔직한 시각
솔직히 말씀드리겠습니다. GDPval 83%라는 수치를 처음 봤을 때 저도 불편했습니다. 44개 직업군에서 전문가를 83% 이기는 AI, 그것도 지금 당장 쓸 수 있는 모델이 출시됐다는 건 단순한 기술 뉴스가 아닙니다. 그러나 수치를 해석할 때 두 가지를 꼭 짚어야 합니다.
첫째, GDPval의 과제는 “잘 정의된(well-specified)” 업무입니다. 즉 목표가 명확하고 입력 데이터가 정리된 상태에서의 결과물 품질을 측정합니다. 현실 업무의 상당 부분은 목표 자체를 정의하는 것, 이해관계자와 협상하는 것, 예외 상황을 판단하는 것처럼 비정형적인 요소로 이루어져 있습니다. AI는 이 영역에서 아직 인간을 대체하지 못합니다.
둘째, 역설적으로 GPT-5.4가 강력할수록 그것을 잘 다루는 사람의 가치가 올라갑니다. 엑셀을 누구나 쓸 수 있게 된 후 엑셀을 잘 쓰는 사람이 더 귀해진 것처럼, AI를 효과적으로 활용해 품질 높은 결과를 내는 사람이 더 높은 생산성을 갖게 됩니다. 제가 보기에 지금 가장 실질적인 위협은 “AI가 내 자리를 뺏는다”가 아니라, “AI를 잘 쓰는 동료나 경쟁자가 내가 하루에 하는 일을 한 시간에 해내는 상황”입니다.
📌 직업군별 영향 전망 (개인적 분석)
- 높은 영향 가능: 주니어 데이터 분석가, 문서 초안 작성 업무, 반복적 코딩 태스크, 리서치 보조
- 중간 영향: 콘텐츠 마케터, 회계 보조, 법률 보조, 엑셀 기반 재무 모델링
- 낮은 영향 단기적: 대인 관계 중심 직무(컨설팅, 영업, HR), 신체 기술 직종, 비정형 창의 분야
결론적으로, GPT-5.4를 두려워할 필요는 없지만 무시해서도 안 됩니다. 지금 당장 하나의 반복 업무를 골라 GPT-5.4로 자동화해보는 경험이 가장 현실적인 대응입니다. 그 경험이 쌓여야 AI와의 협업에서 어디까지를 믿고 맡기고, 어디서 내가 판단해야 하는지의 감각이 생깁니다.
Q&A — 자주 묻는 5가지 질문
Q1. GPT-5.4 Thinking은 기존 GPT-5.2 Thinking과 무엇이 다른가요?
▾
Q2. Computer Use 기능을 일반 사용자가 ChatGPT에서 바로 쓸 수 있나요?
▾
Q3. GPT-5.4 Pro는 GPT-5.4와 얼마나 다른가요? Pro를 써야 할까요?
▾
Q4. GPT-5.2 Thinking은 언제까지 사용할 수 있나요?
▾
Q5. GPT-5.4의 안전성 문제는 없나요? AI가 내 컴퓨터를 마음대로 조작하면 위험하지 않나요?
▾
마치며 — 총평
GPT-5.4를 한 문장으로 요약하면 “AI가 드디어 대화 상자 밖으로 나왔다”입니다. GPT-3 시절부터 AI는 텍스트를 생성하는 도구였습니다. GPT-4로 멀티모달이 됐고, GPT-5 시리즈로 추론이 깊어졌습니다. 그리고 GPT-5.4에서 AI는 처음으로 디지털 환경 전체를 무대로 삼아 스스로 행동하기 시작했습니다.
이 변화가 체감으로 다가오는 데는 아직 시간이 걸릴 것입니다. Computer Use의 안정적인 소비자 배포, 한국어 환경 최적화, 기업 IT 시스템과의 통합 등 넘어야 할 현실적인 장벽이 남아 있습니다. 하지만 방향은 명확합니다. 올해 안에 많은 기업이 GPT-5.4 기반 에이전트를 테스트 배포하고, 내년에는 실제 업무 흐름에 깊숙이 통합될 것입니다.
지금 이 글을 읽는 여러분이 할 수 있는 가장 현명한 행동은 단 하나입니다. 오늘 당장 반복적으로 하는 업무 하나를 골라서 GPT-5.4에게 맡겨보는 것입니다. 완벽하지 않더라도, 그 경험에서 나오는 감각이 앞으로의 AI 시대를 살아가는 가장 확실한 무기가 됩니다.
본 포스팅은 공개된 공식 발표 자료 및 벤치마크 데이터를 바탕으로 작성된 정보 제공 목적의 글입니다. 벤치마크 수치는 연구 환경 기준이며 실제 사용 환경에 따라 결과가 다를 수 있습니다. 요금 정보는 2026년 3월 10일 기준이며, OpenAI 정책에 따라 변경될 수 있습니다. 구체적인 구독·결제 전 OpenAI 공식 사이트에서 최신 정보를 반드시 확인하시기 바랍니다.


댓글 남기기