2026.03.23 기준
GPT-5.4 (2026.03.05 출시)

GPT-5.4 Computer Use, 인간 넘었다는데 왜 25%는 실패할까요?

OSWorld 벤치마크 75.0% — 숫자만 보면 인간(72.4%)을 이겼습니다. 그런데 실제로 10단계짜리 작업을 맡기면 어떻게 될까요? 공식 발표문과 실제 작업 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

OSWorld 성공률

75.0%

인간 기준 72.4% 초과

GDPval (44개 직종)

83.0%

GPT-5.2 대비 +12.1%p

6개월 성능 도약

+27.7%p

OSWorld, GPT-5.2 대비

Computer Use가 정확히 어떤 기능인가요?

GPT-5.4가 처음으로 기본 탑재한 것

2026년 3월 5일 OpenAI가 출시한 GPT-5.4는 범용 모델 가운데 처음으로 컴퓨터 사용(Computer Use) 기능을 기본 제공합니다. 이전까지는 별도 API를 조합하거나 Claude의 computer use 기능처럼 외부 레이어가 필요했습니다. GPT-5.4에서는 단일 모델, 단일 API로 해결됩니다. (출처: OpenAI 공식 블로그, 2026.03.05)

실제로 무엇을 할 수 있나요?

AI가 마우스와 키보드를 직접 조작합니다. 스프레드시트에 데이터를 입력하고, 브라우저에서 로그인한 뒤 보고서를 다운로드하고, 레거시 소프트웨어의 UI를 클릭해 작업을 완료합니다. 개발자는 “이 SaaS 대시보드에서 Q1 리포트를 내보내라”는 목표를 던져주기만 하면 됩니다. AI가 화면을 보고, 다음 행동을 결정하고, 실행하고, 결과를 확인하는 루프를 혼자 돕니다.

확인 정책(Confirmation Policy)이 핵심입니다

개발자가 “폼 제출 전 반드시 확인”, “삭제 버튼 클릭 시 2단계 검증” 같은 정책을 직접 설정할 수 있습니다. 이 기능이 엔터프라이즈 보안 심사를 통과하게 만드는 결정적 요소입니다. 이전 접근법에서는 없던 감사 가능성(Auditability)이 생긴 셈입니다. (출처: OpenAI Introducing GPT-5.4, 2026.03.05)

▲ 목차로 돌아가기

75%가 왜 인간 초월이 아닐 수 있는가

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

OSWorld 성공률 75%는 각 작업을 독립적으로 측정한 수치입니다. 현실 업무는 10단계, 20단계가 연결되어 있습니다. 단계별 75% 성공률이 10회 연속으로 쌓이면 전체 성공 확률은 75%¹⁰ = 약 5.6%까지 떨어집니다.

복리 실패율이 말하는 것

OSWorld-Verified 벤치마크에서 GPT-5.4는 75.0%를 기록했습니다. 인간 기준인 72.4%를 넘었습니다. (출처: OpenAI Introducing GPT-5.4, 2026.03.05) 그런데 이 숫자는 1단계짜리 작업 기준입니다. 10단계를 체이닝하면 각 단계의 성공률이 복리로 곱해집니다. 75% 성공률의 10단계 작업은 이론적으로 약 5.6% 완료율입니다. 단계 수가 늘수록 감독 레이어 없이는 작동하기 어렵습니다.

25% 실패는 어디서 발생하나요?

OpenAI가 공개하지 않은 부분입니다. 다만 contextstudios.ai의 분석에 따르면 실패는 주로 세 경우에 집중됩니다. 첫째, 벤치마크에 없던 소프트웨어를 만났을 때. 둘째, UI가 동적으로 변하는 현대 SaaS 환경. 셋째, 예외 처리와 판단이 필요한 비정형 작업입니다. 이 세 경우는 모두 실제 업무 환경에서 빈번합니다.

WebArena에서 확인되는 실제 한계

브라우저 기반 현실 작업을 측정하는 WebArena-Verified에서 GPT-5.4는 67.3%를 기록합니다. (출처: OpenAI 공식 벤치마크, 2026.03.05) OSWorld의 75%와 8%p 차이입니다. 브라우저 3개 중 1개꼴로 여전히 사람이 개입해야 합니다. “AI가 컴퓨터를 쓸 수 있다”와 “AI에게 컴퓨터를 맡겨도 된다”는 여전히 다른 말입니다.

▲ 목차로 돌아가기

Playwright 모드 vs 스크린샷 직접 모드 — 둘은 완전히 다릅니다

두 가지 작동 방식이 있습니다

GPT-5.4의 컴퓨터 사용 기능은 내부적으로 두 모드로 나뉩니다. 첫 번째는 코드 생성 모드(Playwright 모드)입니다. AI가 Playwright나 Selenium 같은 자동화 스크립트를 작성하고, 실제 실행은 서버 인프라가 담당합니다. AI는 라이브 시스템에 직접 접근하지 않습니다. 두 번째는 직접 상호작용 모드(스크린샷 모드)입니다. AI가 스크린샷을 보고 마우스·키보드 이벤트를 직접 발생시키는 피드백 루프 방식입니다.

어느 모드를 써야 하나요?

구분	Playwright 모드	스크린샷 직접 모드
AI 접근 방식	스크립트 작성 → 서버 실행	화면 보고 직접 클릭/입력
감사 가능성	높음 (코드 리뷰 가능)	낮음 (행동 로그 별도 필요)
적합한 환경	API 있는 현대 SaaS	레거시 소프트웨어, 스크린 스크래핑
프로덕션 추천도	⭐⭐⭐⭐⭐	⭐⭐⭐ (감독 레이어 필수)

실무 관점에서 처음 시작한다면

팀 대부분에게 Playwright 모드가 시작점으로 적합합니다. 뭔가 잘못됐을 때 코드를 되감아 재현하기 쉽습니다. 직접 스크린샷 모드는 프로그래밍 가능한 API가 없는 레거시 엔터프라이즈 소프트웨어나 타사 SaaS 대시보드처럼 스크린 스크래핑이 유일한 접근법일 때 선택합니다.

▲ 목차로 돌아가기

GDPval 83%의 진짜 의미 — 대체가 아니라 배율기입니다

💡 같은 수치도 어떤 틀로 읽느냐에 따라 의미가 달라집니다

83% 승리율은 “직종의 83%를 AI가 대체한다”는 뜻이 아닙니다. 같은 사람이 AI를 도구로 쓸 때 처리량이 근본적으로 달라진다는 레버리지 데이터입니다.

GDPval이란 무엇인가요?

OpenAI가 만든 GDPval은 미국 GDP 기여 상위 9개 산업의 44개 직종에서 실제 전문가가 만든 업무 결과물을 AI 출력과 비교하는 벤치마크입니다. 법률 보조, 회계사, 마케터, 간호사 등의 실무 과제를 직접 비교합니다. 평균 14년 경력의 전문가들이 직접 채점합니다. (출처: openai.com/index/gdpval/, 2026.03.05)

직접 확인 가능한 수치들

평가 항목	GPT-5.2	GPT-5.4	변화
GDPval 승리·동점	70.9%	83.0%	+12.1%p
스프레드시트 모델링	68.4%	87.3%	+18.9%p
OSWorld 데스크탑 자동화	47.3%	75.0%	+27.7%p
허위 주장(False Claims)	기준점	–33%	큰 개선

83%를 직업 대체율로 읽으면 안 되는 이유

GDPval은 명확하게 정의된 1회성 작업만 측정합니다. 고객 피드백 이후 수정, 부서 간 조율, 모호한 상황에서 판단 같은 업무는 포함되지 않습니다. OpenAI 공식 문서도 “현재 버전은 단일 시도(one-shot) 평가로, 다단계 반복이 필요한 작업은 측정하지 않는다”고 직접 밝히고 있습니다. (출처: openai.com/index/gdpval/) 반복 협업, 문맥 구축이 필요한 작업에서는 83%가 아닌 다른 숫자가 나올 것입니다.

▲ 목차로 돌아가기

Tool Search 기능이 왜 조용히 중요한가

토큰 47% 절감의 실제 의미

GPT-5.4는 Scale MCP Atlas 250개 작업 기준으로 GPT-5.2 대비 도구 호출에 사용하는 토큰을 47% 줄였습니다. (출처: OpenAI Introducing GPT-5.4, 2026.03.05) 토큰 절감은 단순히 비용 얘기가 아닙니다. 에이전트 루프의 속도가 빨라지고, 컨텍스트 윈도우에 실제 작업 데이터를 더 많이 담을 수 있게 됩니다.

도구 레지스트리를 더 많이 노출할 수 있습니다

이전에는 에이전트에게 도구를 많이 줄수록 선택 효율이 떨어지고 비용이 올라가는 트레이드오프가 있었습니다. GPT-5.4는 이 곡선을 이동시켰습니다. 더 많은 도구를 노출해도 비례해서 비용이 오르지 않습니다. 복잡한 워크플로우를 설계하는 팀에게 아키텍처 결정이 달라지는 지점입니다.

1M 컨텍스트 윈도우와의 조합

GPT-5.4의 컨텍스트 윈도우는 최대 100만 토큰입니다. Tool Search 효율과 결합하면 여러 컨텍스트 윈도우에 걸쳐 작업을 압축·분산하지 않고도 긴 작업 이력, 많은 도구 출력, 대용량 문서를 동시에 유지할 수 있습니다. Codex 환경에서 GPT-5.4는 1M 컨텍스트 전체를 활용하되, 자동 압축 임계값(`model_auto_compact_token_limit`)은 272K로 기본 설정됩니다. (출처: OpenAI 릴리스 노트, 2026.03.05)

▲ 목차로 돌아가기

Claude Opus 4.6 vs GPT-5.4 — 무엇을 기준으로 고를까요?

공개된 수치로만 비교합니다

Anthropic은 Claude Opus 4.6의 OSWorld 수치를 공개하지 않았습니다. GPT-5.4는 75.0%입니다. 비교가 어렵습니다. GDPval에서는 Claude Opus 4.1(GPT-5.4 출시 전 기준 모델)이 문서 포맷, 슬라이드 레이아웃 같은 미적 작업에서 GPT-5를 앞섰고, GPT-5는 도메인별 정확도에서 우위를 보였습니다. (출처: openai.com/index/gdpval/)

GPT-5.4가 앞서는 구체적인 상황

MCP 도구 검색 효율(47% 토큰 절감), 1M 컨텍스트 윈도우, OpenAI 생태계 내 단일 API 통합이 필요한 경우입니다. 복수의 도구를 엮는 에이전트 아키텍처라면 GPT-5.4가 현재 더 유리합니다.

Claude Opus 4.6이 여전히 강한 상황

Anthropic 생태계에서 이미 Claude Code를 쓰고 있는 팀, 또는 미적 품질(문서, 프레젠테이션)이 중요한 경우입니다. GPT-5.4와의 격차는 벌어지고 있지만 아직 극복 불가능하지는 않습니다. 솔직히 말하면, 모델 선택보다 어떤 아키텍처를 짜느냐가 현시점에서는 더 중요합니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q
API로 GPT-5.4를 사용하면 요금이 얼마인가요?

OpenAI 공식 가격 기준으로 gpt-5.4는 입력 토큰 100만개당 $2.50, 캐시 처리 $0.25, 출력 $15입니다. gpt-5.4-pro는 입력 $30, 출력 $180입니다. GPT-5.2 대비 입력 기준 약 43% 인상되었습니다. ($1.75 → $2.50) (출처: OpenAI 공식 가격표, 2026.03.05)

Q
OSWorld 75%가 인간(72.4%)을 넘었으면 AI에게 완전히 맡겨도 되지 않나요?

1단계 독립 작업 기준으로는 그렇습니다. 그런데 10단계를 연속으로 실행하면 단계별 75% 성공률이 복리로 쌓입니다. 이론적 전체 성공률은 75%¹⁰ ≈ 5.6%입니다. 실제 업무는 대부분 여러 단계를 체이닝합니다. 감독 레이어 없이 완전히 맡기기에는 아직 위험합니다. 반복적이고 잘 정의된 작업부터 시작해 단계적으로 자율성을 높이는 접근이 현실적입니다.

Q
Terminal-Bench에서 GPT-5.4가 GPT-5.3-Codex보다 낮은 이유는 무엇인가요?

Terminal-Bench 2.0에서 GPT-5.4는 75.1%, GPT-5.3-Codex는 77.3%로 코딩 특화 모델이 소폭 앞섭니다. (출처: OpenAI 공식 벤치마크) GPT-5.4는 범용성을 택한 통합 모델이라 순수 코딩 작업에서는 코딩 특화 모델에 밀릴 수 있습니다. 에이전트 워크플로우처럼 코딩·추론·작업 실행이 혼합된 작업에서는 GPT-5.4가 GPT-5.3-Codex보다 전반적으로 낫습니다. 순수 코딩만 한다면 GPT-5.3-Codex가 여전히 선택지입니다.

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.4 Computer Use는 분명히 기술적 도약입니다. 6개월 전 47%였던 OSWorld 수치가 75%가 됐고, 이는 단일 모델 세대 교체로는 이례적인 27.7%p 상승입니다. 이전 세대 AI Computer Use가 “흥미로운 연구”였다면, 지금은 반복적인 정형 작업에서는 실제로 쓸 수 있는 단계에 도달했습니다.

다만 막상 써보면 다릅니다. 10단계짜리 워크플로우를 그대로 맡기면 복리 실패율이 누적됩니다. 확인 정책을 설계하고, Playwright 모드로 시작하고, 감독 레이어를 두는 것이 실제로 작동하는 방법입니다. GDPval 83%도 “직업의 83%를 없앤다”는 얘기가 아닙니다. 같은 사람이 같은 시간에 더 많은 일을 처리할 수 있는 레버리지 데이터입니다.

이 기능이 가장 가치 있는 곳은 반복적이고, 잘 정의되고, 프로그래밍 가능한 API가 없는 작업입니다. 레거시 소프트웨어 스크래핑, 정기 리포트 자동화, 대량 데이터 입력이 그 범주입니다. 여기서 시작해서 단계적으로 범위를 넓히는 쪽이 지금 시점에서 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

① OpenAI — Introducing GPT-5.4 (공식 블로그, 2026.03.05)
https://openai.com/ko-KR/index/introducing-gpt-5-4/
② OpenAI — Model Release Notes (릴리스 노트, 2026.03 최신)
https://help.openai.com/ko-kr/articles/9624314
③ OpenAI — GDPval Benchmark 소개 (공식, 2026.03.05)
https://openai.com/index/gdpval/
④ Context Studios — GPT-5.4 Computer Use: What AI Agents Can Do Now (2026.03.14)
https://www.contextstudios.ai/blog/gpt-54-computer-use-what-ai-agents-can-do-now

본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. OpenAI의 모델 사양 및 벤치마크 수치는 공식 발표 이후 업데이트될 수 있으므로 최신 내용은 공식 사이트에서 직접 확인하시기 바랍니다.

GPT-5.4 Computer Use, 인간 넘었다는데 왜 25%는 실패할까요?

GPT-5.4 Computer Use, 인간 넘었다는데 왜 25%는 실패할까요?