GPT-5.4 Computer Use, 인간 넘었다고요? 기준이 다릅니다

Published on

2026년 3월 25일

2026.03.05 기준 / GPT-5.4 출시 버전
TECH

GPT-5.4 Computer Use,
인간 넘었다고요? 기준이 다릅니다

2026년 3월 5일, OpenAI가 GPT-5.4를 출시하면서 “사상 처음으로 컴퓨터 사용 능력에서 인간을 넘어섰다”고 발표했습니다. OSWorld-Verified 벤치마크 75.0% — 인간 기준 72.4%를 돌파했다는 수치입니다. 그런데 이 기준이 무엇인지 공식 발표문을 직접 읽어보면, 수치가 말하는 것과 말하지 않는 것이 뚜렷하게 갈립니다.

75.0%

OSWorld 데스크톱 자동화

83.0%

GDPval 전문직 업무

-33%

GPT-5.2 대비 오류 감소율

GPT-5.4가 정확히 뭔가요 — 한 줄 핵심부터

GPT-5.4는 2026년 3월 5일 OpenAI가 공개한 최신 프론티어 모델입니다. 핵심은 세 가지를 하나로 묶었다는 것입니다 — 추론, 코딩, 그리고 컴퓨터 에이전트 워크플로우. 이전까지는 GPT-5.3-Codex가 코딩 특화 모델로, GPT-5.2가 일반 추론 모델로 따로 존재했는데, GPT-5.4가 그 경계를 없앴습니다. (출처: OpenAI 공식 블로그, 2026.03.05)

ChatGPT에서는 GPT-5.4 Thinking으로, API와 Codex에서는 gpt-5.4로 제공됩니다. Pro 버전인 GPT-5.4 Pro도 동시 출시됐고, 이건 ChatGPT Pro 요금제($200/월)와 Enterprise 플랜에서만 쓸 수 있습니다. Plus($20/월) 이상 유료 구독자라면 GPT-5.4 Thinking을 바로 쓸 수 있고, 무료 사용자에게는 자동 라우팅 시에만 제공됩니다.

GPT-5.2 Thinking은 2026년 6월 5일 공식 종료 예정이고, 그때까지는 모델 피커에서 “Legacy Models”로 선택할 수 있습니다. 지금 당장 GPT-5.2를 쓰던 워크플로우가 있다면, 전환 시점을 미리 체크해두는 편이 낫습니다.

▲ 목차로 돌아가기

Computer Use, 두 가지 모드가 있고 둘은 완전히 다릅니다

GPT-5.4의 Computer Use는 단일 기능이 아닙니다. 공식 발표문과 실제 구현 방식을 같이 놓고 보면 두 가지 동작 방식이 따로 존재합니다.

💡 발표 슬라이드에는 안 나오는 구조입니다

공식 발표에서는 “컴퓨터를 직접 조작한다”고 표현하지만, 실제 동작 방식은 두 가지 레이어로 나뉩니다. 어떤 모드를 쓰느냐에 따라 인프라 요구사항과 감사(audit) 가능 여부가 완전히 달라집니다.

모드 ①: 코드 생성 방식 — 모델이 Playwright, Selenium 같은 자동화 라이브러리를 활용한 코드를 작성하고, 별도 인프라가 그 코드를 실행합니다. 모델이 라이브 시스템에 직접 손을 대지 않아서 감사 추적이 쉽고, 실행 실패 시 재현도 가능합니다. 엔터프라이즈 보안 리뷰를 통과하기 훨씬 수월한 구조입니다.

모드 ②: 직접 스크린샷 방식 — 화면 캡처를 보고 마우스·키보드 명령을 직접 발행하는 피드백 루프 방식입니다. API가 없는 레거시 시스템, 사내 HR 포털, 구형 ERP 대시보드 같은 환경에서 효과를 발휘합니다. 단, 픽셀 단위 정확도에 의존하기 때문에 UI가 업데이트되거나 해상도가 달라지면 실패 확률이 올라갑니다. (출처: Context Studios, 2026.03.14)

중요한 점은 모드 ②도 단순 API 호출만으로는 작동하지 않는다는 것입니다. Playwright나 Docker 같은 실행 컨테이너 환경이 반드시 필요합니다. (출처: iWeaver.ai, 2026.03.06) 발표 데모에서 자연스럽게 컴퓨터를 조작하는 화면만 보고 “그냥 API 연결하면 되겠다”고 판단하면 구현 단계에서 막히게 됩니다.

▲ 목차로 돌아가기

벤치마크 75%가 가리는 것 — 실패율 25%의 의미

OSWorld-Verified에서 GPT-5.4가 기록한 75.0%는 숫자 자체로는 강력합니다. GPT-5.2가 같은 벤치마크에서 47.3%를 기록했으니, 단 한 세대 만에 27.7%포인트가 올랐습니다. 인간 기준치인 72.4%도 넘었습니다.

💡 공식 발표문에서 직접 확인한 내용입니다

OpenAI가 비교 기준으로 삼은 인간 72.4%는 “비전문가 일반인의 평균 성능”입니다. (출처: OpenAI 공식 블로그, 2026.03.05) 숙련된 사무직 전문가를 기준으로 잡으면 이 수치는 달라집니다.

그런데 더 주의해야 할 수치는 역설적으로 25%라는 실패율입니다. 단계가 10개로 이어진 에이전트 워크플로우를 예로 들면, 각 단계의 성공률이 75%일 때 전체 워크플로우가 오류 없이 끝날 확률은 0.75¹⁰ = 약 5.6%에 불과합니다. 10단계 중 한 번이라도 실패하면 전체 작업이 멈추거나 오염됩니다. 단순 반복 작업 하나에서 75%는 충분히 쓸 만하지만, 여러 단계를 연결하는 자동화일수록 체이닝 실패율을 반드시 계산해봐야 합니다. (출처: Context Studios, 2026.03.14)

실사용 테스트에서도 유사한 패턴이 확인됐습니다. 기술 저널리스트 David Gewirtz가 3월 9일 GPT-5.4 Thinking을 직접 테스트한 결과, “내가 묻지 않은 질문에 답하는” 경향이 반복됐습니다. 그는 “매우 똑똑한 대학원생이지만, 감독이 반드시 필요하다”고 평가했습니다. (출처: National Today, 2026.03.09)

벤치마크	GPT-5.4	GPT-5.2	변화폭
OSWorld-Verified (데스크톱)	75.0%	47.3%	+27.7%p
WebArena-Verified (브라우저)	67.3%	65.4%	+1.9%p
Online-Mind2Web (스크린샷 탐색)	92.8%	–	신규
GDPval (전문직 업무)	83.0%	70.9%	+12.1%p

출처: OpenAI 공식 블로그 (2026.03.05) — xhigh 추론 모드 기준으로 측정된 수치이며, 표준 프로덕션 환경에서는 차이가 있을 수 있습니다.

▲ 목차로 돌아가기

1M 토큰 컨텍스트, 초과하면 가격이 2배로 뜁니다

GPT-5.4는 API와 Codex 환경에서 최대 100만 토큰(정확히는 1,048,576토큰)의 컨텍스트 창을 지원합니다. 약 75만 단어, 단행본 10권 분량을 한 번에 처리할 수 있는 규모입니다. 에이전트가 긴 작업 이력을 보존하면서 수십 가지 도구 호출 결과를 동시에 유지하는 구조를 설계할 때 게임 체인저가 됩니다.

⚠️ 272K 초과 시 2배 과금 — 공식 문서에 명시된 조건입니다

Codex 기준 기본 컴팩션 한도는 272K 토큰입니다. 이 선을 넘으면 초과 입력 토큰은 정상 요금의 2배로 청구됩니다. API에서도 동일하게 적용됩니다. (출처: OpenAI 공식 블로그, 2026.03.05; VentureBeat, 2026.03.05)

예를 들어 300K 토큰짜리 요청을 보낸다면, 272K까지는 입력 기준 $2.50/M 토큰이 적용되고, 나머지 28K 토큰에는 $5.00/M 토큰이 적용됩니다. 전체 입력 비용이 단순 계산보다 올라갑니다. Codex에서는 model_context_window와 model_auto_compact_token_limit을 직접 설정해야 1M 컨텍스트가 활성화됩니다 — 기본 설정으로는 자동 활성화되지 않습니다.

ChatGPT 앱에서는 GPT-5.4 Thinking의 컨텍스트 창이 GPT-5.2 Thinking과 동일하게 유지됩니다. ChatGPT UI에서 체감하는 “긴 대화 처리 능력”이 자동으로 1M으로 확장되는 건 아닙니다. API 개발자가 특정 설정을 구성했을 때만 해당합니다.

▲ 목차로 돌아가기

Tool Search 47% 절감, 모든 작업에 해당하는 숫자가 아닙니다

GPT-5.4의 도구 검색(Tool Search) 기능도 발표에서 크게 부각됩니다. 기존에는 에이전트가 사용 가능한 모든 도구 정의를 프롬프트 컨텍스트에 통째로 포함해야 했습니다. 도구가 50개만 넘어도 매 요청마다 수만 토큰짜리 “도구 메뉴”가 따라붙었습니다.

GPT-5.4는 도구 목록을 경량 인덱스로 관리하고, 실제 필요한 도구만 실시간으로 불러오는 방식으로 전환했습니다. OpenAI가 공개한 수치는 토큰 사용량 47% 감소입니다.

💡 공식 발표문과 실제 조건을 같이 놓고 읽어봤습니다

이 47% 수치는 Scale의 MCP Atlas 벤치마크 250개 태스크를 대상으로, 36개 MCP 서버를 전부 활성화한 특정 설정에서 측정됐습니다. (출처: OpenAI 공식 블로그, 2026.03.05) VentureBeat도 “47%는 이 평가 환경에 한정된 수치”라고 별도로 명시했습니다. (출처: VentureBeat, 2026.03.05)

도구가 적은 환경이거나 단순 대화 작업에서는 절감 효과가 이만큼 나오지 않습니다. 하지만 MCP 서버를 여러 개 연결하는 복잡한 에이전트 시스템을 구축할 때는 이 기능의 실질적 가치가 있습니다. 도구 선택 효율이 올라가면 응답 레이턴시도 줄어들고, 많은 도구를 동시에 노출해도 컨텍스트 품질이 유지됩니다 — 이전에는 도구를 많이 주면 선택 정확도가 떨어지는 트레이드오프가 있었습니다. 지금은 그 곡선이 달라졌습니다.

▲ 목차로 돌아가기

Claude Opus 4.6과의 실제 차이 — 공개된 수치로만 비교

GPT-5.4와 Computer Use 분야에서 직접 경쟁하는 모델은 Anthropic의 Claude Opus 4.6입니다. Anthropic도 같은 분야에서 강력한 에이전트 기능을 제공하고 있고, Claude Cowork와 Excel 통합도 비슷한 시기에 발표됐습니다.

수치 비교는 조심해야 합니다. Anthropic은 OSWorld 동등 벤치마크 결과를 공식적으로 게재하지 않고 있습니다. iWeaver.ai가 정리한 비교표에서 Claude Opus 4.6의 Computer Use 수치는 72.70%로 제시됩니다만, 이 수치는 Anthropic이 공식 발표한 수치가 아닙니다. (출처: iWeaver.ai, 2026.03.06) 직접 비교가 공식적으로 가능한 항목만 추립니다.

항목	GPT-5.4	Claude Opus 4.6
API 입력 가격	$2.50/M 토큰	$5.00/M 토큰
API 출력 가격	$15/M 토큰	$25/M 토큰
표준 컨텍스트 창	1M (실험, 별도 설정)	200K
SWE-Bench Pro (코딩)	57.7%	51.2%
OSWorld 공식 발표	75.0% (공식)	미공개

출처: OpenAI 공식 블로그 (2026.03.05), Anthropic 공식 pricing 페이지 기준. OSWorld Anthropic 수치는 공식 공개되지 않았습니다.

입력 가격 기준으로 GPT-5.4는 Claude Opus 4.6의 절반 수준입니다. 하지만 Codex 내 1M 토큰 초과 구간 2배 과금을 감안하면, 실제 요청 패턴에 따라 비용 차이는 달라집니다. 한 모델이 절대적으로 유리한 게 아니라, 실제 워크로드에서 직접 계산해봐야 합니다.

▲ 목차로 돌아가기

GPT-5.4 요금제 구조와 실 사용 시나리오별 비용

API 기준 가격은 gpt-5.4가 입력 $2.50/M 토큰, 출력 $15/M 토큰이고, 프로 버전 gpt-5.4-pro는 입력 $30/M 토큰, 출력 $180/M 토큰으로 가격 차이가 12배입니다. Batch/Flex 처리는 표준 요금의 절반, Priority 처리는 2배로 적용됩니다. (출처: OpenAI 공식 블로그, 2026.03.05)

ChatGPT 구독 기준으로는 Plus($20/월) 이상이면 GPT-5.4 Thinking을 사용할 수 있습니다. Pro($200/월)는 GPT-5.4 Pro까지 포함합니다. Enterprise·Edu 플랜은 관리자 설정을 통해 GPT-5.4 Pro 얼리 액세스가 가능합니다.

💡 실제 비용을 계산해봤습니다

GPT-5.4가 GPT-5.2보다 token-efficient하다는 건 공식 발표에서 명시됩니다. 입력 가격은 gpt-5.2($1.75/M) 대비 gpt-5.4($2.50/M)로 약 43% 비싸지만, 복잡한 작업에서 필요한 추론 토큰이 유의미하게 줄어드는 경우 총 비용이 비슷하거나 낮아질 수 있습니다. 단, 단순 대화·요약 작업에서는 이 토큰 효율 이점이 덜 나타납니다 — 토큰이 원래 많지 않으니까요.

OpenAI가 강조한 금융 특화 기능도 주목할 만합니다. 투자 은행 주니어 애널리스트 수준의 스프레드시트 모델링 작업에서 GPT-5.4가 87.3%를 기록했고, 이는 GPT-5.2의 68.4% 대비 약 19%포인트 향상입니다. (출처: OpenAI 공식 블로그, 2026.03.05) Walleye Capital의 Daniel Swiecki는 내부 Excel 평가에서 정확도가 30%포인트 올랐다고 밝혔습니다. (출처: VentureBeat, 2026.03.05) 이 수치는 금융·회계 분야 에이전트를 구축할 때 지금 당장 쓸 수 있는 근거가 됩니다.

▲ 목차로 돌아가기

Q&A

GPT-5.4 Computer Use는 ChatGPT 앱에서 바로 쓸 수 있나요?

ChatGPT 앱에서는 GPT-5.4 Thinking으로 접근하며, 텍스트 기반 추론과 웹 검색은 바로 사용 가능합니다. 그러나 Computer Use(마우스·키보드 제어) 기능은 API와 Codex 환경에서만 제공됩니다. Playwright나 Docker 같은 실행 환경 설정이 별도로 필요합니다. (출처: OpenAI 공식 블로그, 2026.03.05)

GPT-5.2와 GPT-5.4, 지금 당장 바꿔야 할까요?

GPT-5.2 Thinking은 2026년 6월 5일까지 Legacy Models로 유지됩니다. 단순 대화·요약 작업이라면 전환이 급하지 않습니다. Computer Use, 복잡한 도구 워크플로우, 스프레드시트 자동화 작업이 있다면 지금 전환할 이유가 충분합니다. API 비용은 GPT-5.4가 GPT-5.2 대비 입력 기준 약 43% 비쌉니다만, 토큰 효율 개선으로 총 비용은 작업 유형에 따라 다릅니다.

1M 토큰 컨텍스트는 기본 API 요청에서 자동으로 적용되나요?

아닙니다. Codex에서는 model_context_window와 model_auto_compact_token_limit을 직접 설정해야 1M 컨텍스트가 활성화됩니다. 기본 설정에서는 272K 컴팩션 한도가 유지됩니다. 272K를 초과하는 입력은 정상 요금의 2배로 청구됩니다. (출처: OpenAI 공식 블로그, 2026.03.05)

GPT-5.4가 말한 대로 일을 안 할 때는 어떻게 하나요?

GPT-5.4 Thinking에서 답변 생성 중 방향을 조정하는 “Mid-response guidance” 기능이 추가됐습니다. 응답이 의도와 다른 방향으로 가고 있을 때 추가 지시를 넣으면 재시작 없이 조정이 가능합니다. 현재 ChatGPT 웹 앱과 Android에서 지원하며, iOS는 “coming soon” 상태입니다. (출처: OpenAI 공식 블로그, 2026.03.05)

GPT-5.4 Pro는 일반 GPT-5.4보다 얼마나 비싼가요?

API 기준 입력 가격이 GPT-5.4 $2.50/M 대비 GPT-5.4 Pro는 $30/M으로 12배 비쌉니다. 출력도 $15/M 대비 $180/M으로 12배 차이입니다. GDPval에서 GPT-5.4 Pro는 82.0%로 오히려 GPT-5.4의 83.0%보다 낮습니다 — 단일 전문직 작업 수행력보다는 복잡도 상한이 필요한 시나리오에서 차이가 나는 구조입니다. (출처: OpenAI 공식 블로그, 2026.03.05)

▲ 목차로 돌아가기

마치며 — GPT-5.4, 지금 써야 하는 조건과 기다려야 하는 조건

GPT-5.4는 AI가 “대화를 잘 하는 도구”에서 “실제 컴퓨터 작업을 처리하는 시스템”으로 넘어가는 분기점을 만들었습니다. OSWorld 75%는 숫자 이상의 의미가 있습니다 — API가 없는 레거시 소프트웨어, 구형 ERP, 자동화하기 어렵던 수작업 영역이 이제 에이전트 적용 범위 안에 들어왔다는 뜻입니다.

하지만 솔직히 말하면, “인간을 넘었다”는 표현은 과장이 있습니다. 넘은 건 비전문가 일반인 평균이고, 실패율 25%는 단계가 쌓일수록 복합 오류로 증폭됩니다. Computer Use를 프로덕션에 올리려면 Playwright 실행 환경 구성, 확인 정책 설계, 불가역적 작업에 대한 인간 검토 레이어가 필요합니다 — 데모에서 보이는 것보다 구현 복잡도가 높습니다.

지금 GPT-5.4를 써야 하는 시나리오는 명확합니다. API 없는 소프트웨어 자동화, 복잡한 스프레드시트 모델링, 다수 MCP 도구를 연결한 에이전트 워크플로우. 반면 단순 대화·요약 작업은 GPT-5.2나 더 저렴한 모델로도 충분합니다. 6월 5일 GPT-5.2 종료 전까지 실제 워크로드로 직접 비교해보는 게 가장 정확합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

OpenAI 공식 발표 — Introducing GPT-5.4 (openai.com/index/introducing-gpt-5-4/)
The Verge — OpenAI’s new GPT-5.4 model is a big step toward autonomous agents (theverge.com)
VentureBeat — OpenAI launches GPT-5.4 with native computer use mode (venturebeat.com)
Context Studios — GPT-5.4 Computer Use: What AI Agents Can Do Now (contextstudios.ai)
iWeaver.ai — OpenAI launches ChatGPT-5.4: Native Computer Use & AI Agents (iweaver.ai)

본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI의 모델 가격, 요금제, 벤치마크 수치는 공식 발표 이후 업데이트될 수 있으므로 최신 정보는 openai.com에서 직접 확인하세요.

Aardvark OpenAI, AI에이전트2026, ChatGPT업데이트, Computer Use, GPT-5.4

GPT-5.4 Computer Use, 인간 넘었다고요? 기준이 다릅니다

GPT-5.4 Computer Use,
인간 넘었다고요? 기준이 다릅니다

GPT-5.4가 정확히 뭔가요 — 한 줄 핵심부터

Computer Use, 두 가지 모드가 있고 둘은 완전히 다릅니다

벤치마크 75%가 가리는 것 — 실패율 25%의 의미

1M 토큰 컨텍스트, 초과하면 가격이 2배로 뜁니다

Tool Search 47% 절감, 모든 작업에 해당하는 숫자가 아닙니다

Claude Opus 4.6과의 실제 차이 — 공개된 수치로만 비교

GPT-5.4 요금제 구조와 실 사용 시나리오별 비용

Q&A

마치며 — GPT-5.4, 지금 써야 하는 조건과 기다려야 하는 조건

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4 Computer Use, 인간 넘었다고요? 기준이 다릅니다

GPT-5.4 Computer Use,인간 넘었다고요? 기준이 다릅니다

GPT-5.4가 정확히 뭔가요 — 한 줄 핵심부터

Computer Use, 두 가지 모드가 있고 둘은 완전히 다릅니다

벤치마크 75%가 가리는 것 — 실패율 25%의 의미

1M 토큰 컨텍스트, 초과하면 가격이 2배로 뜁니다

Tool Search 47% 절감, 모든 작업에 해당하는 숫자가 아닙니다

Claude Opus 4.6과의 실제 차이 — 공개된 수치로만 비교

GPT-5.4 요금제 구조와 실 사용 시나리오별 비용

Q&A

마치며 — GPT-5.4, 지금 써야 하는 조건과 기다려야 하는 조건

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

GPT-5.4 Computer Use,
인간 넘었다고요? 기준이 다릅니다