GPT-5.4 Computer Use, 4가지 조건에서 막힙니다

Published on

2026년 3월 22일

2026.03.05 출시 기준
IT / AI

GPT-5.4 Computer Use,
4가지 조건에서 막힙니다

GPT-5.4 Computer Use는 마우스·키보드를 직접 조작하는 AI 에이전트 기능입니다. 벤치마크에서 인간 평균(72.4%)을 넘어선 75.0%를 기록했지만, 막상 써보면 플랜·모델·컨텍스트 조건에 따라 아예 작동하지 않는 경우가 있습니다. (출처: OpenAI 공식 발표, 2026.03.05)

75.0%

OSWorld 성공률

인간 72.4%

인간 평균 대비

4가지

막히는 조건

GPT-5.4 Computer Use가 실제로 뭘 하는 기능인지

GPT-5.4 Computer Use는 스크린샷을 보고 마우스 클릭과 키보드 입력을 직접 내려보내는 기능입니다. 이전 버전까지는 “이렇게 하세요”라고 알려주는 수준이었다면, GPT-5.4는 실제로 화면을 보고 버튼을 누르고 폼을 채웁니다. OpenAI가 공식 발표에서 “AI 에이전트 분야의 주요 도약”이라고 표현한 건 이 부분 때문입니다. (출처: OpenAI 공식 블로그, 2026.03.05)

OSWorld-Verified 벤치마크 기준으로 GPT-5.4는 75.0% 성공률을 기록했습니다. 같은 테스트에서 인간 평균은 72.4%입니다. 숫자만 보면 AI가 사람보다 낫다는 결론처럼 보이지만, 테스트 환경이 고정된 데스크톱 탐색 시나리오라는 점은 감안해야 합니다. 실제 업무 환경처럼 동적으로 변하는 화면에서의 성공률은 공식 문서에서 별도로 밝히지 않았습니다.

핵심은 이 기능이 API와 Codex 환경에서만 네이티브로 작동한다는 점입니다. ChatGPT 웹에서 쓸 수 있는 “에이전트 모드”는 이와 비슷해 보이지만 엄밀히 다른 동작 방식입니다. 이 차이가 실제 사용에서 생각보다 많이 막히는 이유가 됩니다.

▲ 목차로 돌아가기

막히는 조건 ① — gpt-5.4-pro에서는 400 에러가 납니다

⚠️ 실제 확인된 에러

Error code: 400 — "Tool 'computer' is not supported with gpt-5.4-pro."

OpenAI 공식 모델 페이지에는 gpt-5.4-pro에서도 “Computer Use: 지원”이라고 표기되어 있습니다. 그런데 실제로 Python SDK를 써서 tools=[{"type": "computer"}]를 gpt-5.4-pro에 붙이면 400 에러가 납니다. (출처: OpenAI 커뮤니티 포럼, 2026.03.10)

OpenAI 공식 API 문서는 computer 툴을 gpt-5.4에서만 안내하고 있고 gpt-5.4-pro는 언급하지 않습니다. 즉, 모델 소개 페이지와 API 문서가 엇갈려 있는 상황입니다. 이유는 아직 공식 답변이 없습니다.

💡 공식 문서와 실제 API 응답을 같이 놓고 보니 이런 차이가 보였습니다

Pro 플랜 구독자라면 성능이 제일 좋을 것 같은 gpt-5.4-pro를 Computer Use에 쓰고 싶겠지만, 지금은 기본 모델 gpt-5.4만 실제로 작동합니다. Pro 버전 지원 일정은 공개되지 않았습니다.

▲ 목차로 돌아가기

막히는 조건 ② — Plus 플랜은 주간 3,000건 한도가 있습니다

ChatGPT Plus와 Business 플랜에서 GPT-5.4 Thinking을 직접 선택해 쓸 수 있는 건 주간 최대 3,000건입니다. 3,000건을 다 쓰면 팝업이 뜨고 GPT-5.4 Thinking은 더 이상 직접 선택할 수 없게 됩니다. (출처: OpenAI Help Center, 2026.03.22 기준)

흔히 오해하는 게 있습니다. GPT-5.3 Instant에서 GPT-5.4 Thinking으로 자동 전환될 때는 이 한도에 카운트되지 않습니다. Instant 모드가 판단해서 알아서 Thinking으로 넘기는 경우는 예외입니다. 직접 Thinking을 선택한 메시지만 주간 3,000건에 포함됩니다.

에이전트 워크플로우를 짜서 자동화를 돌리는 경우라면 3,000건이 생각보다 빠르게 소진됩니다. Computer Use로 멀티스텝 작업 하나를 처리할 때 내부적으로 수십 번의 스크린샷 분석과 액션 호출이 일어나기 때문입니다. 한 번의 작업이 카운트 측면에서 한 건인지 복수 건인지는 공식 문서에서 명확히 밝히지 않았습니다.

▲ 목차로 돌아가기

막히는 조건 ③ — 컨텍스트 256K 넘으면 성능이 급감합니다

💡 OpenAI 공식 벤치마크를 구간별로 뜯어보니 이게 보였습니다

“1M 토큰 컨텍스트 지원”이라는 홍보 문구 뒤에, 실제 정확도가 컨텍스트 길이에 따라 얼마나 달라지는지는 잘 언급되지 않습니다.

OpenAI 공식 발표에 포함된 Graphwalks BFS 벤치마크 수치를 보면 이야기가 달라집니다. 컨텍스트가 0~128K 범위일 때 GPT-5.4의 성공률은 93.0%입니다. 그런데 256K~1M 구간으로 넘어가면 21.4%로 뚝 떨어집니다. (출처: OpenAI 공식 발표 벤치마크 테이블, 2026.03.05) 약 4.3배 차이입니다.

컨텍스트 구간	GPT-5.4 성공률	실사용 의미
0 ~ 128K 토큰	93.0%	일반 업무 문서 처리, 안정적
256K ~ 1M 토큰	21.4%	대형 리포지터리·장문 계약 분석 시 주의

Codex에서 1M 컨텍스트를 실험적으로 쓸 수 있지만, 표준 272K를 초과하는 요청은 사용량 계산에서 2배로 카운트됩니다. 비용도 2배로 늘어나는데 성공률은 오히려 21.4%로 급감하는 구간이 존재한다는 뜻입니다.

에이전트가 대용량 코드 리포지터리를 통째로 넣고 Computer Use를 돌리는 시나리오에서는, 128K 이하로 자르는 분할 전략이 정확도와 비용 양쪽에서 모두 낫습니다.

▲ 목차로 돌아가기

막히는 조건 ④ — ChatGPT 앱에선 Computer Use가 없습니다

GPT-5.4 Thinking은 ChatGPT 웹·Android 앱에서는 이미 사용 가능합니다. 하지만 이 경우 Computer Use, 즉 computer 툴을 직접 호출하는 기능은 없습니다. ChatGPT에 있는 “에이전트 모드”는 웹 검색·코드 실행·파일 분석 같은 ChatGPT 내장 도구를 쓰는 것이지, OS 수준의 마우스·키보드 조작이 아닙니다.

iOS 앱의 경우 2026년 3월 22일 현재 GPT-5.4 Thinking 자체가 아직 롤아웃 중입니다. OpenAI 공식 발표에서는 “Android 앱은 지금 가능, iOS 앱은 곧 출시(coming soon)”라고 표현했습니다. (출처: OpenAI 공식 발표문, 2026.03.05)

OS 수준 Computer Use를 쓰려면 OpenAI API 또는 Codex로 접근해야 합니다. ChatGPT Pro 구독만 갖고 있어도 API 요금은 별도 과금이 되고, gpt-5.4 기준으로 입력 토큰 $2.50/M, 출력 토큰 $15.00/M입니다. (출처: OpenAI 공식 발표 API 가격표, 2026.03.05) 한 번의 Computer Use 세션이 수백~수천 토큰을 쓴다는 점을 감안하면 비용 계산을 미리 해두는 게 좋습니다.

▲ 목차로 돌아가기

그럼에도 GPT-5.4가 실제로 잘하는 것

한계만 있는 건 아닙니다. 공식 벤치마크에서 GPT-5.4가 GPT-5.2 대비 확실히 개선된 영역이 있고, 이건 실사용에서도 차이가 납니다.

먼저 스프레드시트 모델링입니다. 투자은행 주니어 애널리스트 수준의 엑셀 작업 내부 벤치마크에서 GPT-5.4는 87.3%를 기록했습니다. 이전 GPT-5.2가 같은 테스트에서 68.4%였으니 약 19%포인트 상승입니다. 공식 수치 그대로입니다. (출처: OpenAI 공식 발표, 2026.03.05) 단순 수치 입력이 아니라 구조화된 재무 모델링에서 실제 쓸 만한 수준이 됐다는 뜻입니다.

할루시네이션 감소도 체감할 수 있는 수준입니다. 사용자가 사실 오류를 신고한 실제 프롬프트 기준으로 개별 주장이 틀릴 확률이 GPT-5.2 대비 33% 낮아졌고, 오류가 하나라도 포함된 응답 비율은 18% 줄었습니다. (출처: OpenAI 공식 발표, 2026.03.05) 법률·재무처럼 정확도가 중요한 업무에서 의미 있는 수치입니다.

💡 Tool Search 기능을 GPT-5.2와 나란히 테스트해보니 이런 차이가 나왔습니다

Tool Search는 마케팅 문구처럼 들릴 수 있지만, Scale MCP Atlas 250개 과제에서 동일 정확도로 토큰 사용량을 47% 줄인 수치가 공식 발표에 포함되어 있습니다. 큰 MCP 서버 생태계를 쓰는 개발자에게는 비용 절감이 바로 체감됩니다.

▲ 목차로 돌아가기

플랜별 Computer Use 가용 여부 한눈에 정리

GPT-5.4 출시 직후 혼란이 많은 이유 중 하나가 플랜마다 접근 경로와 한도가 다르기 때문입니다. 아래 표는 2026.03.22 기준 공식 문서를 바탕으로 정리했습니다.

플랜	GPT-5.4 Thinking	Computer Use (API)	주간 한도
Free	자동 전환만	❌	5시간당 10건
Plus / Business	✅ 직접 선택 가능	✅ (API 별도 과금)	주간 3,000건
Pro	✅ 무제한*	✅ (API 별도 과금)	약관 내 무제한
API (gpt-5.4)	✅	✅	사용량 기반 과금
API (gpt-5.4-pro)	✅	❌ (400 에러)	사용량 기반 과금

*Pro 플랜 무제한은 약관 내 정상 사용 기준이며, 자동화 추출·계정 공유·서비스 재판매는 금지됩니다. (출처: OpenAI Help Center, 2026.03.22 기준)

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. ChatGPT Plus에서 GPT-5.4 Computer Use를 쓸 수 있나요?

ChatGPT 인터페이스에서는 OS 수준의 Computer Use를 직접 쓸 수 없습니다. Plus는 GPT-5.4 Thinking을 주간 3,000건까지 직접 선택할 수 있지만, computer 툴을 호출하는 네이티브 Computer Use는 API 또는 Codex를 통해서만 가능합니다.

Q2. gpt-5.4-pro에서 Computer Use 400 에러가 언제 해결되나요?

OpenAI 팀에서 이슈를 접수했다는 커뮤니티 포럼 답변은 있었지만, 해결 일정은 공개되지 않았습니다. 당장 Computer Use가 필요하다면 gpt-5.4 (non-pro)를 사용해야 합니다.

Q3. 1M 토큰 컨텍스트를 쓰면 비용이 얼마나 나오나요?

Codex에서 272K를 초과하는 요청은 사용량이 2배로 계산됩니다. 예를 들어 600K 토큰 입력이라면 청구 기준으로는 1.2M 토큰입니다. API 입력 단가 $2.50/M 토큰 기준으로 600K 입력 한 번에 약 $3.00(약 4,400원)가 됩니다. 성공률이 21.4% 구간임을 감안하면 비효율적인 경우가 많습니다.

Q4. GPT-5.2 Thinking은 언제 완전히 없어지나요?

Q5. iOS 앱에서 GPT-5.4는 언제 쓸 수 있나요?

2026년 3월 5일 출시 시점에 iOS 앱은 “곧 출시(coming soon)” 상태였습니다. 현재(2026.03.22) 공식 릴리스 일정은 발표되지 않았습니다. Android 앱은 출시일부터 바로 사용 가능했습니다.

▲ 목차로 돌아가기

마치며 — 써볼 만한가, 아닌가

솔직히 말하면, GPT-5.4 Computer Use는 ‘아직 완성된 제품’이라기보다 ‘빠르게 발전 중인 기능’에 가깝습니다. OSWorld에서 인간을 앞질렀다는 벤치마크는 인상적이지만, gpt-5.4-pro에서 400 에러가 나고 컨텍스트 256K를 넘으면 성공률이 21.4%로 뚝 떨어지는 현실도 공식 문서에 고스란히 드러납니다.

지금 당장 쓸 만한 경우는 API나 Codex를 통해 자동화 에이전트를 짜는 개발자, 그리고 컨텍스트를 128K 이하로 잘게 쪼갤 수 있는 반복 작업입니다. 스프레드시트 모델링, 멀티스텝 웹 브라우저 작업, Tool Search를 활용한 MCP 서버 통합 같은 영역은 실제로 GPT-5.2 대비 체감 차이가 납니다.

반면 ChatGPT 앱에서 뭔가 드라마틱한 변화를 기대하거나, 1M 토큰 전 구간에서 일관된 정확도를 원한다면 아직 기대를 조정할 필요가 있습니다. GPT-5.2 Thinking은 2026년 6월 5일까지는 레거시로 남아 있으니, 그때까지는 용도에 맞게 두 모델을 함께 쓰는 게 현실적입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

① OpenAI 공식 발표 — Introducing GPT-5.4 (openai.com)
② OpenAI Help Center — GPT-5.3 and GPT-5.4 in ChatGPT (help.openai.com)
③ OpenAI Developer Docs — Latest Model Guide (developers.openai.com)
④ OpenAI Community Forum — Computer use not working with gpt-5.4-pro (2026.03.10)

본 포스팅은 2026년 3월 22일 기준으로 작성되었습니다. OpenAI의 서비스 정책·UI·기능은 업데이트로 언제든 변경될 수 있으며, 본 포스팅 작성 이후 내용이 달라질 수 있습니다. API 가격 및 사용 한도는 반드시 OpenAI 공식 문서에서 최신 정보를 확인하세요.

Aardvark OpenAI, AI에이전트2026, ChatGPT 2026, Computer Use, GPT-5.4

GPT-5.4 Computer Use, 4가지 조건에서 막힙니다

GPT-5.4 Computer Use,
4가지 조건에서 막힙니다

GPT-5.4 Computer Use가 실제로 뭘 하는 기능인지

막히는 조건 ① — gpt-5.4-pro에서는 400 에러가 납니다

막히는 조건 ② — Plus 플랜은 주간 3,000건 한도가 있습니다

막히는 조건 ③ — 컨텍스트 256K 넘으면 성능이 급감합니다

막히는 조건 ④ — ChatGPT 앱에선 Computer Use가 없습니다

그럼에도 GPT-5.4가 실제로 잘하는 것

플랜별 Computer Use 가용 여부 한눈에 정리

자주 묻는 질문 5가지

마치며 — 써볼 만한가, 아닌가

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.4 Computer Use, 4가지 조건에서 막힙니다

GPT-5.4 Computer Use가 실제로 뭘 하는 기능인지

막히는 조건 ① — gpt-5.4-pro에서는 400 에러가 납니다

막히는 조건 ② — Plus 플랜은 주간 3,000건 한도가 있습니다

막히는 조건 ③ — 컨텍스트 256K 넘으면 성능이 급감합니다

막히는 조건 ④ — ChatGPT 앱에선 Computer Use가 없습니다

그럼에도 GPT-5.4가 실제로 잘하는 것

플랜별 Computer Use 가용 여부 한눈에 정리

자주 묻는 질문 5가지

마치며 — 써볼 만한가, 아닌가

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기