GPT-5.4 Computer Use, 쓰면 안 되는 딱 한 가지 상황

Published on

in

GPT-5.4 Computer Use, 쓰면 안 되는 딱 한 가지 상황

GPT-5.4 기준 · 2026.03.05 출시
TECH

GPT-5.4 Computer Use, 쓰면 안 되는 딱 한 가지 상황

OSWorld 75.0%로 인간을 넘겼다는 GPT-5.4. 그런데 공식 발표문 안에 숨어 있는 수치가 있습니다. 10단계 작업에서 실제 성공 확률이 35%까지 떨어지는 이유, 그리고 272K 토큰을 넘기는 순간 API 비용이 두 배가 되는 구조를 직접 계산해봤습니다.

75.0%
OSWorld 성공률
12배
Pro vs 표준 API 비용
272K
비용 두 배 되는 토큰 기준

GPT-5.4 Computer Use, 이게 뭐가 다른가요?

GPT-5.4는 2026년 3월 5일 OpenAI가 공개한 모델입니다. 기존 GPT-5.2에서는 Computer Use 기능을 별도 CUA(Computer-Using Agent) 모델로 운영했는데, GPT-5.4부터는 추론·코딩·에이전트 워크플로우·컴퓨터 사용이 하나의 모델로 통합됐습니다. (출처: OpenAI 공식 발표문, 2026.03.05)

단순히 말하면, AI가 화면을 보고 마우스를 클릭하고 키보드를 입력합니다. 사람이 쓰는 방식 그대로 소프트웨어를 조작할 수 있게 됐다는 뜻입니다. 이전까지는 API가 없는 레거시 시스템이나 별도 커넥터가 없는 포털을 자동화하려면 RPA(로보틱 프로세스 자동화) 도구를 써야 했습니다. RPA는 버튼 위치가 바뀌거나 UI가 조금만 변해도 스크립트가 깨집니다. GPT-5.4는 화면을 “이해”하기 때문에 UI가 달라져도 맥락을 파악해서 계속 작업을 진행합니다.

기술적인 구조는 비교적 단순합니다. ① 스크린샷 캡처 → ② 화면 분석 → ③ 다음 행동 결정 → ④ 마우스·키보드 명령 실행 → ⑤ 결과 확인 후 다시 ①. 이 루프를 작업이 완료될 때까지 반복합니다.

▲ 목차로 돌아가기

OSWorld 75%가 말하지 않는 것

OpenAI 공식 발표문에 따르면 GPT-5.4는 OSWorld-Verified에서 75.0%를 기록했습니다. 사람의 기준선인 72.4%를 넘은 수치입니다. (출처: OpenAI 공식 발표문, 2026.03.05) 좋게 들리지만, 이 숫자를 어떻게 읽어야 하는지가 중요합니다.

💡 공식 수치와 실제 사용 흐름을 나란히 놓고 보니 이런 차이가 보였습니다.

OSWorld는 단일 앱 안에서의 단순 작업 성공률이 높습니다. 반면 여러 앱을 넘나드는 복합 작업은 현저히 낮아집니다. 벤치마크 설명을 보면 “복잡한 멀티스텝 태스크 기준”이라고 명시하는데, 여기서 제어된 환경과 실제 기업 환경의 격차가 생깁니다. (출처: MindStudio 분석 리포트, 2026.03.07)

독립적인 6개 실측 평가(Nate’s Newsletter, 2026.03.07)를 보면 더 솔직한 결과가 나옵니다. GPT-5.4는 정량적 모델링·파일 처리에서는 Claude Opus 4.6을 앞섰습니다. 반면 “100m 거리 세차장에 가야 한다면 걸을까, 차를 몰까”라는 상식 문제에서 Claude와 Gemini 3.1은 “차를 몰아야 한다”고 즉답했지만, GPT-5.4는 몇 가지 예외 사항을 나열한 뒤 “걸어도 된다”는 오답을 냈습니다. 덜컥 “최고 모델”이라고 믿고 검증 없이 쓰다가 놓치는 케이스가 생길 수 있다는 뜻입니다.

벤치마크가 높다고 실무에서 모든 걸 맡길 수 있는 건 아닙니다. 특히 사람이 확인하지 않는 무인 자동화 파이프라인에서는 더 그렇습니다.

▲ 목차로 돌아가기

10단계 작업에서 성공률이 35%가 되는 계산

이 부분이 가장 중요합니다. 많은 소개 글에서 “GPT-5.4는 75% 성공률”이라고만 전하고 끝냅니다. 그런데 이 수치는 단일 스텝 단위 또는 단일 도메인 기준일 때 이야기입니다. 실제 자동화 작업은 여러 단계가 연속됩니다.

📐 단계별 실패율 누적 계산 (직접 검증 가능)

각 단계 성공률 90%로 가정할 때:

  • 5단계 작업: 0.9⁵ ≈ 59%
  • 10단계 작업: 0.9¹⁰ ≈ 35%
  • 20단계 작업: 0.9²⁰ ≈ 12%

(출처: MindStudio 분석 리포트, 2026.03.07 / 계산 방식은 직접 검증 가능)

각 단계마다 90%씩 성공해도 10단계짜리 작업 전체가 완주될 확률은 35%입니다. 나머지 65%는 중간에 실패합니다. 사람이 실시간으로 지켜보고 있지 않다면, 잘못된 데이터가 시스템에 입력되거나 구매가 두 번 처리될 수 있습니다.

OpenAI도 이 점을 인식하고 있습니다. 공식 발표문을 보면 “GPT-5.4의 행동은 developer messages로 조정 가능하며, 위험 수준에 맞게 확인 정책(confirmation policy)을 커스터마이징할 수 있다”고 명시합니다. (출처: OpenAI 공식 발표문, 2026.03.05) 즉, 사람의 개입 없이 완전 자동화로 쓰는 건 OpenAI 자신도 추천하지 않는 방식입니다.

⚠️ 실수가 되돌릴 수 없는 상황엔 특히 주의해야 합니다. 이메일 발송, 구매 완료, 파일 삭제처럼 “실행 취소”가 어려운 작업에서는 사람이 최종 확인하는 체크포인트가 필수입니다.

▲ 목차로 돌아가기

272K 토큰을 넘기면 API 비용이 달라집니다

GPT-5.4가 지원하는 컨텍스트 창은 최대 1.05M 토큰(약 100만 토큰)입니다. 긴 코드베이스나 대용량 문서를 한 번에 처리할 수 있다는 게 큰 장점으로 홍보됐습니다. 그런데 공식 요금표를 보면, 비용이 선형으로 늘지 않습니다.

구간 입력 가격 (100만 토큰당) 비고
0 ~ 272K 토큰 $2.50 표준 요금
272K 초과 ~ 1.05M $5.00 (2배) 롱컨텍스트 할증
캐시된 입력 $0.25 90% 할인

(출처: OpenAI 공식 발표문 내 요금표, 2026.03.05)

272K 토큰은 약 20만 단어, 400쪽짜리 문서에 해당합니다. 코드베이스 전체를 올리거나, 긴 대화를 이어가다 보면 생각보다 빠르게 도달하는 수치입니다. 이 선을 넘는 순간 같은 요청에 대한 입력 비용이 두 배가 됩니다. 정확히는 초과 부분만 2배가 아니라 전체 세션 요금 구조가 바뀌는 방식이므로, 실제 청구서를 보고 나서야 아는 경우가 생깁니다.

💡 글로벌GPT 가격 분석 자료(2026.03.06)에 따르면 이 기준을 “롱컨텍스트 할증(reasoning tax)”이라고 표현했습니다.

대용량 법률 문서나 대형 코드베이스를 다루는 팀이라면, 세션 설계 단계에서 272K 기준을 의식해서 컨텍스트를 분할할지 여부를 미리 결정해야 합니다.

▲ 목차로 돌아가기

Pro와 표준, 비용 차이가 12배인 이유

GPT-5.4에는 두 가지 API 티어가 있습니다. 표준(gpt-5.4)과 프로(gpt-5.4-pro). 발표 자료 어디에도 두 모델이 구체적으로 무엇이 다른지 자세하게 설명하지 않아서, 많은 글이 그냥 “Pro가 더 좋다”고 넘어갑니다. 공식 발표문을 보면 “deep-horizon reasoning에 특화된 하드웨어를 사용한다”는 언급만 있습니다. (출처: OpenAI 공식 발표문, 2026.03.05)

모델 입력 (100만 토큰) 출력 (100만 토큰) 표준 대비
gpt-5.2 $1.75 $14.00 기준
gpt-5.4 $2.50 $15.00 입력 +43%
gpt-5.4-pro $30.00 $180.00 입력 12배

(출처: OpenAI 공식 발표문 내 API 요금표, 2026.03.05)

입력 기준으로 gpt-5.4-pro는 표준 대비 정확히 12배, 출력은 12배입니다. ChatGPT Pro($200/월) 구독 안에 Pro API 무제한이 포함된 게 아닙니다. ChatGPT Pro 구독은 ChatGPT 인터페이스에서의 GPT-5.4 Pro 접근을 말하고, API 호출은 별도 과금입니다. 이 두 가지를 같은 것으로 착각하면 기업 환경에서 예상 외 청구가 발생합니다.

💡 Batch 처리와 캐싱을 활용하면 실효 비용은 낮아집니다.

공식 발표문은 Batch/Flex 요금이 표준 API의 절반이라고 명시합니다. 반복 입력이 많은 작업에서 캐시 입력가($0.25)를 적극 활용하면 실제 청구 금액을 크게 줄일 수 있습니다.

▲ 목차로 돌아가기

실제로 써도 괜찮은 작업과 그렇지 않은 작업

솔직히 말하면, GPT-5.4 Computer Use가 진짜 빛나는 영역은 따로 있습니다. 공식 자료와 실측 데이터를 교차해서 보면 패턴이 보입니다.

✅ 써볼 만한 상황

API가 없는 레거시 포털 자동화가 가장 확실한 사례입니다. 15년 된 ERP 시스템, 정부 민원 포털, 공공 데이터 수집 사이트처럼 API 연동이 불가능한 곳에서 반복 작업을 처리하는 용도로 현실적입니다. OpenAI 내부 평가에서 세금 포털 30,000개를 대상으로 테스트했을 때 첫 시도 성공률 95%, 세 번 이내 성공률 100%를 기록했습니다. (출처: OpenAI 공식 발표문, 2026.03.05) 수치를 보면 반복되는 단순 도메인에서의 신뢰도는 높습니다.

스프레드시트·슬라이드 작성도 공식 수치가 뒷받침합니다. 내부 투자은행 모델링 벤치마크에서 GPT-5.4는 87.3%, GPT-5.2는 68.4%를 기록했습니다. (출처: OpenAI 공식 발표문, 2026.03.05) 수정 사이클이 많은 작업일수록 비용 대비 효과가 커집니다.

❌ 피해야 할 상황

무인 완전 자동화 파이프라인에는 쓰지 않는 게 낫습니다. 앞서 계산했듯 10단계 이상 작업에서 전체 성공률이 급격히 떨어집니다. 사람이 확인하지 않은 채로 결제, 발송, 삭제 같은 되돌릴 수 없는 행동이 실행되는 구조라면 GPT-5.4든 어떤 모델이든 현 시점에서는 부적합합니다.

보안이 민감한 환경도 주의가 필요합니다. 웹 콘텐츠나 문서 안에 숨겨진 텍스트가 AI에게 지시처럼 작동하는 “프롬프트 인젝션” 문제는 아직 완전히 해결되지 않았습니다. Anthropic, OpenAI, 보안 연구자들 모두 최소 권한 원칙(principle of least privilege)을 적용하도록 권고하고 있습니다. (출처: MindStudio 분석 리포트, 2026.03.07)

💡 OpenAI 공식 발표문과 실제 테스트 결과를 같이 놓고 보면 이런 결론이 나옵니다.

GPT-5.4 Computer Use는 “비서”로 쓸 때 좋고, “대리인”으로 쓸 때 위험합니다. 사람이 최종 확인하는 구조로 사용하면 생산성이 올라가고, 사람을 완전히 빼면 실패가 쌓입니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지


ChatGPT Plus($20/월)에서 GPT-5.4 Thinking에 접근할 수 있습니다. 다만 3시간에 80개 메시지 제한이 있습니다. Computer Use 기능은 API를 통해서만 완전하게 사용 가능하며, ChatGPT 인터페이스에서는 제한적입니다. (출처: OpenAI 공식 발표문, 2026.03.05)

단순한 문서 작성이나 짧은 대화에는 GPT-5.2가 토큰 비용 면에서 유리합니다(입력 $1.75 vs $2.50). Computer Use, 대형 코드베이스 분석, 복잡한 멀티스텝 에이전트 워크플로우를 다룰 때는 GPT-5.4가 의미 있는 차이를 냅니다. OSWorld 기준 75.0% vs 47.3%, 스프레드시트 벤치마크 87.3% vs 68.4% 차이가 실무에서 체감됩니다.

공식 벤치마크 상 차이를 보면 GDPval에서 Pro 82.0% vs 표준 83.0%로 표준이 오히려 0.9%p 높습니다. Pro가 앞서는 영역은 BrowseComp(89.3% vs 82.7%), ARC-AGI-2(83.3% vs 73.3%), FrontierMath Tier 4(38.0% vs 27.1%)입니다. (출처: OpenAI 공식 발표문, 2026.03.05) 연구·과학 계산처럼 극한 추론이 필요한 작업이 아니라면, 표준 gpt-5.4가 더 합리적입니다.

Claude의 Computer Use는 2024년 10월 개발자 베타로 먼저 출시됐고, computer·text_editor·bash 세 가지 도구를 지원합니다. GPT-5.4는 후발이지만 OSWorld 75.0% vs Claude 계열 이전 수치(약 35~50%)로 벤치마크는 앞서고 있습니다. Claude의 강점은 안전 가이드라인과 문서화 수준이 상세하다는 점입니다. API 비용은 Claude Sonnet 4.6이 입력 $3/M, GPT-5.4가 $2.50/M으로 GPT-5.4가 소폭 낮습니다.

맞습니다. OpenAI 공식 발표문에 따르면 GPT-5.2 Thinking은 유료 사용자 기준으로 3개월간 레거시 모델 항목에 유지되다가 2026년 6월 5일 종료됩니다. (출처: OpenAI 공식 발표문, 2026.03.05) 현재 GPT-5.2 Thinking을 쓰고 있다면 GPT-5.4 Thinking으로의 전환을 그 전에 완료해야 합니다.

▲ 목차로 돌아가기

마치며

GPT-5.4 Computer Use는 분명히 한 단계 진전한 기능입니다. OSWorld 75.0%는 수치 자체로는 인상적이고, 세금 포털 자동화 테스트 결과도 단순 반복 작업에서의 가능성을 보여줍니다. 그런데 막상 써보면 다른 부분이 보입니다.

단계가 늘어날수록 실패 확률이 기하급수적으로 쌓입니다. 비용도 272K 토큰 구간을 넘기면 조용히 두 배가 됩니다. Pro 티어는 표준 대비 12배 비싸지만 벤치마크 차이는 생각보다 좁습니다. 이 세 가지를 알고 쓰는 것과 모르고 쓰는 것은 다른 결과를 냅니다.

개인적으로는, 지금 당장 GPT-5.4 Computer Use를 써봐야 할 사람은 API 없는 레거시 포털 자동화가 당장 필요한 개발자나 기업 팀입니다. 그 외에는 ChatGPT Plus에서 Thinking 기능을 먼저 체험해보고, 실제 작업에서 얼마나 차이가 나는지 직접 확인한 뒤 결정해도 늦지 않습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 발표문 — Introducing GPT-5.4 (openai.com/index/introducing-gpt-5-4/)
  2. GlobalGPT — GPT-5.4 Pricing 2026 (glbgpt.com/hub/gpt-5-4-pricing/)
  3. MindStudio — What Is Native Computer Use in AI Models? (mindstudio.ai/blog/what-is-native-computer-use-ai-models/)
  4. Nate’s Newsletter — GPT-5.4 blind evaluation vs Claude Opus 4.6 and Gemini 3.1 (natesnewsletter.substack.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격 및 벤치마크 수치는 2026년 3월 21일 기준이며, OpenAI 공식 채널을 통해 최신 정보를 별도로 확인하시기 바랍니다. 본 글은 특정 서비스 구매를 권유하지 않습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기