TECH
GPT-5.4 Computer Use, 쓰면 안 되는 딱 한 가지 상황
OSWorld 75.0%로 인간을 넘겼다는 GPT-5.4. 그런데 공식 발표문 안에 숨어 있는 수치가 있습니다. 10단계 작업에서 실제 성공 확률이 35%까지 떨어지는 이유, 그리고 272K 토큰을 넘기는 순간 API 비용이 두 배가 되는 구조를 직접 계산해봤습니다.
GPT-5.4 Computer Use, 이게 뭐가 다른가요?
GPT-5.4는 2026년 3월 5일 OpenAI가 공개한 모델입니다. 기존 GPT-5.2에서는 Computer Use 기능을 별도 CUA(Computer-Using Agent) 모델로 운영했는데, GPT-5.4부터는 추론·코딩·에이전트 워크플로우·컴퓨터 사용이 하나의 모델로 통합됐습니다. (출처: OpenAI 공식 발표문, 2026.03.05)
단순히 말하면, AI가 화면을 보고 마우스를 클릭하고 키보드를 입력합니다. 사람이 쓰는 방식 그대로 소프트웨어를 조작할 수 있게 됐다는 뜻입니다. 이전까지는 API가 없는 레거시 시스템이나 별도 커넥터가 없는 포털을 자동화하려면 RPA(로보틱 프로세스 자동화) 도구를 써야 했습니다. RPA는 버튼 위치가 바뀌거나 UI가 조금만 변해도 스크립트가 깨집니다. GPT-5.4는 화면을 “이해”하기 때문에 UI가 달라져도 맥락을 파악해서 계속 작업을 진행합니다.
기술적인 구조는 비교적 단순합니다. ① 스크린샷 캡처 → ② 화면 분석 → ③ 다음 행동 결정 → ④ 마우스·키보드 명령 실행 → ⑤ 결과 확인 후 다시 ①. 이 루프를 작업이 완료될 때까지 반복합니다.
OSWorld 75%가 말하지 않는 것
OpenAI 공식 발표문에 따르면 GPT-5.4는 OSWorld-Verified에서 75.0%를 기록했습니다. 사람의 기준선인 72.4%를 넘은 수치입니다. (출처: OpenAI 공식 발표문, 2026.03.05) 좋게 들리지만, 이 숫자를 어떻게 읽어야 하는지가 중요합니다.
💡 공식 수치와 실제 사용 흐름을 나란히 놓고 보니 이런 차이가 보였습니다.
OSWorld는 단일 앱 안에서의 단순 작업 성공률이 높습니다. 반면 여러 앱을 넘나드는 복합 작업은 현저히 낮아집니다. 벤치마크 설명을 보면 “복잡한 멀티스텝 태스크 기준”이라고 명시하는데, 여기서 제어된 환경과 실제 기업 환경의 격차가 생깁니다. (출처: MindStudio 분석 리포트, 2026.03.07)
독립적인 6개 실측 평가(Nate’s Newsletter, 2026.03.07)를 보면 더 솔직한 결과가 나옵니다. GPT-5.4는 정량적 모델링·파일 처리에서는 Claude Opus 4.6을 앞섰습니다. 반면 “100m 거리 세차장에 가야 한다면 걸을까, 차를 몰까”라는 상식 문제에서 Claude와 Gemini 3.1은 “차를 몰아야 한다”고 즉답했지만, GPT-5.4는 몇 가지 예외 사항을 나열한 뒤 “걸어도 된다”는 오답을 냈습니다. 덜컥 “최고 모델”이라고 믿고 검증 없이 쓰다가 놓치는 케이스가 생길 수 있다는 뜻입니다.
벤치마크가 높다고 실무에서 모든 걸 맡길 수 있는 건 아닙니다. 특히 사람이 확인하지 않는 무인 자동화 파이프라인에서는 더 그렇습니다.
10단계 작업에서 성공률이 35%가 되는 계산
이 부분이 가장 중요합니다. 많은 소개 글에서 “GPT-5.4는 75% 성공률”이라고만 전하고 끝냅니다. 그런데 이 수치는 단일 스텝 단위 또는 단일 도메인 기준일 때 이야기입니다. 실제 자동화 작업은 여러 단계가 연속됩니다.
📐 단계별 실패율 누적 계산 (직접 검증 가능)
각 단계 성공률 90%로 가정할 때:
- 5단계 작업: 0.9⁵ ≈ 59%
- 10단계 작업: 0.9¹⁰ ≈ 35%
- 20단계 작업: 0.9²⁰ ≈ 12%
(출처: MindStudio 분석 리포트, 2026.03.07 / 계산 방식은 직접 검증 가능)
각 단계마다 90%씩 성공해도 10단계짜리 작업 전체가 완주될 확률은 35%입니다. 나머지 65%는 중간에 실패합니다. 사람이 실시간으로 지켜보고 있지 않다면, 잘못된 데이터가 시스템에 입력되거나 구매가 두 번 처리될 수 있습니다.
OpenAI도 이 점을 인식하고 있습니다. 공식 발표문을 보면 “GPT-5.4의 행동은 developer messages로 조정 가능하며, 위험 수준에 맞게 확인 정책(confirmation policy)을 커스터마이징할 수 있다”고 명시합니다. (출처: OpenAI 공식 발표문, 2026.03.05) 즉, 사람의 개입 없이 완전 자동화로 쓰는 건 OpenAI 자신도 추천하지 않는 방식입니다.
⚠️ 실수가 되돌릴 수 없는 상황엔 특히 주의해야 합니다. 이메일 발송, 구매 완료, 파일 삭제처럼 “실행 취소”가 어려운 작업에서는 사람이 최종 확인하는 체크포인트가 필수입니다.
272K 토큰을 넘기면 API 비용이 달라집니다
GPT-5.4가 지원하는 컨텍스트 창은 최대 1.05M 토큰(약 100만 토큰)입니다. 긴 코드베이스나 대용량 문서를 한 번에 처리할 수 있다는 게 큰 장점으로 홍보됐습니다. 그런데 공식 요금표를 보면, 비용이 선형으로 늘지 않습니다.
| 구간 | 입력 가격 (100만 토큰당) | 비고 |
|---|---|---|
| 0 ~ 272K 토큰 | $2.50 | 표준 요금 |
| 272K 초과 ~ 1.05M | $5.00 (2배) | 롱컨텍스트 할증 |
| 캐시된 입력 | $0.25 | 90% 할인 |
(출처: OpenAI 공식 발표문 내 요금표, 2026.03.05)
272K 토큰은 약 20만 단어, 400쪽짜리 문서에 해당합니다. 코드베이스 전체를 올리거나, 긴 대화를 이어가다 보면 생각보다 빠르게 도달하는 수치입니다. 이 선을 넘는 순간 같은 요청에 대한 입력 비용이 두 배가 됩니다. 정확히는 초과 부분만 2배가 아니라 전체 세션 요금 구조가 바뀌는 방식이므로, 실제 청구서를 보고 나서야 아는 경우가 생깁니다.
💡 글로벌GPT 가격 분석 자료(2026.03.06)에 따르면 이 기준을 “롱컨텍스트 할증(reasoning tax)”이라고 표현했습니다.
대용량 법률 문서나 대형 코드베이스를 다루는 팀이라면, 세션 설계 단계에서 272K 기준을 의식해서 컨텍스트를 분할할지 여부를 미리 결정해야 합니다.
Pro와 표준, 비용 차이가 12배인 이유
GPT-5.4에는 두 가지 API 티어가 있습니다. 표준(gpt-5.4)과 프로(gpt-5.4-pro). 발표 자료 어디에도 두 모델이 구체적으로 무엇이 다른지 자세하게 설명하지 않아서, 많은 글이 그냥 “Pro가 더 좋다”고 넘어갑니다. 공식 발표문을 보면 “deep-horizon reasoning에 특화된 하드웨어를 사용한다”는 언급만 있습니다. (출처: OpenAI 공식 발표문, 2026.03.05)
| 모델 | 입력 (100만 토큰) | 출력 (100만 토큰) | 표준 대비 |
|---|---|---|---|
| gpt-5.2 | $1.75 | $14.00 | 기준 |
| gpt-5.4 | $2.50 | $15.00 | 입력 +43% |
| gpt-5.4-pro | $30.00 | $180.00 | 입력 12배 |
(출처: OpenAI 공식 발표문 내 API 요금표, 2026.03.05)
입력 기준으로 gpt-5.4-pro는 표준 대비 정확히 12배, 출력은 12배입니다. ChatGPT Pro($200/월) 구독 안에 Pro API 무제한이 포함된 게 아닙니다. ChatGPT Pro 구독은 ChatGPT 인터페이스에서의 GPT-5.4 Pro 접근을 말하고, API 호출은 별도 과금입니다. 이 두 가지를 같은 것으로 착각하면 기업 환경에서 예상 외 청구가 발생합니다.
💡 Batch 처리와 캐싱을 활용하면 실효 비용은 낮아집니다.
공식 발표문은 Batch/Flex 요금이 표준 API의 절반이라고 명시합니다. 반복 입력이 많은 작업에서 캐시 입력가($0.25)를 적극 활용하면 실제 청구 금액을 크게 줄일 수 있습니다.
실제로 써도 괜찮은 작업과 그렇지 않은 작업
솔직히 말하면, GPT-5.4 Computer Use가 진짜 빛나는 영역은 따로 있습니다. 공식 자료와 실측 데이터를 교차해서 보면 패턴이 보입니다.
✅ 써볼 만한 상황
API가 없는 레거시 포털 자동화가 가장 확실한 사례입니다. 15년 된 ERP 시스템, 정부 민원 포털, 공공 데이터 수집 사이트처럼 API 연동이 불가능한 곳에서 반복 작업을 처리하는 용도로 현실적입니다. OpenAI 내부 평가에서 세금 포털 30,000개를 대상으로 테스트했을 때 첫 시도 성공률 95%, 세 번 이내 성공률 100%를 기록했습니다. (출처: OpenAI 공식 발표문, 2026.03.05) 수치를 보면 반복되는 단순 도메인에서의 신뢰도는 높습니다.
스프레드시트·슬라이드 작성도 공식 수치가 뒷받침합니다. 내부 투자은행 모델링 벤치마크에서 GPT-5.4는 87.3%, GPT-5.2는 68.4%를 기록했습니다. (출처: OpenAI 공식 발표문, 2026.03.05) 수정 사이클이 많은 작업일수록 비용 대비 효과가 커집니다.
❌ 피해야 할 상황
무인 완전 자동화 파이프라인에는 쓰지 않는 게 낫습니다. 앞서 계산했듯 10단계 이상 작업에서 전체 성공률이 급격히 떨어집니다. 사람이 확인하지 않은 채로 결제, 발송, 삭제 같은 되돌릴 수 없는 행동이 실행되는 구조라면 GPT-5.4든 어떤 모델이든 현 시점에서는 부적합합니다.
보안이 민감한 환경도 주의가 필요합니다. 웹 콘텐츠나 문서 안에 숨겨진 텍스트가 AI에게 지시처럼 작동하는 “프롬프트 인젝션” 문제는 아직 완전히 해결되지 않았습니다. Anthropic, OpenAI, 보안 연구자들 모두 최소 권한 원칙(principle of least privilege)을 적용하도록 권고하고 있습니다. (출처: MindStudio 분석 리포트, 2026.03.07)
💡 OpenAI 공식 발표문과 실제 테스트 결과를 같이 놓고 보면 이런 결론이 나옵니다.
GPT-5.4 Computer Use는 “비서”로 쓸 때 좋고, “대리인”으로 쓸 때 위험합니다. 사람이 최종 확인하는 구조로 사용하면 생산성이 올라가고, 사람을 완전히 빼면 실패가 쌓입니다.
자주 묻는 질문 5가지
마치며
GPT-5.4 Computer Use는 분명히 한 단계 진전한 기능입니다. OSWorld 75.0%는 수치 자체로는 인상적이고, 세금 포털 자동화 테스트 결과도 단순 반복 작업에서의 가능성을 보여줍니다. 그런데 막상 써보면 다른 부분이 보입니다.
단계가 늘어날수록 실패 확률이 기하급수적으로 쌓입니다. 비용도 272K 토큰 구간을 넘기면 조용히 두 배가 됩니다. Pro 티어는 표준 대비 12배 비싸지만 벤치마크 차이는 생각보다 좁습니다. 이 세 가지를 알고 쓰는 것과 모르고 쓰는 것은 다른 결과를 냅니다.
개인적으로는, 지금 당장 GPT-5.4 Computer Use를 써봐야 할 사람은 API 없는 레거시 포털 자동화가 당장 필요한 개발자나 기업 팀입니다. 그 외에는 ChatGPT Plus에서 Thinking 기능을 먼저 체험해보고, 실제 작업에서 얼마나 차이가 나는지 직접 확인한 뒤 결정해도 늦지 않습니다.
본 포스팅 참고 자료
- OpenAI 공식 발표문 — Introducing GPT-5.4 (openai.com/index/introducing-gpt-5-4/)
- GlobalGPT — GPT-5.4 Pricing 2026 (glbgpt.com/hub/gpt-5-4-pricing/)
- MindStudio — What Is Native Computer Use in AI Models? (mindstudio.ai/blog/what-is-native-computer-use-ai-models/)
- Nate’s Newsletter — GPT-5.4 blind evaluation vs Claude Opus 4.6 and Gemini 3.1 (natesnewsletter.substack.com)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격 및 벤치마크 수치는 2026년 3월 21일 기준이며, OpenAI 공식 채널을 통해 최신 정보를 별도로 확인하시기 바랍니다. 본 글은 특정 서비스 구매를 권유하지 않습니다.


댓글 남기기