GPT-5.4 컴퓨터 제어, 이 조건 없으면 못 씁니다

Published on

2026년 3월 26일

2026.03.05 기준 / GPT-5.4
IT/AI

GPT-5.4 컴퓨터 제어, 이 조건 없으면 못 씁니다

결론부터 말씀드리면, GPT-5.4의 컴퓨터 제어 기능은 ChatGPT 화면에서 바로 켤 수 있는 기능이 아닙니다. OpenAI API를 통해 직접 구현해야 하고, 격리된 브라우저나 VM 환경까지 준비해야 작동합니다. 벤치마크는 인간 기준선을 넘었지만, 실전에서는 25%가 여전히 실패합니다. 이 글에서 조건과 수치를 공식 문서 기준으로 직접 확인했습니다.

75.0%

OSWorld-Verified 점수

72.4%

인간 기준선

API 전용

ChatGPT UI 미지원

GPT-5.4가 컴퓨터를 ‘직접’ 다룬다는 게 무슨 뜻인가요

GPT-5.4 컴퓨터 사용 기능은 2026년 3월 5일 OpenAI가 공식 발표한 것으로, 이전까지 Operator처럼 별도 제품에만 탑재됐던 컴퓨터 제어 능력을 범용 API 모델에 처음 내장한 것입니다. (출처: OpenAI 공식 발표, 2026.03.05)

작동 방식은 이렇습니다. 화면을 스크린샷으로 찍고 → 무엇이 보이는지 분석하고 → 클릭·타이핑·스크롤 같은 동작을 결정한 뒤 → 실행하고 → 다시 스크린샷을 찍어 결과를 확인합니다. 이 과정이 반복됩니다. API로 보내는 명령 하나가 단순한 텍스트 질문이 아니라 “화면 보고 판단해서 마우스 움직여”에 가깝습니다.

이전 방식인 도구 호출(tool use)과 결정적으로 다른 점은, 사전에 누군가 API 연동을 짜놓지 않아도 된다는 겁니다. 버튼이 있고 텍스트가 보이면 그냥 씁니다. 15년 된 레거시 시스템도, API가 없는 정부 포털도 마찬가지입니다. OpenAI 공식 문서에는 “인터페이스가 API가 된다(The interface becomes the API)”라고 표현했습니다. (출처: OpenAI API 공식 문서 Computer use 가이드)

💡 공식 발표문과 실제 API 구현 흐름을 같이 놓고 보면 이런 차이가 보입니다 — 기존 AI 에이전트가 “어떤 버튼 눌러줘” 식의 함수를 사람이 미리 짜놔야 했다면, GPT-5.4는 화면만 보고 스스로 “이게 버튼이구나”를 판단합니다. 연동 개발 비용이 0이 되는 게 아니라, 연동 자체가 필요 없어지는 구조입니다.

▲ 목차로 돌아가기

OSWorld 75%: 인간을 넘은 수치, 그런데 25%는 왜 실패하나요

막상 뒤집어 생각하면 다릅니다. 75%라는 건 4번에 1번은 실패한다는 뜻입니다. 10단계짜리 작업에서 각 단계가 90% 성공률이라고 가정하면, 전체 완료 확률은 35%까지 떨어집니다. 단계가 20개면 같은 계산으로 12%대입니다. 단순 화면 자동화라면 괜찮지만, 결제 처리나 계약서 제출처럼 취소가 안 되는 작업에 무감독으로 돌리기엔 아직 위험한 수치입니다.

벤치마크	GPT-5.4	GPT-5.2	인간 기준
OSWorld-Verified	75.0%	47.3%	72.4%
BrowseComp	82.7%	65.8%	—
SWE-Bench Pro	57.7%	55.6%	—
GDPval	83.0%	70.9%	—

출처: OpenAI 공식 발표(2026.03.05) / 인간 기준선은 OSWorld-Verified 연구팀 측정값

▲ 목차로 돌아가기

실제로 쓰려면 갖춰야 하는 것들

OpenAI 공식 문서는 컴퓨터 사용 기능 구현에 필요한 환경을 세 가지로 나눕니다. 어떤 경로로 구현하든 공통으로 요구되는 것은 격리된 브라우저 또는 가상 머신(VM) 환경입니다. 내 PC에서 직접 돌리지 말라는 겁니다. (출처: OpenAI API 공식 문서 Computer use 가이드)

옵션 1 — 내장 루프 사용 (가장 빠른 시작)

Responses API에서 tools:[{type:"computer"}]를 활성화하는 방식입니다. 모델이 스크린샷 요청 → 클릭·타이핑 동작 반환 → 다시 스크린샷 제출의 루프를 직접 처리합니다. Playwright나 Selenium으로 브라우저를 격리 환경에서 띄운 뒤 이 루프에 연결하면 됩니다. 권장 해상도는 1440×900 또는 1600×900입니다. 이보다 낮으면 클릭 정확도가 떨어진다고 공식 문서에 명시돼 있습니다.

옵션 2 — 기존 자동화 도구 연결

이미 Playwright, Selenium, VNC 기반 자동화 도구가 있다면 GPT-5.4를 그 위에 얹는 방식입니다. 기존 하네스를 유지하면서 모델이 자연어 목표를 받아 도구를 호출합니다. 자체 로깅·재시도·도메인 허용 목록이 있는 팀에게 더 적합합니다.

옵션 3 — 코드 실행 환경

모델이 Playwright나 PyAutoGUI 스크립트를 직접 작성하고 실행하는 방식입니다. 반복 조건문이나 DOM 기반 작업이 필요한 복잡한 워크플로우에 더 적합합니다. GPT-5.4는 이 방식에 명시적으로 훈련됐다고 공식 문서에 나와 있습니다. 시각 상호작용과 프로그래밍 방식 UI 제어를 유연하게 섞어 씁니다.

💡 옵션 1·2·3 모두에서 스크린샷 이미지 품질이 실제 성능을 좌우합니다 — 공식 문서는 detail: "original"을 권장하는데, 이 설정이 최대 10.24M 픽셀까지 허용해 클릭 좌표 오차를 줄입니다. high나 low로 낮추면 작은 체크박스나 모서리 버튼을 놓칩니다.

▲ 목차로 돌아가기

ChatGPT 구독으로는 왜 안 되는 건지

많이 착각하는 부분입니다. ChatGPT Plus나 Pro를 쓰더라도 내 컴퓨터 화면을 GPT-5.4가 직접 제어하는 기능은 ChatGPT 인터페이스에서 제공되지 않습니다. OpenAI 공식 발표에도 “API와 Codex를 통해 제공된다”고 명시돼 있습니다. (출처: OpenAI 공식 발표, 2026.03.05)

ChatGPT 화면에서 Operator를 통해 웹사이트를 탐색하는 건 별개의 기능입니다. Operator는 OpenAI 서버에 있는 격리된 브라우저 환경을 원격으로 제어하는 방식이고, 내 PC 파일이나 앱에 직접 접근하지 않습니다. GPT-5.4의 컴퓨터 사용 API는 개발자가 직접 하네스를 구축할 때 사용하는 저수준(low-level) 도구입니다. 쉽게 말하면 ChatGPT는 이미 완성된 제품이고, API는 그 제품을 직접 만드는 부품입니다.

⚠️ 정리: GPT-5.4 컴퓨터 사용 = API 키 필요 + 격리 환경 구성 필요 + 코드 작성 필요. ChatGPT 구독만으로는 접근 불가. GPT-5.4 Thinking 기능은 Plus·Pro 사용자가 ChatGPT에서 바로 쓸 수 있지만, 컴퓨터 제어는 별도입니다.

▲ 목차로 돌아가기

보안 문제: 컴퓨터를 쥔 AI가 오히려 취약해지는 경우

OpenAI 공식 가이드는 이를 “프롬프트 인젝션”으로 부르며, 화면·PDF·이메일·웹페이지에서 읽은 모든 콘텐츠를 신뢰하지 않는 입력으로 취급하라고 명시합니다. 사용자가 직접 타이핑한 지시만 실행 권한으로 인정하고, 화면에서 “이걸 해줘”라고 쓰인 텍스트는 권한으로 보지 말라는 겁니다. (출처: OpenAI API 공식 문서 Computer use 가이드)

무조건 사람 확인이 필요한 동작 목록 (공식 문서 발췌)

이메일·메시지·게시글 전송 — 대신 보내는 순간 취소 불가
금융 거래 확인 — 결제 완료 전 명시적 승인 필수
계정 권한·API 키 변경 — 되돌리기 어려운 접근 범위 변경
로컬 또는 클라우드 데이터 삭제
CAPTCHA 풀기, 새 소프트웨어 설치·실행

💡 보안 가이드를 뒤집어서 읽으면 이게 보입니다 — OpenAI가 “이것만은 꼭 사람이 확인하라”고 나열한 목록이 곧 현재 AI 에이전트가 가장 실수하기 쉬운 작업 목록입니다. 완전 자동화 전에 이 목록부터 점검하면 됩니다.

▲ 목차로 돌아가기

API 가격과 실전 투입 비용 현실

스크린샷 한 장이 상당한 양의 토큰을 씁니다. 1440×900 해상도를 detail: "original"로 처리하면 최대 10.24M 픽셀로 처리됩니다. 스텝 하나에 스크린샷 한 장씩 들어가고, 20단계 작업이면 최소 20장입니다. 오류 복구까지 생기면 스텝 수가 늘어납니다. 각 스텝은 API 응답 시간까지 합해 현실적으로 5~10초씩 걸립니다. 사람이 2분에 끝낼 작업이 15분 걸리는 경우도 나옵니다.

모델	입력 (100만 토큰)	출력 (100만 토큰)	캐시 입력
gpt-5.2	$1.75	$14	$0.175
gpt-5.4	$2.50	$15	$0.25
gpt-5.4-pro	$30	$180	—

출처: OpenAI 공식 발표(2026.03.05)

솔직히 말하면, 컴퓨터 사용 기능을 고빈도로 돌리는 건 현재 비용 구조에서 생각보다 빨리 비싸집니다. 저반복·고가치 작업(예: 레거시 시스템 데이터 추출, 정부 포털 자동 신청)에서 ROI가 나오는 구조입니다. 단순 반복 클릭은 비용 대비 효율을 꼼꼼히 따져봐야 합니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

▶ GPT-5.4는 ChatGPT Plus로 컴퓨터 제어가 가능한가요?

아닙니다. 컴퓨터 제어(computer use) 기능은 OpenAI API를 통해서만 접근 가능합니다. ChatGPT Plus·Pro에서는 GPT-5.4 Thinking 기능을 사용할 수 있지만, 직접적인 화면 제어는 API 전용입니다. Operator로 웹 브라우징을 시키는 것과는 다른 기능입니다. (출처: OpenAI 공식 발표, 2026.03.05)

▶ OSWorld 75%가 인간을 넘었는데, 실제로 믿고 쓸 수 있나요?

벤치마크는 정제된 환경에서의 수치입니다. 실전에서는 낯선 소프트웨어, 로그인 오류, 예상치 못한 팝업 등으로 성공률이 더 낮아집니다. 취소 불가능한 작업에는 반드시 사람이 개입하는 확인 단계를 넣어야 합니다. 25% 실패율을 무시하고 완전 자동화를 돌리면 반드시 사고가 납니다.

▶ 격리된 환경이 꼭 필요한가요? 내 PC에서 바로 테스트하면 안 되나요?

공식 문서에서 “격리 환경을 가능한 한 사용하라”고 명시합니다. 내 PC에서 직접 돌리면 AI 에이전트가 의도치 않게 파일을 삭제하거나, 계정 권한을 바꾸거나, 악성 웹 콘텐츠의 명령을 실행하는 경우가 생길 수 있습니다. Docker 컨테이너나 VM을 쓰는 것이 최소 안전 조건입니다. (출처: OpenAI API 공식 문서 Computer use 가이드)

▶ GPT-5.4 Pro와 기본 GPT-5.4의 차이가 컴퓨터 사용 기능에서도 있나요?

벤치마크 기준으로 GPT-5.4 Pro가 일부 항목에서 높습니다. BrowseComp에서 기본이 82.7%, Pro가 89.3%입니다. 가격은 Pro가 입력 100만 토큰당 $30으로 기본의 12배입니다. 컴퓨터 사용 작업처럼 스텝 수가 많은 경우, Pro의 정확도 향상이 전체 비용 절감으로 이어질 수 있지만, 직접 측정해보는 게 낫습니다. (출처: OpenAI 공식 발표, 2026.03.05)

▶ 기존 computer-use-preview 통합에서 gpt-5.4로 이전할 때 뭐가 바뀌나요?

모델명을 computer-use-preview에서 gpt-5.4로, 도구 타입을 computer_use_preview에서 computer로 바꾸면 됩니다. 가장 큰 구조 변경은 action 하나였던 것이 actions[] 배열로 바뀐 점입니다. 여러 동작을 한 번에 반환하기 때문에 순서대로 처리해야 합니다. truncation: "auto"는 새 방식에서 필요 없습니다. (출처: OpenAI API 공식 문서 Computer use 가이드)

▲ 목차로 돌아가기

마치며 — 총평

다만 쓸 수 있는 조건이 생각보다 까다롭습니다. API 직접 접근, 격리 환경 구성, 보안 가이드 준수까지 챙겨야 합니다. ChatGPT 구독자가 바로 켜볼 수 있는 기능이 아닙니다. 벤치마크가 인간을 넘었다는 말에 혹해서 사람 없이 돌리면 남은 25% 실패율이 반드시 문제를 만듭니다.

개인적으로 이 기능이 진짜 가치를 발휘하는 건 API가 없는 레거시 시스템 자동화와, 여러 웹사이트를 넘나드는 복잡한 리서치 작업이라고 봅니다. 단순 반복 클릭은 비용 계산을 꼼꼼히 해야 하고, 금전·권한 관련 작업은 사람 확인 단계를 절대 빼서는 안 됩니다.

📚 본 포스팅 참고 자료

본 포스팅은 2026년 3월 26일 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 가격 및 모델 스펙은 OpenAI 공식 페이지에서 최신 정보를 확인하시기 바랍니다.

Aardvark OpenAI, AI에이전트2026, CUA, GPT-5.4, 컴퓨터사용AI

GPT-5.4 컴퓨터 제어, 이 조건 없으면 못 씁니다

GPT-5.4 컴퓨터 제어, 이 조건 없으면 못 씁니다

GPT-5.4가 컴퓨터를 ‘직접’ 다룬다는 게 무슨 뜻인가요

OSWorld 75%: 인간을 넘은 수치, 그런데 25%는 왜 실패하나요