GPT-5.4 Computer Use: 마우스 없이 업무 자동화하는 법

Published on

in

GPT-5.4 Computer Use: 마우스 없이 업무 자동화하는 법

GPT-5.4 Computer Use:
마우스 없이 업무 자동화하는 법

2026년 3월 5일 출시된 GPT-5.4는 OpenAI 역사상 처음으로 범용 모델에 컴퓨터 직접 조작(Computer Use)을 기본 탑재했습니다.
AI가 화면을 보고, 클릭하고, 타이핑하는 시대가 바로 지금 시작됐습니다.

🗓 2026.03.05 출시
OSWorld 75.0% — 인간 기준 초과
Plus·Pro·Enterprise 사용 가능
엑셀·Gmail·브라우저 자동 조작

GPT-5.4 Computer Use란? — 지금 왜 중요한가

GPT-5.4 Computer Use는 AI가 사용자의 컴퓨터 화면을 스크린샷으로 인식한 뒤, 마우스 클릭과 키보드 입력을 스스로 수행하는 기능입니다.
“Quicken에서 이번 달 지출 정리해줘”라고 말하면, AI가 실제로 앱을 열고 메뉴를 탐색하고 데이터를 입력한 뒤 저장까지 완료합니다.
사람이 화면을 보며 하는 모든 반복 작업을 AI에게 통째로 위임할 수 있게 된 것입니다.

이전까지 이런 기능은 Anthropic의 Claude Computer Use나 OpenAI의 별도 ‘Operator’ 제품처럼 특수 환경에서만 가능했습니다.
그런데 GPT-5.4부터는 ChatGPT Plus(월 $20)만 구독하면 추가 설치나 별도 서비스 없이 일반 대화창에서 바로 쓸 수 있습니다.
이것이 이번 업데이트의 진짜 의미입니다 — 문턱이 낮아졌다는 것이 핵심입니다.

벤치마크 수치도 설득력 있습니다. 컴퓨터 조작 능력을 평가하는 OSWorld-Verified 기준으로 GPT-5.4는 75.0%를 기록했습니다.
숫자보다 더 중요한 사실은, 이 성능이 이제 월 2만 원대 구독으로 내 업무에 그대로 투입된다는 점입니다.

💡 핵심 인사이트: GPT-5.4 Computer Use의 등장은 단순한 AI 모델 업그레이드가 아닙니다.
“AI에게 무언가를 물어보는” 시대에서 “AI가 직접 일을 처리하는” 시대로의 전환점입니다.
기존 RPA(로봇 프로세스 자동화) 도구들이 수백만 원짜리 소프트웨어와 전문 엔지니어를 필요로 했다면, 이제는 자연어 한 줄이면 충분합니다.

▲ 목차로 돌아가기

실제로 무엇을 할 수 있나? — 5가지 자동화 시나리오

OpenAI가 공식 쇼케이스로 공개하거나 커뮤니티에서 검증된 활용 사례들을 다섯 가지로 정리했습니다.
이 중 여러분의 일상 업무와 겹치는 항목이 하나라도 있다면, 오늘부터 바로 시작할 수 있습니다.

1

이메일 분류 및 자동 답장: Gmail을 열어 특정 발신자 조건에 맞는 메일을 자동으로 필터링하고 정해진 양식의 답장을 보냅니다.
OpenAI 데모에서는 “첫 번째 이메일 분석 → 특정 주소로 답장”이 수초 이내에 완료됐습니다.
매일 반복되는 공급업체 확인 메일, 문의 응대 메일을 처리하는 데 실질적으로 활용할 수 있습니다.

2

엑셀·구글 시트 데이터 정리 및 분석: GPT-5.4와 함께 “ChatGPT for Excel/Google Sheets” 플러그인(베타)이 공개됐습니다.
자연어로 “이 시트에서 매출 상위 10개 제품을 뽑아 별도 탭에 피벗 테이블 만들어줘”라고 요청하면 직접 셀을 조작해 결과를 만들어냅니다.
투자은행 수준의 스프레드시트 모델링 벤치마크에서 점수가 68.4% → 87.5%로 급등했습니다.

3

보고서·프레젠테이션 자동 제작: 여러 웹 소스를 순차적으로 탐색하고, 필요한 데이터를 수집한 뒤 문서나 슬라이드 형태로 정리합니다.
“경쟁사 3곳의 최신 뉴스를 찾아 요약 보고서 초안 만들어줘”처럼 멀티스텝 리서치가 필요한 업무가 특히 강력해졌습니다.

4

소프트웨어 테스트 및 디버깅 루프: 개발자라면 이 기능이 핵심입니다. Codex 환경에서 코드를 작성하고, 직접 실행하고, 에러를 확인한 뒤 수정하는 build-run-verify-fix 루프를 AI가 스스로 반복합니다.
SWE-bench Pro(실제 깃허브 이슈 해결 능력)에서 57.7%를 기록하며 전 세대 대비 최고 성능을 달성했습니다.

5

장시간 에이전트 업무 자동화: 가장 인상적인 데모는 “3D 체스 Electron 앱 제작”입니다. 디자인 → 코딩 → 규칙 검증 → 배포까지 AI가 단독으로 약 3시간 동안 수십 단계를 거쳐 완성했습니다.
이처럼 긴 호흡의 작업에서는 100만 토큰 컨텍스트가 작업 맥락을 처음부터 끝까지 유지시켜 주는 핵심 역할을 합니다.

자동화 업무 필요 플랜 체감 난이도 핵심 기능
이메일 자동 분류·답장 Plus 이상 ⭐ 쉬움 Computer Use + Gmail 연동
엑셀·시트 데이터 분석 Plus 이상 ⭐⭐ 보통 Computer Use + Excel 플러그인
멀티소스 리서치 보고서 Plus 이상 ⭐⭐ 보통 BrowseComp + Tool Search
코드 디버깅 루프 Plus 이상 ⭐⭐⭐ 심화 Computer Use + Codex
장시간 에이전트 워크플로우 Pro 권장 ⭐⭐⭐ 심화 1M 컨텍스트 + Context Compaction

▲ 목차로 돌아가기

Thinking 5.4 vs Pro 5.4 — 어느 플랜이 내 것인가

같은 GPT-5.4 엔진을 기반으로 하되, 추론에 투입하는 컴퓨팅 예산이 다릅니다. 쉽게 말해 같은 선수가 어느 정도 집중력을 발휘하느냐의 차이입니다.

Thinking 5.4는 Plus(월 $20·약 2만 8천원) 구독자부터 사용할 수 있으며, 일상적인 업무 자동화에는 이것으로 충분합니다.
흥미로운 사실은 44개 직종 지식업무를 평가하는 GDPval 기준에서 Thinking 5.4(83.0%)가 Pro 5.4(82.0%)보다 오히려 더 높은 점수를 받았다는 것입니다.
즉, 일반 사무·지식 업무에서는 Pro가 반드시 더 낫다고 볼 수 없습니다. 비용 대비 가치 면에서는 Thinking이 확실한 우위입니다.

Pro 5.4는 월 $200(약 28만 원) 구독자 전용으로, 추론 예산 제한이 없는 ‘xhigh’ 모드를 항상 사용합니다.
법률 문서 분석에서 BigLaw Bench 91%를 달성한 Harvey의 사례처럼, 오류 비용이 극히 높은 전문직 업무나 수십 개 소스를 철저히 검증해야 하는 리서치에서 진가를 발휘합니다.
단, Pro 5.4에서는 이미지 생성, Apps, Memory 기능이 비활성화된다는 점도 기억해두세요.

항목 Instant 5.3 Thinking 5.4 Pro 5.4
접근 플랜 무료 포함 전체 Plus·Team·Pro·Enterprise Pro·Enterprise 전용
추론 깊이 없음 (빠른 응답) high (대부분 충분) xhigh (무제한)
Computer Use
1M 토큰 컨텍스트 ✅ (옵트인) ✅ (옵트인)
이미지 생성
API 입력 단가 별도 $2.50 / 1M 토큰 $30.00 / 1M 토큰
GDPval 점수 83.0% 82.0%
💡 결론: Computer Use 목적이라면 Thinking 5.4(Plus 플랜)가 99%의 사용자에게 최적입니다.
Pro 5.4는 법률·금융·고급 리서치처럼 “실수 한 번의 비용이 아주 큰” 전문직 업무에서만 정당화됩니다.

▲ 목차로 돌아가기

Computer Use 활성화 방법 — 단계별 설정 가이드

단, 컴퓨터를 직접 조작하는 ‘에이전트 모드’와 대화 중 화면을 분석하는 ‘비전 모드’는 진입 방법이 다르므로, 아래 단계를 순서대로 따라해 주세요.

ChatGPT 웹에서 시작하기 (모바일도 동일)

1

chatgpt.com 접속 후 로그인 — Plus·Pro 구독 여부를 먼저 확인합니다. 무료 플랜에서는 Thinking 5.4가 보이지 않습니다.

2

대화창 상단 모델 선택 드롭다운 클릭 — “Thinking 5.4” 또는 “Pro 5.4″를 선택합니다. Auto 모드는 질문 복잡도에 따라 자동 배정되니 Computer Use 확실히 쓰려면 수동 선택 권장합니다.

3

에이전트 모드 진입 — 대화창 왼쪽 하단의 “Tools” 아이콘을 클릭하면 Computer Use, Web Browse, Code Interpreter 등 도구 목록이 표시됩니다. “Computer Use”를 활성화합니다.

4

화면 공유 권한 허용 — 처음 Computer Use를 실행하면 브라우저 또는 앱이 화면 접근 권한을 요청합니다. 허용해야 AI가 현재 화면 상태를 인식할 수 있습니다.

5

자연어로 업무 지시 — “내 Gmail에서 오늘 받은 메일 중 ‘invoice’ 키워드 포함된 것 모두 찾아서 읽지 않음으로 표시해줘”처럼 구체적으로 지시합니다. 명령이 모호할수록 AI가 중간에 확인 질문을 합니다.

스티어빌리티(Steerability) 활용 팁

예를 들어 엑셀 분석을 시작한 AI가 엉뚱한 컬럼을 보고 있다고 느껴지면, 완료를 기다리지 않고 “그 컬럼 말고 D열 기준으로 바꿔줘”라고 바로 말할 수 있습니다.
긴 작업일수록 중간 수정이 훨씬 효율적이므로, 처음부터 완벽한 프롬프트를 쓰려고 시간을 낭비할 필요가 없습니다.

▲ 목차로 돌아가기

Tool Search + 100만 토큰 — 비용을 절반으로 줄이는 법

바로 Tool SearchContext Compaction입니다.
단가가 GPT-5.2 대비 올랐지만, 이 두 가지를 제대로 활용하면 실제 청구 금액은 오히려 줄어들 수 있습니다.

Tool Search: 도구 정의 토큰을 47% 절감

기존 에이전트 개발에서 가장 큰 토큰 낭비는 모든 도구(함수·API)의 정의를 매번 프롬프트에 통째로 넣어야 한다는 점이었습니다.
MCP 서버 10개를 연결하면, 사용하지도 않을 도구 설명들이 수천 토큰을 차지했습니다.
OpenAI가 MCP Atlas 250개 태스크로 측정한 결과, 동일 정확도에서 토큰 사용량 47% 절감이 확인됐습니다.

100만 토큰 컨텍스트: 기본값이 아니다

1M 토큰은 API에서 기본으로 활성화되지 않습니다. 명시적으로 파라미터를 설정해야 하며, 272K 토큰 초과 구간부터 요금이 2배로 올라갑니다.
따라서 “긴 코드베이스 전체를 한 번에 넣겠다”는 용도에만 전략적으로 사용하고, 일반 대화·단순 자동화에는 기본 272K 컨텍스트로도 충분합니다.

# Responses API에서 1M 토큰 컨텍스트 활성화 (Python SDK v1.x)
import openai
response = openai.responses.create(
model="gpt-5.4",
reasoning={"effort": "high"},
model_context_window=1_050_000,       # 1M 옵트인
model_auto_compact_token_limit=900_000, # Compaction 트리거 임계값
input=[{
"role": "user",
"content": "전체 코드베이스를 분석하고 리팩토링 계획 세워줘"
}]
)
print(response.output[0].content[0].text)
💰 월 비용 시뮬레이션 (하루 50건 에이전트 태스크 기준):
• Thinking 5.4 전용 → 월 약 $63
• Pro 5.4 전용 → 월 약 $765
• 하이브리드 (Pro 10% + Thinking 90%) → 월 약 $134
Tool Search 적용 시 실제 비용은 47%까지 추가 절감 가능합니다.

▲ 목차로 돌아가기

실전 프롬프트 템플릿 — 복붙하면 바로 되는 명령어 5선

Computer Use의 효과는 프롬프트 품질에 크게 좌우됩니다. 아래 다섯 가지 템플릿은 “목표 + 범위 + 출력 형식”을 명확히 지정하는 구조로 설계됐습니다.
그대로 복사해서 쓰거나, 자신의 업무에 맞게 괄호 안 부분만 바꿔 사용하세요.

① 이메일 자동 처리

내 Gmail을 열어줘. 오늘 받은 메일 중 발신자가 [회사명 또는 도메인]이거나
제목에 [키워드]가 포함된 메일을 모두 찾아줘.
각 메일의 제목, 발신자, 핵심 요청 사항을 표 형태로 정리하고,
답장이 필요한 건에는 [아래 템플릿]을 기반으로 초안을 작성해줘.
초안은 내가 확인한 뒤 전송할 거니까, 발송은 하지 말고 임시저장해줘.

② 엑셀 데이터 분석 및 피벗

현재 열려 있는 Excel 파일의 [시트명] 시트를 분석해줘.
[A열: 날짜, B열: 제품명, C열: 매출액] 구조로 되어 있어.
월별 제품 카테고리별 매출 합계를 새 시트 '분석결과'에
피벗 테이블로 만들고, 상위 3개 제품을 별도로 강조 표시해줘.
데이터 범위는 2행부터 마지막 행까지야.

③ 웹 리서치 보고서

아래 3개 회사의 최근 1개월 뉴스와 공식 발표 자료를 웹에서 수집해줘:
[회사A], [회사B], [회사C]
각 회사별로: ①주요 제품·서비스 변경사항, ②파트너십·투자 소식,
③주가/매출 관련 발표를 정리하고,
마지막에 우리 회사에 미칠 시사점 2~3줄을 추가해줘.
결과는 Markdown 표 형식으로 출력해줘.

④ 코드 버그 탐지 및 수정

현재 VS Code에 열려 있는 [파일명.py]를 분석해줘.
이 코드를 실행해서 발생하는 에러를 모두 잡아줘.
수정 전 원본 코드와 수정 후 코드를 나란히 보여주고,
변경 이유를 각 줄 옆에 주석으로 달아줘.
수정된 파일은 [파일명_fixed.py]로 같은 폴더에 저장해줘.

⑤ 장시간 에이전트 워크플로우 (Pro 5.4 권장)

아래 목표를 달성하는 완전한 Python 웹 앱을 만들어줘:
[앱 설명 — 예: 사용자가 CSV를 업로드하면 자동으로 시각화 대시보드를 생성]
단계별로 진행해줘:
1단계: 요구사항 분석 및 폴더 구조 설계 → 내게 확인받기
2단계: 핵심 백엔드 로직 작성 → 실행 테스트
3단계: 프론트엔드 UI 작성 → 브라우저에서 결과 확인
4단계: 에러 수정 및 엣지 케이스 처리
5단계: README.md 작성
각 단계가 끝나면 결과를 보고하고 다음 단계 진행 여부를 물어봐줘.

▲ 목차로 돌아가기

주의사항 및 현실적 한계 — 솔직한 평가

출시 초기인 만큼 알려진 제한사항과 주의점을 솔직하게 정리했습니다.

알려진 제한사항 4가지

!

컨텍스트가 얇을 때 도구 라우팅 불안정: 대화 초반에는 AI가 어떤 도구를 써야 할지 판단이 덜 정확합니다.
작업 시작 전에 “너는 ~을 하는 에이전트야. 사용 가능한 도구는 ~이야”처럼 역할과 도구를 명시적으로 선언하면 안정성이 높아집니다.

!

272K 초과 시 비용 2배 과금: 1M 토큰 컨텍스트를 무심코 활성화해두면 긴 작업에서 토큰이 임계치를 넘어 청구 금액이 갑자기 2배가 될 수 있습니다.
일반 업무에는 기본 컨텍스트 설정으로 충분합니다. API 사용자는 반드시 토큰 모니터링을 설정해두세요.

!

gpt-5.4-pro는 Chat Completions API 미지원: 기존 /v1/chat/completions로 Pro 모델을 호출하면 에러가 납니다.
Pro 모델은 반드시 Responses API(/v1/responses)를 통해서만 사용할 수 있으므로, API 마이그레이션이 필요합니다.

!

한국어 환경에서의 UI 인식 한계: 화면의 한국어 텍스트나 특수 폰트가 많을 경우 OCR 인식률이 영문 환경보다 낮을 수 있습니다.
민감한 개인정보나 금융정보가 화면에 노출되는 업무에는 사용 전 반드시 보안 정책을 검토하세요.

🔍 개인적 총평: GPT-5.4 Computer Use의 OSWorld 75% 성능은 실험실 수치이고, 실제 한국어 업무 환경에서는 70~80% 수준의 성공률을 기대하는 것이 현실적입니다.
그럼에도 하루 2~3시간짜리 반복 업무를 AI에게 넘기는 것만으로도 충분한 생산성 이득이 발생합니다.
지금 당장 완벽한 자동화를 기대하기보다는, “감독하에 위임” 전략으로 점진적으로 영역을 넓혀가는 것을 권장합니다.

▲ 목차로 돌아가기

❓ Q&A 5선

GPT-5.4 Computer Use는 무료 플랜에서도 쓸 수 있나요?
아니요. GPT-5.4 Computer Use는 ChatGPT Plus(월 $20·약 2만 8천 원) 이상 구독자만 사용할 수 있습니다.
무료 플랜에서는 Instant 5.3만 제공되며 Computer Use 기능이 포함되어 있지 않습니다.
Plus에서는 Thinking 5.4를 통해 Computer Use를 포함한 대부분의 신기능을 사용할 수 있으며, 일반 업무 자동화 목적이라면 Plus로 충분합니다.
한국어 업무 환경에서도 잘 작동하나요?
기본적으로는 작동하지만, 한국어 UI 환경에서는 영문 환경보다 화면 인식률이 다소 낮을 수 있습니다.
특히 특수 폰트나 배경이 복잡한 앱에서는 가끔 UI 요소를 잘못 인식하는 경우가 있습니다.
현재(2026년 3월 기준) 초기 출시 단계이므로 향후 업데이트를 통해 개선될 것으로 예상됩니다.
중요한 업무를 위임할 때는 AI 작업 완료 후 반드시 결과를 확인하는 습관을 들이는 것이 좋습니다.
GPT-5.4를 쓸 때 개인정보 보안은 안전한가요?
OpenAI는 API 사용 데이터를 기본적으로 모델 학습에 사용하지 않도록 정책을 운용하고 있습니다.
그러나 ChatGPT 웹 대화는 기본 설정에서 서비스 개선에 활용될 수 있습니다.
민감한 개인정보, 금융 데이터, 의료 기록이 화면에 있는 상태에서 Computer Use를 실행하는 것은 피하세요.
기업·기관 사용자라면 Enterprise 플랜을 통해 데이터 비학습 약정(Zero Data Retention)을 별도로 맺는 것을 권장합니다.
공식 OpenAI 개인정보처리방침 확인은 openai.com/policies에서 하실 수 있습니다.
API로 Computer Use를 사용하려면 어떻게 해야 하나요?
API에서 Computer Use를 사용하려면 Responses API(/v1/responses)와 모델 gpt-5.4를 사용해야 합니다.
도구 목록에 {"type": "computer_use"}를 추가하면 활성화됩니다.
단, gpt-5.4-pro는 Chat Completions API가 아닌 Responses API 전용이므로, 기존 Chat Completions 코드를 마이그레이션해야 합니다.
공식 API 문서는 platform.openai.com/docs에서 확인하세요.
GPT-5.2는 언제 서비스 종료되나요?
OpenAI 공식 발표에 따르면 GPT-5.2 Instant는 2026년 6월 3일, GPT-5.2 Thinking은 2026년 6월 5일에 서비스가 종료됩니다.
현재 GPT-5.2 기반 프로덕션 환경을 운영 중이라면 6월 이전에 GPT-5.4로 마이그레이션 계획을 세워두는 것이 좋습니다.
API 단가는 GPT-5.2($1.75/1M) 대비 GPT-5.4($2.50/1M)로 약 43% 올랐지만, Tool Search로 실제 사용 토큰을 줄이면 총 비용 증가는 상쇄 가능합니다.

▲ 목차로 돌아가기

✍️ 마치며 — 총평

OSWorld 벤치마크에서 인간 기준선을 초과했다는 수치보다, 더 중요한 사실은 이 기능이 이제 월 2만 원대 구독으로 누구에게나 열렸다는 점입니다.

개인적으로 가장 주목하는 것은 Tool Search의 47% 토큰 절감Stateful 컴퓨터 환경(지속적 맥락 유지)의 조합입니다.
이 두 가지가 맞물리면, 지금까지 “AI가 중간에 맥락을 잃어서 쓸 수 없었던” 긴 업무들이 현실화됩니다.
엑셀 분석, 이메일 처리, 보고서 작성 같은 반복 업무에서 하루 2~3시간을 절약할 수 있다면, 그것만으로도 Plus 구독비의 수십 배 가치가 납니다.

물론 아직 초기 단계이고, 한국어 환경에서의 UI 인식 한계나 보안 이슈는 여전히 주의가 필요합니다.
“AI 감독관”으로서 결과를 검수하는 역할은 당분간 사람이 담당해야 합니다.
하지만 그 비중이 앞으로 계속 줄어들 것이라는 점에서, 지금이 이 기능을 학습하고 업무 프로세스에 녹여낼 최적의 시점입니다.
먼저 써본 사람이 먼저 시간을 가져갑니다.

▲ 목차로 돌아가기

※ 본 포스팅은 2026년 3월 10일 기준으로 공개된 OpenAI 공식 발표, 커뮤니티 검증 정보, 미디어 보도를 바탕으로 작성되었습니다.
실제 업무 적용 전에는 공식 문서를 통해 최신 정보를 확인하시기 바랍니다.
본 콘텐츠는 특정 서비스 구독이나 투자를 권유하는 목적으로 작성되지 않았습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기