OSWorld 인간 능가 75.0%
전문 업무 GDPval 83%
AI가 드디어 스스로 컴퓨터를 켜고, 마우스를 움직이고, 엑셀 보고서를 완성합니다.
범용 AI 최초로 네이티브 컴퓨터 사용(Computer Use)을 탑재한 GPT-5.4 —
3월 5일 출시된 지 아직 일주일도 안 됐지만, 이미 업무 현장의 규칙이 바뀌고 있습니다.
1. GPT-5.4 핵심 요약: 3분 안에 끝내는 완전 정복
GPT-5.4는 2026년 3월 5일 OpenAI가 공개한 최신 범용 AI 모델입니다. 한마디로 정의하면 "추론 + 코딩 + 컴퓨터 직접 조작"을 하나로 합친 올인원 AI입니다. 기존에는 복잡한 추론이 필요할 때 GPT-5.2 Thinking을, 코딩 작업에는 GPT-5.3 Codex를 따로 골라야 했습니다. 이제 GPT-5.4 하나로 전부 처리됩니다.
가장 큰 변화는 단연 컴퓨터 사용(Computer Use) 기능의 기본 탑재입니다. AI가 화면을 보고 마우스 클릭과 키보드 입력을 직접 수행할 수 있게 된 것인데, OpenAI 범용 모델 중에서는 이번이 최초입니다. 단순히 "답변해주는 AI"에서 "일을 직접 해주는 AI"로 패러다임이 전환된 시점이 바로 지금입니다.
📌 GPT-5.4 5줄 요약
- 출시일: 2026년 3월 5일 (ChatGPT, Codex, API 동시 적용)
- 핵심 기능: 네이티브 컴퓨터 사용 — 스크린샷 인식 후 마우스·키보드 직접 조작
- 컨텍스트: 100만 토큰 (GPT-5.2 대비 2.5배 확장)
- 오류율: GPT-5.2 대비 개별 주장 오류 33%, 전체 응답 오류 18% 감소
- 접근: ChatGPT Plus(월 $20)부터 GPT-5.4 Thinking 사용 가능
2. 컴퓨터 사용(Computer Use)이란? 진짜로 PC를 조작한다
"컴퓨터 사용"이라는 표현이 모호하게 들릴 수 있습니다. 하지만 이건 비유가 아닙니다. GPT-5.4는 실제로 화면을 캡처해서 보고, 어디를 클릭해야 하는지 판단하고, 마우스 명령과 키보드 입력을 코드로 실행합니다. 내부적으로는 Playwright 같은 브라우저 자동화 라이브러리를 활용하는 방식입니다.
구체적으로 어떤 일이 가능한지 상상해보겠습니다. 여러분이 "이 데이터로 엑셀 보고서 만들어줘"라고 요청하면, GPT-5.4는 파일을 열고, 셀을 선택하고, 수식을 입력하고, 차트를 생성하고, 파일을 저장까지 합니다. 사람이 하는 모든 클릭 과정을 AI가 대신 수행하는 것입니다. OpenAI가 내부적으로 투자은행 초급 애널리스트 수준의 엑셀 작업을 테스트한 벤치마크(FinanceAgent v1.1)에서 GPT-5.4는 87.5%를 기록했습니다. 이전 모델인 GPT-5.2의 68.4%와 비교하면 약 20%p 향상된 수치입니다.
컴퓨터 사용의 실제 작동 원리
💡 인사이트: 컴퓨터 사용 기능이 진짜 중요한 이유는 단순히 "더 잘한다"가 아닙니다. AI가 결과물을 직접 만들어서 파일로 저장해준다는 점입니다. 지금까지는 AI가 방법을 알려주면 사람이 직접 해야 했습니다. 이제는 AI가 직접 합니다.
3. GPT-5.4 vs 이전 모델: 숫자로 보는 충격적 차이
벤치마크 수치는 항상 과장이 있다는 점을 전제하고 봐야 합니다. 그럼에도 GPT-5.4의 숫자들은 눈에 띄는 개선을 보여줍니다. 특히 컴퓨터 제어 능력(OSWorld)에서의 도약은 단순한 소수점 향상이 아닌 47.3%에서 75.0%로의 28%p 점프입니다. 이건 다른 차원의 변화입니다.
| 벤치마크 | GPT-5.4 | GPT-5.3 Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (전문 업무 44종) | 83.0% | 70.9% | 70.9% |
| OSWorld-Verified (컴퓨터 제어) | 75.0% | 74.0% | 47.3% |
| SWE-Bench Pro (실전 코딩) | 57.7% | 56.8% | 55.6% |
| BrowseComp (웹 검색·조사) | 82.7% | 77.3% | 65.8% |
| FinanceAgent v1.1 (엑셀 업무) | 87.5% | — | 68.4% |
| 컨텍스트 윈도우 | 100만 토큰 | 100만 토큰 | 40만 토큰 |
※ 인간 평균(OSWorld 기준): 72.4% — GPT-5.4가 이미 인간 수준을 넘어섰습니다.
경쟁 모델과 비교하면?
같은 시점 기준으로 경쟁 모델과 비교하면 GPT-5.4의 위치가 더 명확해집니다. GDPval(전문 업무) 기준으로 Claude Opus 4.6이 78.0%, Gemini 3.1 Pro가 미공개인 상황에서 GPT-5.4의 83.0%는 현재 최고 수준입니다. 다만 코딩 전문 벤치마크(SWE-Bench Pro)에서는 Claude Opus 4.6(54.2%)을 GPT-5.4(57.7%)가 소폭 앞서는 수준으로, 절대적인 차이는 크지 않습니다. 벤치마크가 전부는 아니지만, 방향성은 명확합니다 — GPT-5.4는 일반 업무 자동화에서 현재 AI 중 가장 강력한 선택지입니다.
4. 직장인이 당장 써먹는 실전 활용 5가지 시나리오
엑셀 월별 매출 보고서 자동 생성
원시 데이터 CSV 파일을 업로드하고 "월별 매출 추이 차트와 함께 보고서 형식으로 정리해줘"라고 요청합니다. GPT-5.4는 파일을 열고, 피벗 테이블을 만들고, 차트를 삽입하고, 최종 파일을 저장합니다. 인간 초급 애널리스트 수준(87.5%)의 정확도로 처리합니다.
PPT 프레젠테이션 초안 완성
내용 개요와 참고 자료를 제공하면 GPT-5.4가 PowerPoint 파일을 직접 생성합니다. 이번 버전에서 특히 "디자인 완성도, 시각적 다양성, 이미지 활용도, 사실 정확성" 4가지 항목 모두 GPT-5.2 대비 향상됐다고 OpenAI가 공식 확인했습니다.
웹사이트에서 경쟁사 데이터 수집
"이 5개 쇼핑몰에서 이 제품의 가격 목록을 수집해서 스프레드시트로 만들어줘"라고 요청하면, Playwright 기반의 브라우저 자동화로 각 웹사이트를 직접 방문해서 데이터를 추출합니다. BrowseComp 벤치마크에서 GPT-5.4 Pro가 89.3%를 기록한 이유가 여기 있습니다.
100만 토큰 대용량 문서 한 번에 분석
수천 페이지의 계약서, 법률 문서, 또는 대규모 코드베이스를 한 번에 업로드해서 핵심 내용을 추출할 수 있습니다. 100만 토큰은 약 750만 단어에 해당하며, 이는 일반 소설 약 30권 분량입니다. 법무팀이나 금융 분석가에게 특히 유용한 기능입니다.
멀티스텝 업무 에이전트 설정
"매일 오전 9시에 이 뉴스레터를 열어서 AI 관련 기사만 추출해 슬랙 채널에 올려줘" 같은 반복 업무를 Codex 에이전트와 결합해서 자동화할 수 있습니다. GPT-5.4는 이런 멀티스텝 작업에서 이전 모델 대비 토큰 사용량을 47% 절감합니다.
5. 요금제별 GPT-5.4 접근 방법: 무료도 가능한가?
| 요금제 | 월 가격 | GPT-5.4 접근 | 주요 특징 |
|---|---|---|---|
| Free | 무료 | ❌ 미지원 | GPT-5.3 제한적 이용, 16K 컨텍스트 |
| Go | $8/월 | ❌ 미지원 | GPT-5.3 한도 확장, 32K 컨텍스트 |
| Plus ⭐ | $20/월 | ✅ 제한적 | GPT-5.4 Thinking 한도 내 사용, Codex, 32K 컨텍스트 |
| Pro | $200/월 | ✅ 무제한 | GPT-5.4 무제한, GPT-5.4 Pro, 128K 컨텍스트, BrowseComp 89.3% |
어떤 요금제를 선택해야 할까?
솔직하게 말씀드리겠습니다. 대부분의 직장인에게는 Plus($20/월, 약 3만 원)가 가장 현실적인 선택입니다. GPT-5.4 Thinking을 제한적으로 쓸 수 있고, Codex 에이전트도 포함됩니다. Pro(월 $200, 약 29만 원)는 대규모 데이터 분석이 일상인 전문 연구자나 컨설턴트가 아니라면 과분합니다. 무료 계정으로는 GPT-5.4에 직접 접근이 불가능하며, GPT-5.3까지만 제한적으로 사용할 수 있습니다.
참고로 기존 GPT-5.2 Thinking은 2026년 6월 5일 서비스 종료가 예정되어 있습니다. 현재 GPT-5.2를 사용 중이라면 GPT-5.4로의 전환을 미리 준비해두는 게 현명합니다.
💰 API 가격 참고 (개발자용): gpt-5.4는 입력 100만 토큰당 $2.50, 출력 $15입니다. GPT-5.2(입력 $1.75, 출력 $14)보다 인상됐지만, 토큰 효율 47% 향상으로 실제 비용은 비슷하거나 낮을 수 있습니다.
6. 솔직히 말하는 한계와 주의사항
한국어 표현의 어색함은 여전합니다
컴퓨터 사용 기능은 아직 실험적입니다
OpenAI 스스로 Playwright 기반 컴퓨터 사용을 "실험적 스킬(Interactive Skill)"로 분류하고 있습니다. OSWorld 75.0%라는 수치는 특정 표준화된 작업 기준이며, 실제 복잡한 기업 환경에서의 성공률은 다를 수 있습니다. 중요한 업무에 바로 적용하기보다는 반복적이고 리스크가 낮은 작업부터 테스트하는 것을 권장합니다.
벤치마크 맹신 주의: SWE-Bench Verified 미공개 논란
OpenAI가 SWE-Bench Verified 점수를 이번에 공개하지 않은 것에 대해 훈련 데이터 오염 우려가 제기되고 있습니다. 이는 벤치마크 숫자가 실제 능력의 과대 표현일 가능성을 시사합니다. 숫자는 참고 지표이며 실사용 체험으로 직접 검증해볼 것을 강조합니다.
MS-Claude 사태: OpenAI 생태계 내 경쟁 심화
마이크로소프트가 Office 365에 Claude Opus 4.6을 탑재한 사건은 OpenAI의 최대 파트너가 경쟁사 모델을 선택한 것입니다. 기술 우위와 시장 신뢰는 별개의 문제라는 점에서, GPT-5.4의 벤치마크 1위가 곧 "무조건 최선의 선택"을 의미하지 않습니다. 사용 목적에 따라 클로드나 제미나이가 더 나은 선택일 수 있으니, 비교 체험을 권장합니다.
7. Q&A: GPT-5.4 궁금증 5가지
8. 마치며: 이번엔 진짜 다릅니다
AI 신모델이 나올 때마다 "혁신"이라는 말이 남발됩니다. 하지만 GPT-5.4는 다른 결을 갖고 있습니다. 지금까지 AI는 언제나 "더 잘 대답해주는 도구"였습니다. 사람이 AI의 답변을 받아서 직접 작업해야 했습니다. GPT-5.4는 처음으로 그 경계를 넘었습니다. AI가 직접 마우스를 움직이고, 파일을 저장하고, 웹을 탐색합니다.
물론 아직 완벽하지 않습니다. 한국어 표현의 어색함, 컴퓨터 사용의 실험적 성격, 벤치마크 공개 논란까지 과제가 남아 있습니다. 하지만 방향은 명확합니다. 2026년 하반기에는 GPT-5.4 Codex Max, GPT-5.5 등 더 발전된 모델이 이 기반 위에서 나올 것이고, 각 업데이트마다 컴퓨터 사용 능력은 더 안정화될 것입니다.
지금 가장 현명한 행동은 단 하나입니다. 이 기능이 여러분의 실제 업무 중 어떤 반복 작업을 대신할 수 있는지 지금 당장 실험해보는 것입니다. 월 3만 원짜리 Plus 요금제 하나로 그 가능성을 직접 확인할 수 있습니다. 기다릴 이유가 없습니다.
✅ 핵심 체크리스트
- GPT-5.2 Thinking 사용 중이라면 → 2026년 6월 5일 전에 GPT-5.4로 전환 준비
- 업무 자동화 목적 → Plus $20/월에서 GPT-5.4 Thinking 먼저 테스트
- 컴퓨터 사용 기능 → 반복 클릭 작업부터 시작, 중요 업무는 검증 후 적용
- 한국어 글쓰기 중심 → Claude Opus 4.6과 병행 사용 고려
※ 본 포스팅은 공개된 공식 자료 및 신뢰할 수 있는 출처를 기반으로 작성되었습니다. 요금 및 기능은 OpenAI 정책 변경에 따라 달라질 수 있으며, 최신 정보는 openai.com 및 chatgpt.com/pricing에서 직접 확인하시기 바랍니다. 벤치마크 수치는 OpenAI 공식 발표 기준이며 실사용 환경과 차이가 있을 수 있습니다.

댓글 남기기