GPT-5.4 완전정복: 지금 안 쓰면 업무서 도태된다

2026.03.13 · IT/AI

OpenAI가 2026년 3월 5일 GPT-5.4를 전격 공개했습니다. 단순한 버전 업이 아닙니다. AI가 처음으로 컴퓨터를 직접 조작하고, 스프레드시트를 혼자 만들고, 100만 토큰의 맥락 위에서 일하는 시대가 열렸습니다. 지금 이 모델을 이해하지 못하면 업무 생산성 경쟁에서 뒤처질 수밖에 없습니다.

🗓️ 출시: 2026.03.05
📌 컨텍스트: 최대 100만 토큰
⚡ 컴퓨터 직접 조작 최초 탑재
🏆 GDPval 83.0% 달성

이번 버전의 가장 큰 전환점은 GPT-5.3 Codex의 코딩 능력과 GPT-5.2의 추론 능력을 하나로 통합했다는 점입니다. 그 결과 단순 질의응답이 아니라 스프레드시트를 혼자 완성하고, 웹사이트를 실제로 탐색하며, 수백 페이지 문서를 단번에 처리하는 작업이 가능해졌습니다. 개인적으로 이 모델은 단순 AI 업그레이드가 아니라 ‘사무 자동화 인프라’의 교체에 가깝다고 봅니다.

💡 한 줄 요약: GPT-5.4는 질문에 답하는 AI가 아니라, 지시를 받고 실제로 일을 마무리하는 AI입니다.

▲ 목차로 돌아가기

핵심 기능 5가지 — 이게 진짜 달라진 것들

컴퓨터 직접 조작 (Computer Use) 기본 탑재

GPT-5.4는 범용 모델 중 최초로 마우스 클릭과 키보드 입력을 직접 실행하는 컴퓨터 사용 기능을 기본 내장했습니다. OSWorld-Verified 벤치마크에서 75.0%의 성공률을 기록해 인간 수행 능력(72.4%)을 처음으로 초과했습니다.

100만 토큰 컨텍스트 윈도우

API 환경에서 최대 100만 토큰(약 750만 단어)을 한 번에 처리합니다. 대형 코드베이스 전체를 분석하거나, 수백 페이지 분량의 계약서·보고서를 단번에 요약하는 작업이 비로소 현실적이 됩니다. Codex에서는 실험적 지원으로 제공됩니다.

Tool Search — 토큰 비용 47% 절감

기존에는 모든 도구 정의를 프롬프트에 포함시켜야 했기 때문에 도구가 많을수록 토큰 낭비가 극심했습니다. Tool Search는 필요한 순간에만 해당 도구를 호출해 총 토큰 사용량을 47% 감소시킵니다. 특히 MCP 서버 수십 개를 연결한 환경에서 실질적인 비용·속도 이득이 큽니다.

실시간 방향 조정 (Mid-Response Steering)

ChatGPT에서 GPT-5.4 Thinking을 사용하면 모델이 응답을 생성하는 중간에도 사용자가 방향을 즉석에서 바꿀 수 있습니다. 모델이 시작 전 짧은 서두(preamble)로 작업 계획을 보여주기 때문에, 엉뚱한 방향으로 흘러가는 답변을 처음부터 끊고 재작성하는 번거로움이 대폭 줄었습니다.

오류율 33% 감소 — 가장 정확한 모델

개별 주장 단위의 오류 발생률이 GPT-5.2 대비 33% 낮아졌고, 응답 전체에서 오류가 하나라도 포함될 확률도 18% 줄었습니다. 보고서 작성, 법률·금융 분석처럼 사실 정확성이 핵심인 업무에서 기존 모델 대비 신뢰도가 크게 올라갔습니다.

▲ 목차로 돌아가기

컴퓨터 직접 조작 — 마우스·키보드까지 대신한다

구체적으로 이 기능은 두 가지 방식으로 작동합니다. 첫째, Playwright 같은 웹 자동화 라이브러리를 통해 코드를 작성하고 실행하는 방식. 둘째, 스크린샷을 보고 직접 마우스 클릭·드래그·키보드 입력 명령을 내리는 방식입니다. OSWorld-Verified(데스크톱 환경)에서 75%, WebArena-Verified(브라우저 환경)에서 67.3%, Online-Mind2Web에서 무려 92.8%의 성공률을 기록했습니다.

🎯 실전 예시: “이 엑셀 파일을 열어서 3월 매출 합계를 피벗 테이블로 만들고, 그 결과를 슬라이드에 붙여 넣어줘”라는 지시를 GPT-5.4에게 내리면 — 실제로 마우스를 조작해서 파일을 열고, 데이터를 분석하고, PowerPoint까지 완성해 줍니다.

개발자 관점에서도 흥미로운 점이 있습니다. Codex에서 GPT-5.4를 활용하면 Playwright(Interactive) 실험 기능을 통해 웹앱을 빌드하면서 동시에 시각적으로 디버깅까지 진행할 수 있습니다. 빌드·테스트·수정의 루프가 한 모델 안에서 돌아가는 겁니다.

▲ 목차로 돌아가기

요금제 완전 정리 — Plus로 쓸 수 있나요?

가장 많은 분들이 궁금해하는 부분입니다. 결론부터 말씀드리면 ChatGPT Plus(월 약 29,000원) 이상이면 GPT-5.4 Thinking을 사용할 수 있습니다. 단, 주간 메시지 한도(3,000개)가 적용됩니다. GPT-5.4 Pro(가장 높은 성능)는 Pro·Enterprise 플랜 전용입니다.

요금제	GPT-5.4 접근	한도	한국 가격
Free	❌ 없음	GPT-5.3 10회/5시간	무료
Go	△ 제한적	GPT-5 Thinking mini만	월 15,000원
Plus	✅ Thinking	주 3,000회	월 29,000원
Business	✅ Thinking	무제한	월 약 38,000원/인
Pro	✅ Thinking + Pro	무제한	월 약 288,000원

API 가격 — 개발자라면 꼭 확인

API를 통해 GPT-5.4를 호출할 경우 입력 토큰 $2.50/M, 출력 토큰 $15/M이 적용됩니다. 직전 모델 GPT-5.2($1.75/$14)보다 비싸지만, 토큰 효율이 높아져 동일 작업 기준 실제 청구액은 비슷하거나 낮을 수 있습니다. 배치·Flex 요금은 정가의 50% 할인이 적용됩니다.

⚠️ 주의: GPT-5.2 Thinking은 GPT-5.4 출시 후 90일(2026년 6월 5일)까지 레거시 모델 섹션에서 계속 사용 가능합니다. 급하지 않다면 잠시 두 모델을 비교해보는 것도 좋습니다.

▲ 목차로 돌아가기

기능이 아무리 훌륭해도 어떻게 쓰느냐에 따라 결과가 천차만별입니다. GPT-5.4를 제대로 활용하는 핵심 전략을 공유합니다.

① Thinking 모드는 꼭 수동 선택하세요

Auto 모드에서는 간단한 질문에 GPT-5.3 Instant가 자동으로 선택됩니다. 코딩, 수학, 심층 리서치처럼 복잡한 작업은 반드시 모델 선택기에서 Thinking을 직접 선택해야 GPT-5.4의 진짜 성능이 발휘됩니다. 무의식적으로 Auto 모드를 유지한다면 GPT-5.4를 구독하는 의미의 절반이 사라집니다.

② ‘생각 중 방향 조정’ 기능 활용하기

③ 스프레드시트·슬라이드 작업에 적극 투입하기

OpenAI 내부 벤치마크에서 투자은행 주니어 애널리스트 수준의 스프레드시트 모델링 작업에서 87.3% 점수를 기록했습니다. 재무 모델, 비용 분석표, 예산 계획표처럼 구조화된 작업을 GPT-5.4에 넘기면 상당한 시간을 절약할 수 있습니다. 슬라이드 제작에서도 GPT-5.4 결과물을 GPT-5.2 대비 68%의 경우에서 인간 평가자가 더 낫다고 평가했습니다.

④ 개발자라면 MCP + Tool Search 조합으로

MCP(Model Context Protocol) 서버를 여러 개 연결한 환경에서 Tool Search를 함께 사용하면 토큰 비용이 최대 47% 감소합니다. 대규모 에이전트 워크플로를 구축 중인 개발자라면 지금 바로 gpt-5.4 모델 스트링으로 마이그레이션할 것을 권장합니다.

💡 개인적 의견: GPT-5.4는 ‘알아서 다 해주는 AI’처럼 보이지만, 정작 사용자가 할 일은 더 많아집니다. 작업을 더 명확하게 구조화하고, 방향을 잡아주는 능력 — 이른바 ‘AI 디렉팅’ 실력이 앞으로의 업무 격차를 만들 것입니다.

▲ 목차로 돌아가기

말로만 “더 좋아졌다”는 건 의미 없습니다. OpenAI가 직접 공개한 벤치마크 수치로 두 세대를 비교해 봤습니다.

벤치마크	GPT-5.2	GPT-5.4	향상폭
GDPval (지식 업무)	70.9%	83.0%	+12.1%p
OSWorld (데스크톱 조작)	47.3%	75.0%	+27.7%p
BrowseComp (웹 검색)	65.8%	82.7%	+16.9%p
ARC-AGI-2 (추상 추론)	52.9%	73.3%	+20.4%p
HLE (도구 포함, 학술)	45.5%	52.1%	+6.6%p
투자은행 스프레드시트	68.4%	87.3%	+18.9%p

수치를 보면 특히 컴퓨터 직접 조작(+27.7%p)과 ARC-AGI-2(+20.4%p) 영역의 도약이 눈에 띕니다. 이 두 항목은 모두 기존 AI가 가장 약했던 ‘실세계 실행력’과 ‘유연한 추론’에 해당합니다. 단순 언어 처리 성능이 아닌 에이전트 기반 실무 능력에서 획기적 향상이 있었다는 의미입니다.

다만 솔직히 말씀드리면, 모든 수치가 만족스럽지는 않습니다. SWE-Bench Pro(코딩 실제 이슈 해결)에서는 GPT-5.3 Codex(56.8%) 대비 GPT-5.4(57.7%) 향상이 매우 미미합니다. 순수 코딩 작업만 놓고 보면 이전 전문 코딩 모델과 큰 차이가 없다는 점을 감안해야 합니다.

▲ 목차로 돌아가기

Q&A

❓ GPT-5.4는 무료 사용자도 쓸 수 있나요?

현재 GPT-5.4 Thinking은 ChatGPT Plus 이상 유료 구독자에게만 제공됩니다. 무료 사용자는 GPT-5.3 Instant만 사용 가능하며, ‘잘 생각하기’ 기능 사용 시에도 GPT-5 Thinking mini로 연결됩니다. OpenAI는 향후 무료 사용자 확대 일정을 아직 공개하지 않았습니다.

❓ GPT-5.4의 100만 토큰 컨텍스트는 ChatGPT에서도 되나요?

100만 토큰 컨텍스트 윈도우는 현재 API와 Codex 환경에서만 지원됩니다. ChatGPT 앱 내에서 GPT-5.4 Thinking의 컨텍스트 윈도우는 GPT-5.2 Thinking과 동일하게 256K(입력 128K + 출력 128K)로 유지됩니다. API에서 272K를 초과하는 요청은 2배의 토큰으로 계산됩니다.

❓ GPT-5.2 Thinking은 언제 완전히 종료되나요?

OpenAI는 GPT-5.2 Thinking을 GPT-5.4 출시일(2026년 3월 5일)로부터 90일 후인 2026년 6월 5일에 ChatGPT에서 완전 종료한다고 공지했습니다. 이 기간 동안은 Plus/Pro 사용자가 모델 선택기의 레거시 모델 섹션에서 GPT-5.2 Thinking을 계속 사용할 수 있습니다.

❓ GPT-5.4 Pro는 어떤 점이 다른가요?

❓ GPT-5.4로 바꾼 뒤 기존 대화가 달라지나요?

기존에 GPT-5.2 Thinking으로 진행하던 대화는 자동으로 GPT-5.4 Thinking 또는 GPT-5.3 Instant(복잡도에 따라)로 이어집니다. OpenAI는 “출력이 다소 달라질 수 있다”고 안내하고 있으니, 중요한 진행 중 작업은 새 대화를 시작하거나 기존 스레드를 계속 사용하기 전 테스트를 권장합니다.

▲ 목차로 돌아가기

마치며 — GPT-5.4, 기대 반 우려 반

그러나 솔직히 한 가지는 짚고 싶습니다. GPT-5.4로 갈아타야 할 이유는 명확하지만, 모든 사람이 지금 당장 구독을 업그레이드해야 하는지는 다른 문제입니다. 일반적인 글쓰기, 정보 검색, 간단한 요약 작업은 GPT-5.3 Instant로도 충분합니다. GPT-5.4의 진가는 복잡한 멀티스텝 작업, 코드 에이전트 개발, 대규모 문서 처리처럼 한계 상황에서 드러납니다.

결국 핵심 질문은 이것입니다. 지금 나의 업무에서 AI가 ‘한 단계 더’ 자율적으로 움직여야 할 병목이 있는가? 있다면 GPT-5.4는 지금 당장 도입해야 할 도구입니다. 외부 링크로 OpenAI 공식 GPT-5.4 소개 페이지와 ChatGPT 공식 사용 가이드(한국어)를 참고해 직접 확인해 보시길 권장합니다.

▲ 목차로 돌아가기

※ 본 포스팅은 OpenAI 공식 발표(2026년 3월 5일) 및 TechCrunch 보도를 기반으로 작성되었습니다. 요금 및 기능은 OpenAI 정책에 따라 변경될 수 있으므로 최신 정보는 공식 사이트(chatgpt.com)에서 확인하시기 바랍니다.

GPT-5.4 완전정복: 지금 안 쓰면 업무서 도태된다