GPT-5.4 사용법: 출시 직후 안 쓰면 이미 뒤처진다

2026년 3월 5일, OpenAI가 GPT-5.4를 전격 공개했습니다.
추론·코딩·컴퓨터 직접 조작을 하나의 모델에 통합한 이번 업데이트는
단순한 버전업이 아니라, AI가 ‘비서’를 넘어 ‘내 업무를 대신 처리하는 에이전트’로 진화했음을 선언하는 사건입니다.
전문가 83.0% 수준의 지식 업무 수행 능력, 100만 토큰 컨텍스트, 화면을 직접 클릭하는 컴퓨터 사용 기능—지금 당장 이 글로 핵심만 짚어드립니다.

📅 2026.03.05 출시
🏆 GDPval 83% 달성
🖥️ 네이티브 컴퓨터 조작
📄 100만 토큰 컨텍스트
⚡ 할루시네이션 33% 감소

GPT-5.4가 뭔데 이렇게 난리인가?

이 모델이 특별한 이유는 한마디로 “하나로 다 된다”는 점입니다.
기존에는 코딩에 강한 GPT-5.3 Codex, 추론에 특화된 GPT-5.2 Thinking, 일반 작업용 GPT-5.2를 상황에 맞게 골라야 했습니다.

가장 주목할 포인트는 GDPval 벤치마크에서 83.0%를 기록했다는 것입니다.
GDPval은 44개 직종에 걸쳐 현직 전문가가 실제로 처리하는 업무 결과물(보고서, 스프레드시트, 스케줄 등)을 AI가 얼마나 잘 만들어내는지 비교하는 평가입니다.
쉽게 말해 AI가 3번 중 5번 이상 전문가보다 낫거나 동급이라는 뜻입니다.
이 수치는 직전 모델 GPT-5.2의 70.9% 대비 12.1%p나 뛴 수치로, 단순 업그레이드라고 부르기 민망한 수준의 도약입니다.

💡 핵심 한 줄 정리: GPT-5.4는 “더 똑똑해진 챗봇”이 아닌, “내 PC를 직접 조작할 수 있는 자율형 AI 에이전트”입니다. 이 차이가 모든 것을 바꿉니다.

ChatGPT에서는 GPT-5.4 Thinking이라는 이름으로, API·Codex 환경에서는 GPT-5.4로 접근할 수 있으며, 최고 성능을 원하는 사용자를 위해 GPT-5.4 Pro도 함께 출시되었습니다.
2026년 6월 5일에는 기존 GPT-5.2 Thinking이 공식 은퇴 예정이므로, 지금 넘어오지 않으면 어차피 강제 전환됩니다.

▲ 목차로 돌아가기

4가지 핵심 신기능 완전 해부

1 네이티브 컴퓨터 사용(Computer Use)

API와 Codex 환경에서 GPT-5.4는 화면을 보고, 마우스를 클릭하고, 키보드를 입력하는 컴퓨터 직접 조작 기능을 기본 탑재했습니다.
OSWorld-Verified 벤치마크에서 75.0%의 성공률을 기록, 인간 평균(72.4%)을 넘어섰으며 직전 모델 GPT-5.2(47.3%)를 큰 폭으로 앞질렀습니다.

이것이 실제로 무엇을 의미하느냐면, “이 엑셀 파일 분석해서 PPT 만들고 메일 보내줘”를 AI가 직접 실행한다는 뜻입니다.
Playwright 라이브러리를 통해 웹 브라우저를 자동 조작할 수도 있어, 개발자라면 반복적인 테스트 자동화에 즉시 활용할 수 있습니다.

2 GPT-5.4 Thinking: 중간에 방향 바꿀 수 있다

ChatGPT의 GPT-5.4 Thinking 모드는 복잡한 요청을 처리할 때 작업 계획(Preamble)을 먼저 제시합니다.
기존 모델은 “생각하는 중…” 표시만 뜨고 결과가 나올 때까지 기다려야 했지만, GPT-5.4는 응답이 생성되는 도중에 사용자가 방향을 수정할 수 있습니다.
예를 들어 보고서를 작성하다가 “이 부분 더 데이터 중심으로 바꿔줘”라고 개입하면 처음부터 다시 할 필요 없이 바로 조정됩니다.

3 100만 토큰 컨텍스트 지원

Codex 환경에서 최대 100만 토큰(1M Context Window)을 지원합니다.
단순히 숫자가 크다는 것이 아닙니다. 한국어 기준으로 한 글자당 약 1~2토큰이 소모되므로, 50만 자 분량—책 한 권이 보통 15~20만 자이니 소설 3권 분량—을 한 번에 넣고 분석할 수 있다는 의미입니다.
기업 코드베이스 전체를 한 번에 파악하거나, 수년치 계약서를 한꺼번에 검토하는 것이 현실적으로 가능해졌습니다.
다만 표준 272K 토큰을 초과하면 사용량 계산이 2배로 적용되므로 비용 관리에 주의가 필요합니다.

4 도구 검색(Tool Search)으로 토큰 47% 절약

도구가 많으면 수만 토큰이 그냥 낭비되었죠.
이제 GPT-5.4는 필요할 때 해당 도구 정의만 그때그때 불러오는 방식으로 작동합니다.
OpenAI 내부 테스트에 따르면 MCP 서버 36개를 모두 활성화한 환경에서 토큰 사용량이 47% 감소했습니다. 개발자라면 API 비용이 실질적으로 줄어드는 체감을 바로 느낄 수 있습니다.

▲ 목차로 돌아가기

GPT-5.2·5.3과 실제 성능 차이는?

숫자만 봐서는 체감이 안 되는 분들을 위해 주요 벤치마크를 한 표에 정리했습니다.

평가 항목	GPT-5.4	GPT-5.3 Codex	GPT-5.2
GDPval (전문가 업무)	83.0%	70.9%	70.9%
SWE-Bench Pro (코딩)	57.7%	56.8%	55.6%
OSWorld-Verified (PC 조작)	75.0%	74.0%	47.3%
BrowseComp (웹 탐색)	82.7%	77.3%	65.8%
GPQA Diamond (과학)	92.8%	92.6%	92.4%
ARC-AGI-2 (추상 추론)	73.3%	—	52.9%
환각 오류율 (비교)	△33% 감소	—	기준

💡 주목 포인트: PC 조작 성능(OSWorld)이 GPT-5.2 대비 27.7%p 급등했습니다. 코딩 성능은 GPT-5.3 Codex와 동급이거나 소폭 상회하면서, 전문 지식 업무는 12.1%p, 추상 추론은 20.4%p 향상됐습니다. 사실상 모든 영역에서 동시에 1위를 차지한 모델입니다.

특히 투자은행 분석가 수준의 스프레드시트 모델링 작업 내부 테스트에서 87.3%를 기록한 부분은 인상적입니다. 이는 GPT-5.2의 68.4%보다 18.9%p 높은 수치로, 금융·회계 분야 실무자라면 도입을 진지하게 검토할 만한 수준입니다.

▲ 목차로 돌아가기

GPT-5.4 사용법: 지금 당장 시작하는 법

ChatGPT에서 GPT-5.4 Thinking 사용하기

ChatGPT Plus, Team, Pro 사용자라면 오늘부터 바로 쓸 수 있습니다. chatgpt.com에 접속한 뒤 모델 선택 드롭다운에서 GPT-5.4 Thinking을 선택하면 됩니다. 기존에 사용하던 GPT-5.2 Thinking이 기본값에서 밀려난 자리를 GPT-5.4 Thinking이 채웁니다.
기업(Enterprise)·교육(Edu) 플랜 사용자는 관리자 설정에서 조기 액세스를 활성화해야 합니다.

Thinking 모드의 핵심 사용법은 긴 작업을 한 번에 지시하는 것입니다. “요약해줘”보다 “이 45페이지 보고서를 읽고, 핵심 수치 5개를 추출해서 임원 보고용 한 페이지 요약본을 작성해줘”처럼 구체적일수록 강점이 드러납니다. 작업 계획이 먼저 나오면 승인하거나 방향을 수정한 뒤 진행하세요.

Codex에서 컴퓨터 조작 기능 활용하기

컴퓨터 직접 조작 기능은 Codex 환경과 API를 통해서만 사용할 수 있습니다. ChatGPT 웹 인터페이스에서는 현재 지원하지 않으므로 주의가 필요합니다. API를 사용하는 개발자라면 모델 문자열 gpt-5.4를 지정하고 computer 도구를 활성화하면 됩니다.

실험적으로 공개된 Playwright (Interactive) 스킬을 활성화하면 GPT-5.4가 웹 앱이나 Electron 앱을 시각적으로 디버깅하면서 동시에 그 앱을 빌드하는 작업도 가능합니다. 개발 생산성 측면에서 이전과는 차원이 다른 경험을 제공합니다.

프롬프트 최적화 팁

▲ 목차로 돌아가기

요금제 비교: 내게 맞는 플랜 고르기

플랜	월 요금	GPT-5.4 접근	추천 대상
Free	무료	❌ 미지원	가벼운 체험
Go	약 ₩13,000	❌ 미지원	일상 대화 중심
Plus	약 ₩29,000	✅ GPT-5.4 Thinking 지원	개인 생산성
Pro	약 ₩299,000	✅ GPT-5.4 + 5.4 Pro 무제한	전문가·헤비유저
Business	별도 문의	✅ 유연 (크레딧 추가)	스타트업·팀
Enterprise	별도 문의	✅ 유연 + 보안 강화	대기업

개인 사용자라면 Plus 플랜(월 약 2만9천 원)이 현실적인 선택입니다. GPT-5.4 Thinking에 완전히 접근 가능하고, Codex 에이전트와 Sora 영상 생성, 심층 리서치까지 포함됩니다. Pro 플랜은 월 30만 원에 가까운 비용이 부담스러울 수 있지만, 전문 창작자나 연구자처럼 AI를 하루 수십 시간 쓰는 분들에게는 오히려 가성비가 좋습니다.

API 가격 (개발자용)

모델	입력 (1M 토큰)	캐시 입력	출력 (1M 토큰)
gpt-5.2	$1.75	$0.175	$14.00
gpt-5.4	$2.50	$0.250	$15.00
gpt-5.2-pro	$21.00	—	$168.00
gpt-5.4-pro	$30.00	—	$180.00

💡 GPT-5.4는 GPT-5.2보다 입력 토큰이 약 43% 비싸지만, Tool Search로 토큰 사용량 자체가 47% 줄어드는 것을 감안하면 실제 API 비용은 오히려 저렴해질 수 있습니다. 배치(Batch) 처리와 Flex 가격은 표준 요금의 절반입니다.

▲ 목차로 돌아가기

실전 활용 시나리오 3가지

1 직장인의 보고서 자동화

내부 테스트에서 스프레드시트 모델링 점수가 87.3%를 기록했다는 사실은 재무·회계 담당자가 기존에 2~3시간 걸리던 작업을 30분 이내로 줄일 수 있음을 시사합니다.
ChatGPT Plus 플랜의 데이터 분석 기능과 Thinking 모드를 함께 쓰는 것이 권장 조합입니다.

2 개발자의 에이전트 빌딩

API를 통해 GPT-5.4에 컴퓨터 도구(computer tool)를 연결하면, AI가 브라우저를 열고 로그인하고 정보를 추출하는 RPA 수준의 자동화를 코드 몇 줄로 구현할 수 있습니다.
Playwright Interactive 스킬은 웹 앱을 빌드하면서 동시에 시각적으로 테스트까지 수행합니다.
SWE-Bench Pro 57.7%는 GPT-5.3 Codex와 동급인 코딩 성능을 유지하면서도 전체 에이전트 워크플로우에서 훨씬 안정적이라는 것을 의미합니다.

3 연구자·작가의 딥 리서치

BrowseComp 점수가 82.7%로 기존 모델 대비 17%p 개선된 것은 구체적으로 무엇을 뜻할까요? “한국 스타트업 시장 2026년 3분기 투자 트렌드를 글로벌 비교 포함해 정리해줘”처럼 여러 소스를 교차 검증해야 하는 복잡한 질문에서 이전보다 훨씬 정확한 답을 찾아온다는 의미입니다.
Thinking 모드에서 BrowseComp은 더욱 강력합니다. 다양한 각도의 초안 작성, 팩트체크, 참고 문헌 정리를 한 번에 맡겨 보세요.

▲ 목차로 돌아가기

솔직한 한계와 주의사항

할루시네이션은 여전히 존재합니다

OpenAI는 GPT-5.4가 GPT-5.2 대비 개별 주장이 틀릴 확률을 33% 줄이고, 전체 응답에서 오류가 포함될 확률을 18% 낮췄다고 밝혔습니다. “줄였다”는 것이지 “없앴다”가 아닙니다. 특히 의료·법률·세무 영역에서는 반드시 전문가와 교차 확인하는 절차가 필요합니다.

컴퓨터 조작 기능은 API·Codex 전용입니다

⚠️ ChatGPT 웹·앱에서는 아직 컴퓨터 직접 조작 기능을 사용할 수 없습니다. API 키와 개발 환경이 없는 일반 사용자에게는 해당 기능이 지금 당장 체감되지 않을 수 있습니다.

100만 토큰 컨텍스트는 Codex 한정, 비용 2배

1M 토큰 지원은 Codex 환경에서만 실험적으로 제공되며, 272K 토큰을 초과하면 토큰 소모량이 2배로 계산됩니다. API 비용이 급격히 늘어날 수 있으므로 반드시 토큰 사용량을 모니터링하면서 써야 합니다.

사이버보안 위협 분류: High

OpenAI는 GPT-5.4를 Preparedness Framework 기준 High 사이버보안 위협 등급으로 분류했습니다. 그만큼 강력한 코딩·조작 능력이 악용될 수 있다고 본 것입니다. 이에 따라 모니터링 시스템, 신뢰 접근 제어, 고위험 요청 차단 기능 등이 추가 적용되어 있으며, 일부 기업 환경에서는 False Positive(오판 차단)가 발생할 수도 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

GPT-5.4는 무료로 사용할 수 있나요?

현재 GPT-5.4 Thinking은 ChatGPT Plus 이상 유료 플랜(월 약 2만9천 원~)에서만 이용 가능합니다. 무료(Free) 플랜이나 Go 플랜에서는 GPT-5.2까지만 접근 가능하며, GPT-5.4는 지원되지 않습니다. 다만 OpenAI가 향후 일부 기능을 단계적으로 무료로 개방할 가능성은 있습니다.

기존에 쓰던 GPT-5.2 Thinking은 언제 없어지나요?

GPT-5.4 Pro는 일반 Plus와 얼마나 차이가 나나요?

한국어 성능도 개선됐나요?

OpenAI 공식 발표에 한국어 특화 벤치마크 항목은 포함되어 있지 않습니다. 다만 GDPval, OmniDocBench 등에서 전반적인 언어 이해·생성 능력이 향상됐으며, 할루시네이션이 33% 감소한 만큼 한국어 응답의 정확도도 비례해서 개선되었을 것으로 볼 수 있습니다. 실제 사용 시 이전 모델보다 자연스러운 맥락 유지와 정확한 수치 인용이 체감됩니다.

API 모델 문자열은 어떻게 써야 하나요?

OpenAI API에서 GPT-5.4를 사용하려면 모델 파라미터에 "model": "gpt-5.4"를 지정하면 됩니다. 최고 성능 버전은 "gpt-5.4-pro"입니다. 컴퓨터 조작 기능을 사용하려면 computer 도구를 tools 배열에 추가해야 하며, 자세한 내용은 OpenAI 공식 개발자 문서를 참고하세요.

▲ 목차로 돌아가기

마치며 — 총평

솔직히 말하겠습니다. GPT-5.4는 진짜 달라졌습니다.
매번 새 모델이 나올 때마다 “이번엔 별로 체감이 없다”는 반응이 많았는데, 이번은 다릅니다.
83%의 전문가 업무 수행 능력, 75%의 PC 직접 조작 성공률, 그리고 할루시네이션 33% 감소—이 세 가지는 AI가 실제 업무 파이프라인 안으로 들어올 준비가 됐다는 신호입니다.

개인적으로는 컴퓨터 직접 조작 기능이 가장 의미 있다고 봅니다.
기존 AI는 “어떻게 하면 돼”를 알려줬다면, GPT-5.4는 “내가 직접 해줄게”가 가능해진 첫 번째 메인스트림 모델입니다.
이 변화가 업무 자동화에 미칠 파급력은 아직 절반도 가시화되지 않았습니다.

물론 아직 ChatGPT 웹에서 컴퓨터 조작 기능을 쓸 수 없고, 100만 토큰은 비용이 2배라는 현실적 제약은 있습니다.
하지만 Plus 플랜 수준에서 GPT-5.4 Thinking만 쓰더라도, 보고서·리서치·코드 작성에서 이전과는 다른 경험을 할 수 있습니다.
6월 5일에 GPT-5.2 Thinking이 은퇴하기 전에, 지금부터 익숙해져 두는 것이 현명합니다.

▲ 목차로 돌아가기

※ 본 포스팅의 요금 정보는 2026년 3월 9일 기준이며, 환율 및 OpenAI 정책 변경에 따라 달라질 수 있습니다. 벤치마크 수치는 OpenAI 공식 발표 자료를 기반으로 작성되었으며, 실제 사용 환경에 따라 결과가 다를 수 있습니다.

GPT-5.4 사용법: 출시 직후 안 쓰면 이미 뒤처진다

GPT-5.4가 뭔데 이렇게 난리인가?