🔥 2026년 3월 6일 출시 · 한국어 최초 완전 분석
GPT-5.4 Thinking 완전정복: 전문가 83% 대체, 지금 안 쓰면 손해
OpenAI가 3월 6일 공개한 GPT-5.4는 역대 처음으로 추론·코딩·컴퓨터 직접 조작을 한 모델에 통합한 ‘진짜 에이전트’입니다. 벤치마크 GDPval 83%, 컴퓨터 작업 성공률 95% — 숫자가 다 설명합니다.
컴퓨터 조작 95%
100만 토큰 컨텍스트
환각 33% ↓
GPT-5.4 Thinking이란? — 3개 모델 합체의 의미
2026년 3월 6일(한국 기준), OpenAI는 GPT-5.4 Thinking과 GPT-5.4 Pro를 ChatGPT와 API, Codex에 동시 출시했습니다. 이번 모델은 단순한 버전 업이 아닙니다. GPT-5.3-Codex의 업계 최고 수준 코딩 능력, GPT-5.2의 심층 추론(Thinking) 능력, 그리고 컴퓨터 직접 조작(Computer Use) 능력을 하나의 모델로 통합한 첫 범용 프런티어 모델입니다. 쉽게 말해, 이전까지는 코딩 특화·추론 특화 모델을 따로 골라 써야 했다면, 이제 한 모델이 상황에 맞게 알아서 전환합니다.
GPT-5.4 Thinking의 핵심 변화 중 하나는 ‘사고 개요(Preamble)’ 기능입니다. 응답을 시작하기 전에 AI가 어떻게 접근할지 개요를 먼저 제시하고, 사용자가 그 방향을 중간에 조정할 수 있습니다. 더 이상 처음부터 다시 시작하거나 여러 번 묻고 답하는 번거로움 없이, 한 번의 대화에서 원하는 결과에 가깝게 도달할 수 있습니다. 작동 방식 자체가 바뀐 것이라 체감 차이가 큽니다.
또한 GPT-5.4는 OpenAI의 역대 가장 ‘토큰 효율적인’ 추론 모델이기도 합니다. GPT-5.2 대비 같은 문제를 푸는 데 사용하는 토큰 수를 크게 줄였는데, 이는 속도 향상과 비용 절감으로 직결됩니다. 특히 API 개발자 입장에서는 성능이 오르면서 비용이 낮아지는 드문 업그레이드입니다.
💡 핵심 인사이트: GPT-5.4는 ‘더 똑똑한 모델’이 아니라 ‘스스로 일을 끝내는 에이전트’로의 패러다임 전환을 의미합니다. 모델 성능 경쟁에서 실행 능력 경쟁으로 무게중심이 이동했습니다.
GDPval 83% — 전문가를 이긴다는 게 실제로 무슨 뜻인가
GDPval은 미국 GDP에 가장 크게 기여하는 9개 산업, 44개 직종에 걸쳐 실제 지식 노동 결과물을 만드는 능력을 평가하는 벤치마크입니다. 세일즈 프레젠테이션, 회계 스프레드시트, 응급진료 일정표, 제조 다이어그램처럼 현직에서 쓰는 실제 과제를 수행하고, 업계 전문가가 직접 채점합니다. GPT-5.4는 이 벤치마크에서 83.0%를 기록했습니다. 직전 모델 GPT-5.2와 GPT-5.3-Codex가 70.9%였으니, 약 12%p 급등한 수치입니다.
더 구체적으로 살펴보면, 주니어 투자은행 애널리스트 수준의 스프레드시트 모델링에서 87.3%를 기록했고, 프레젠테이션 평가에서는 인간 평가자의 68%가 GPT-5.2보다 GPT-5.4의 결과물을 선호했습니다. 법률 문서 분야에서는 Harvey의 BigLaw Bench 평가에서 91%라는 수치도 나왔습니다. 이 숫자들이 의미하는 바는 단순합니다. ‘보조 도구’였던 AI가 이제 특정 직무에서 실제 결과물을 대신 생산할 수 있는 수준이 됐다는 겁니다.
환각(Hallucination) 개선도 눈에 띕니다. 사용자가 사실 오류를 표시한 대화 데이터를 분석했을 때, GPT-5.4의 개별 주장이 거짓일 가능성이 GPT-5.2보다 33% 낮았고, 전체 응답에 어떤 오류라도 포함될 가능성은 18% 낮았습니다. AI를 실무에 쓰다 보면 환각이 가장 큰 걸림돌인데, 이 부분이 개선된 것은 단순 성능 지표 개선보다 실질적으로 더 중요한 변화라고 봅니다.
| 벤치마크 | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (지식 노동) | 83.0% | 70.9% | 70.9% |
| SWE-Bench Pro (코딩) | 57.7% | 56.8% | 55.6% |
| OSWorld-Verified (컴퓨터 조작) | 75.0% | 74.0% | 47.3% |
| BrowseComp (웹 조사) | 82.7% | 77.3% | 65.8% |
| Toolathlon (도구 사용) | 54.6% | 51.9% | 46.3% |
※ 출처: OpenAI 공식 발표 (2026.03.06) / GPT-5.4는 reasoning effort xhigh 기준
컴퓨터 직접 조작 — 이제 AI가 마우스를 대신 잡는다
GPT-5.4의 가장 극적인 변화는 컴퓨터 직접 사용(Computer Use) 능력입니다. 기존 AI 모델은 텍스트를 생성하거나 코드를 작성해주는 데 그쳤습니다. GPT-5.4는 여기서 한 발 더 나아가, 스크린샷을 인식하고 마우스와 키보드 명령을 직접 발행해 소프트웨어를 조작합니다. 즉, AI가 사람처럼 화면을 보고 클릭해서 일을 처리한다는 뜻입니다.
OSWorld-Verified 벤치마크에서 GPT-5.4는 데스크톱 환경 탐색 성공률 75.0%를 기록했습니다. 이는 GPT-5.2의 47.3%를 크게 앞지를 뿐 아니라, 인간 성능 기준인 72.4%도 초과한 수치입니다. 3만 개 HOA 및 재산세 포털에서 컴퓨터 사용 성능을 측정한 Mainstay의 실제 업무 테스트에서는 첫 번째 시도에 95%, 세 번 이내에 100% 성공률을 기록했습니다. 기존 모델들이 73~79%에 머물렀던 것과 비교하면 사실상 다른 차원의 성능입니다.
이 기능이 특히 주목받는 이유는 반복 업무 자동화의 문턱을 획기적으로 낮추기 때문입니다. RPA(로봇 프로세스 자동화) 도구를 따로 구축하지 않아도, GPT-5.4가 웹사이트에서 정보를 수집하고 스프레드시트에 기록하고 이메일을 보내는 일련의 작업을 스스로 처리할 수 있습니다. 개인 사용자에게도 의미 있는 변화입니다. 반복적인 행정 업무, 양식 작성, 데이터 이동 같은 작업을 “이것 좀 해줘”라는 말 한 마디로 위임할 수 있는 시대가 실제로 열렸습니다.
⚠️ 주의: 컴퓨터 사용 기능은 현재 API(Codex)에서 주로 제공되며, ChatGPT 일반 인터페이스에서는 단계적으로 확장 중입니다. 민감한 계정 정보나 금융 거래에는 직접 적용 전 충분한 검토가 필요합니다.
100만 토큰 + Tool Search — 에이전트 비용을 47% 낮추는 법
GPT-5.4는 API에서 최대 100만 토큰 컨텍스트 윈도우를 지원합니다. 100만 토큰은 약 750만 단어, 또는 소설 10권 분량에 해당합니다. 기존 GPT-5.2의 컨텍스트 한계를 크게 넘어서면서 긴 계약서 전체를 분석하거나, 대규모 코드베이스를 한 번에 이해하는 작업이 가능해졌습니다. ChatGPT Pro 플랜에서도 128K로 확장된 컨텍스트를 제공하므로, 일반 사용자도 훨씬 긴 문서 작업이 편해졌습니다.
개발자들에게 더 실질적인 변화는 Tool Search 기능입니다. 기존에는 AI 에이전트에 도구(MCP 서버 등)를 연결하면 모든 도구 정의가 처음부터 프롬프트에 삽입되어 비용이 폭발적으로 늘었습니다. Tool Search는 모델이 필요할 때만 해당 도구 정의를 조회하는 방식으로 작동합니다. Scale의 MCP Atlas 벤치마크에서 36개 MCP 서버를 전부 연결한 상태로 테스트했을 때, 정확도는 동일하게 유지하면서 총 토큰 사용량이 47% 감소했습니다. 에이전트 기반 서비스를 운영하는 개발자라면 운영 비용이 거의 절반으로 줄어드는 수준입니다.
Codex에서는 /fast mode를 활성화하면 GPT-5.4의 토큰 처리 속도가 최대 1.5배 빨라집니다. 모델 성능이나 지능은 그대로 유지되면서 속도만 빨라지는 것이라, 코딩 워크플로에서 특히 유용합니다. 코드를 짜고, 수정하고, 디버깅하는 반복 작업에서 대기 시간이 크게 줄어 체감 생산성이 높아집니다.
💡 개발자 팁: Tool Search는 MCP 서버처럼 도구 정의가 많은 환경에서 효과가 극대화됩니다. 도구가 5개 미만인 단순한 에이전트에서는 비용 절감 효과가 크지 않을 수 있으니, 복잡한 멀티 에이전트 파이프라인에 우선 적용해 보세요.
요금제 완전 정리 — Free·Plus·Pro 중 내가 쓸 플랜은?
GPT-5.4 Thinking에 접근할 수 있는 요금제는 공식 사이트 기준으로 명확하게 나뉩니다. Free 플랜과 Go 플랜(월 $8, 약 1만 2천 원)에서는 GPT-5.4 Thinking이 제공되지 않습니다. 무료 사용자는 GPT-5.3까지만 사용할 수 있습니다. GPT-5.4 Thinking을 쓰려면 최소 Plus 플랜(월 $20, 약 2만 9천 원) 이상이어야 하며, Plus에서는 ‘확장 지원’ 수준으로 제공됩니다.
GPT-5.4 Thinking과 Pro를 무제한으로 쓰려면 Pro 플랜(월 $200, 약 29만 원)이 필요합니다. Pro 플랜은 컨텍스트도 128K로 확장되고, ChatGPT Pulse, 파일 업로드 무제한, 심층 리서치 최대 한도 등 거의 모든 기능을 최고 수준으로 사용할 수 있습니다. 전문가나 AI를 집중적으로 업무에 활용하는 분이라면 Pro의 가치가 충분히 있습니다. 반면 가끔 고급 추론이 필요한 일반 사용자라면 Plus로도 충분합니다.
API 기준으로는 GPT-5.4의 입력 토큰 가격이 GPT-5.2보다 소폭 인상되었습니다. 나무위키 기준으로 GPT-5.4 Pro는 입력 100만 토큰당 $30, 출력 100만 토큰당 $180입니다. GPT-5.2 Pro(입력 $21, 출력 $168) 대비 입력은 43%, 출력은 7% 인상입니다. Tool Search를 활용한 토큰 절감 효과가 없다면 API 비용은 다소 늘어날 수 있으니, 에이전트 파이프라인 설계 시 Tool Search 도입을 적극 검토하는 게 좋습니다.
| 플랜 | 가격 (월) | GPT-5.4 Thinking | 컨텍스트 |
|---|---|---|---|
| Free | $0 | ❌ 미제공 | 16K |
| Go | $8 | ❌ 미제공 | 32K |
| Plus | $20 | ✅ 확장 지원 | 32K |
| Pro ⭐ | $200 | ✅ 무제한* | 128K |
※ 무제한에는 오남용 방지 정책 적용 / 출처: ChatGPT 공식 요금제 페이지
GPT-5.4 vs Gemini 3.1 Pro vs Claude Opus 4.6 — 2026년 3월 실전 비교
2026년 3월 현재 AI 시장은 GPT-5.4, Gemini 3.1 Pro, Claude Opus 4.6의 3파전 구도입니다. Artificial Analysis 리더보드에서 GPT-5.4(xhigh)는 Gemini 3.1 Pro와 공동 1위를 기록했습니다. 세 모델 모두 각기 다른 강점이 있어서 “어떤 모델이 최고”라고 단정하기보다는 용도에 따른 선택이 중요합니다.
GPT-5.4 Thinking은 컴퓨터 직접 조작, 에이전트형 도구 사용, 복잡한 지식 노동 결과물 생성에서 가장 앞서 있습니다. 특히 비즈니스 문서 작성, 스프레드시트 자동화, 멀티스텝 웹 조사에서 현 시점 가장 실용적인 선택입니다. 반면 Gemini 3.1 Pro는 멀티모달 처리와 구글 생태계 연동에서 강점을 보이고, 긴 유튜브 영상 요약이나 구글 드라이브 연동 작업에서 더 편리합니다. Claude Opus 4.6은 창의적 글쓰기, 복잡한 논리 추론, 한국어 자연스러운 표현에서 여전히 강점을 유지하고 있습니다. 나무위키에서도 GPT-5 계열은 한국어 표현의 번역투 문제가 지적되고 있어, 한국어 콘텐츠 제작이 목적이라면 Claude를 병행하는 전략이 합리적입니다.
개인적인 의견을 솔직하게 덧붙이자면, GPT-5.4의 컴퓨터 직접 사용 기능은 분명히 게임체인저이지만, 아직 일반 ChatGPT 인터페이스에서 완전히 구현된 게 아닙니다. 현재로서는 API와 Codex에서 더 강력하게 사용할 수 있어서, 개발자가 아닌 일반 사용자라면 Plus 수준에서 체감하는 차이가 드라마틱하지는 않을 수 있습니다. 하지만 이 기능이 ChatGPT 전 플랜에 완전 적용되는 것은 시간 문제이고, 그 전에 미리 익혀두면 분명히 유리합니다.
GPT-5.4 Thinking 지금 바로 켜는 법 — 단계별 사용법
GPT-5.4 Thinking은 ChatGPT Plus 이상에서 사용할 수 있으며, 활성화 방법은 간단합니다. chatgpt.com에 접속해 로그인한 뒤, 대화 입력창 왼쪽 위나 모델 선택 드롭다운에서 ‘GPT-5.4’를 선택하면 됩니다. Thinking 모드는 별도 버튼이 아니라 모델 자체에 통합되어 있으며, 복잡한 질문을 하면 자동으로 Thinking이 활성화됩니다. 응답 시작 전에 사고 개요(Preamble)가 표시되면 Thinking이 작동 중이라는 신호입니다.
GPT-5.4 Thinking을 가장 효과적으로 활용하는 핵심 팁은 ‘사고 개요를 적극 활용하는 것’입니다. AI가 응답 방향을 제시하는 중간에 “아, 그 방향 말고 이쪽으로 가줘”라고 개입하면 처음부터 다시 시작하지 않고도 원하는 방향으로 유도할 수 있습니다. 이것이 GPT-5.4의 ‘조정 가능성(Steerability)’이 크게 개선된 부분입니다. 기존 모델들은 응답이 완성된 뒤에야 수정할 수 있었지만, 이제는 생성 과정에 개입할 수 있습니다.
깊은 웹 조사가 필요한 작업에도 GPT-5.4 Thinking은 탁월합니다. BrowseComp 벤치마크에서 증명된 대로, ‘건초더미 속 바늘’ 같은 까다로운 정보 탐색에서 여러 라운드에 걸쳐 끈질기게 검색합니다. 단순한 검색 대신 “이 주제에 대해 여러 출처를 종합해서 결론을 내줘”와 같은 방식으로 프롬프트를 구성하면 효과가 배가됩니다. OpenAI 공식 문서에서 더 자세한 API 가이드를 확인할 수 있습니다.
사고 개요 중간 개입으로 방향 전환
여러 출처 종합 조사 요청 프롬프트
Codex에서 컴퓨터 조작 에이전트 구축
Q&A 5문 5답
Q1. GPT-5.4 Thinking과 GPT-5.4 Pro는 어떻게 다른가요?
▼
GPT-5.4 Thinking은 ChatGPT Plus 이상에서 사용 가능한 표준 추론 모드이고, GPT-5.4 Pro는 더 높은 reasoning effort(xhigh)로 구동되는 최고 성능 버전입니다. GPT-5.4 Pro는 BrowseComp에서 89.3%를 기록할 만큼 더 깊고 정교하게 추론하지만, 응답 속도가 느리고 토큰 비용이 높습니다. 일반 업무라면 Thinking으로 충분하고, 전문 분석이나 복잡한 연구 조사에는 Pro가 적합합니다.
Q2. 무료 사용자는 GPT-5.4를 전혀 쓸 수 없나요?
▼
2026년 3월 11일 기준, GPT-5.4 Thinking은 Free 및 Go 플랜에서 제공되지 않습니다. 무료 플랜은 GPT-5.3까지 제한적으로 사용할 수 있습니다. GPT-5.4를 경험해보려면 최소 Plus(월 $20) 구독이 필요합니다. 다만 OpenAI의 정책은 수시로 변경되므로, 공식 요금제 페이지에서 최신 정보를 확인하는 것을 권장합니다.
Q3. 컴퓨터 조작 기능은 일반 ChatGPT에서도 쓸 수 있나요?
▼
현재 컴퓨터 직접 조작(Computer Use) 기능은 주로 API와 Codex 환경에서 개발자에게 제공됩니다. 일반 ChatGPT 인터페이스에서는 아직 제한적으로만 지원됩니다. 다만 OpenAI는 이 기능을 ChatGPT 전반에 단계적으로 확장할 계획임을 밝혔습니다. 지금 당장 직접 활용하려면 Codex 또는 API를 통한 개발 경험이 필요합니다.
Q4. GPT-5.4의 한국어 성능은 어느 수준인가요?
▼
GPT-5 계열은 전반적으로 비영어권 언어 표현에서 약점이 있습니다. 나무위키와 다양한 사용자 후기에서 Thinking 모드를 켰을 때 영어 번역투가 섞이고, 수동태 남용, 어색한 명사 나열 등의 문제가 지적됩니다. GPT-5.4는 GPT-5.2보다 개선되었지만 완전히 해결된 것은 아닙니다. 한국어 창의적 글쓰기나 자연스러운 표현이 중요한 작업에는 Claude Opus 4.6을 병행하는 것이 현실적입니다.
Q5. GPT-5.4 API 가격은 GPT-5.2보다 많이 올랐나요?
▼
GPT-5.4 Pro 기준으로 입력 토큰(100만 토큰당 $30)은 GPT-5.2 Pro($21)보다 약 43% 인상되었고, 출력 토큰(100만 토큰당 $180)은 GPT-5.2($168) 대비 약 7% 올랐습니다. 단, Tool Search를 활용하면 에이전트 기반 작업에서 토큰 사용량이 최대 47% 줄어들기 때문에, 복잡한 파이프라인에서는 실질적 비용이 늘어나지 않을 수도 있습니다. GPT-5.4 표준(비-Pro) 모델은 GPT-5.2 대비 토큰당 가격 소폭 인상 수준입니다.
마치며 — GPT-5.4 시대, 어떻게 준비할 것인가
GPT-5.4 Thinking은 단순히 성능이 오른 AI 모델이 아닙니다. ‘언어 모델’에서 ‘행동하는 에이전트’로의 전환을 선언한 제품입니다. 전문가 83% 대체라는 GDPval 수치, 인간을 초과한 컴퓨터 조작 성능, 47% 비용 절감을 가능하게 하는 Tool Search — 이 세 가지만 봐도 이전 세대 AI와는 결이 다릅니다.
솔직히 말하자면, 지금 당장 일반 사용자 입장에서 Plus 요금제로 체감하는 변화가 드라마틱하지는 않을 수도 있습니다. 컴퓨터 조작 기능은 아직 API 중심이고, Thinking 성능 향상은 일상적인 질문보다 복잡한 업무에서 두드러지게 나타납니다. 그러나 방향은 분명합니다. AI는 이제 ‘답을 알려주는 도구’에서 ‘일을 대신 처리하는 동료’가 되고 있습니다. 이 흐름에 적응하는 사람과 그렇지 않은 사람 사이의 생산성 격차는 앞으로 더 빠르게 벌어질 것입니다.
GPT-5.4를 지금 바로 써보는 것, 특히 Thinking 모드에서 사고 개요를 활용해 복잡한 업무를 위임해보는 연습을 시작하는 것이 현재 시점에서 가장 현명한 선택입니다. Plus 구독 비용 월 2만 9천 원이 부담된다면, 우선 free로 GPT-5.3을 충분히 활용해 AI 협업 습관을 들이고 나서 업그레이드를 결정해도 늦지 않습니다.
본 포스팅은 OpenAI 공식 발표 자료와 공개된 벤치마크 데이터를 바탕으로 작성되었습니다. AI 모델의 성능·가격·요금제는 언제든 변경될 수 있으므로, 최신 정보는 반드시 OpenAI 공식 사이트에서 확인하세요. 본 글의 내용은 특정 서비스 구독을 권유하는 목적이 아니며, 정보 제공 목적으로만 작성되었습니다.











댓글 남기기