GPT-5.4 Thinking / Pro
OpenAI 공식 발표 기반
인간 기준선 72.4% 초과
전문 지식 업무 성취율
가격 2배 전환 기준
GPT-5.4, 무엇이 달라졌나
핵심 변화는 세 가지로 요약됩니다. 첫째, 메인라인 모델 최초의 컴퓨터 사용(Computer Use) 기능. 둘째, 최대 100만 토큰의 컨텍스트 창(단, 공식 기본값은 272K). 셋째, 도구 생태계에서 필요한 도구만 찾아 로드하는 Tool Search 기능입니다.
| 항목 | GPT-5.2 | GPT-5.4 |
|---|---|---|
| 출시일 | 2025년 하반기 | 2026.03.05 |
| 컴퓨터 사용 | 별도 도구 필요 | 메인라인 최초 기본 탑재 |
| 최대 컨텍스트 | 400K | 1,050,000 토큰 |
| GDPval (지식 업무) | 70.9% | 83.0% |
| OSWorld (컴퓨터 조작) | 47.3% | 75.0% (인간 72.4% 초과) |
| API 입력 단가 | $1.75/M | $2.50/M (기본) |
솔직히 말하면, GDPval 83%가 체감적으로 가장 의미 있는 숫자입니다. 44개 직종에 걸친 실제 전문 업무 산출물을 기준으로 했을 때 GPT-5.2 대비 12%p 이상 뛰었다는 건, 스프레드시트·발표자료·문서 작성 등 일상 업무에서 결과물 품질이 체감될 수준으로 달라졌다는 의미입니다.
컴퓨터 직접 조작, 실제로 무엇을 할 수 있나
이번 업데이트에서 가장 눈에 띄는 기능은 Computer Use입니다. AI가 스크린샷을 보고 마우스 클릭과 키보드 입력을 직접 발생시킬 수 있게 됐습니다. OpenAI가 공개한 OSWorld-Verified 벤치마크에서 GPT-5.4는 75.0%를 기록했는데, 인간 기준선이 72.4%이니 AI가 처음으로 인간의 데스크톱 조작 능력을 넘어선 것입니다. (출처: OpenAI 공식 발표, 2026.03.05)
실제 데모로 공개된 사례들을 보면 실감이 납니다. Quicken 재무 소프트웨어를 실행하고 장부를 정리하거나, Gmail에서 특정 이메일을 분석한 뒤 지정된 주소로 답장을 보내는 작업이 수초 내에 완료됐습니다. 단, 이 기능은 현재 API와 Codex에서만 활성화되어 있고, ChatGPT 일반 대화창에서 마우스를 직접 조작하는 방식은 아닙니다. 이 점은 헷갈리기 쉬운 부분입니다.
1M 토큰이라더니, 272K에서 가격이 2배 됩니다
⚠ 가장 많이 오해하는 부분입니다. 공식 문서에 명시된 내용입니다.
OpenAI가 공개한 Graphwalks 벤치마크를 보면, 0~128K 구간에서 93.0%였던 정확도가 256K~1M 구간에서는 21.4%로 급락합니다. 512K~1M 구간 MRCR 기준으로는 36.6% 수준입니다. 즉, “1M 토큰 지원”은 기술적 상한선이지, 실용적 최적 범위가 아닙니다. 272K를 넘으면 돈도 두 배, 정확도도 하락하는 구간으로 진입합니다. (출처: OpenAI 공식 발표 introducing-gpt-5-4, 2026.03.05)
| 컨텍스트 구간 | 입력 단가(/M) | 출력 단가(/M) | 정확도 참고 |
|---|---|---|---|
| 0 ~ 272K (기본 구간) | $2.50 | $15.00 | ~97% 안정 |
| 272K 초과 구간 | $5.00 (2배) | $22.50 (1.5배) | 256K 이후 하락 |
| 512K ~ 1M 구간 | $5.00 | $22.50 | ~36% 수준 |
실용적인 기준으로 보면 127K~272K 구간이 가성비 최적 지점입니다. 이 범위에서는 정확도가 97% 수준으로 유지되면서 기본 단가가 적용됩니다. 긴 코드베이스, 법률 문서, 멀티턴 에이전트 체인 등 대부분의 실무 작업은 이 구간 안에서 처리가 됩니다.
Thinking vs Pro, 비용 차이가 12배입니다
OpenAI가 공개한 GDPval(44개 직종 전문 지식 업무) 벤치마크에서 Thinking 5.4는 83.0%, Pro 5.4는 82.0%입니다. 가격이 12배 비싼 Pro가 일상적인 전문 업무에서는 오히려 1%p 낮습니다. Pro가 앞서는 구간은 ARC-AGI-2(추상 추론 83.3% vs 73.3%), BrowseComp(웹 리서치 89.3% vs 82.7%) 같은 고강도 추론 작업에서입니다. 즉, “Pro는 언제나 Thinking보다 좋다”는 생각은 공식 수치로 확인되지 않습니다. (출처: OpenAI 공식 발표 introducing-gpt-5-4, 2026.03.05)
| 항목 | Thinking 5.4 | Pro 5.4 |
|---|---|---|
| API 입력 단가 | $2.50/M | $30.00/M |
| API 출력 단가 | $15.00/M | $180.00/M |
| GDPval (전문 업무) | 83.0% ✓ | 82.0% |
| ARC-AGI-2 (추상 추론) | 73.3% | 83.3% ✓ |
| BrowseComp (웹 리서치) | 82.7% | 89.3% ✓ |
| 이미지 생성/앱/메모리 | 사용 가능 | 비활성 |
| ChatGPT 플랜 | Plus·Team·Pro·Enterprise | Pro·Enterprise 전용 |
이 부분이 좀 아쉬웠습니다. Pro는 이미지 생성, Memory, Canvas 기능이 모두 비활성화됩니다. 컴퓨팅을 극한까지 쓰는 대신 편의 기능을 포기하는 구조인데, 실제로 쓰다 보면 이 제약이 생각보다 불편합니다. 일반적인 전문 업무라면 Thinking으로 충분하고, Pro는 난이도 높은 추론이나 멀티소스 리서치에서 비용 대비 명확한 효과가 필요할 때 선택적으로 쓰는 편이 합리적입니다.
요금제별 실제 사용 한도와 접근 조건
ChatGPT에서 GPT-5.4를 쓰려면 어떤 요금제가 필요한지, 실제 한도는 얼마인지 정리했습니다. 모델명은 같아도 플랜마다 컨텍스트 창과 사용 한도가 다릅니다. (출처: OpenAI Help Center, 2026.03.20 기준)
| 플랜 | 월 요금 | Thinking 5.4 | Pro 5.4 | Thinking 컨텍스트 |
|---|---|---|---|---|
| Free | 무료 | ❌ | ❌ | — |
| Plus | $20/월 | ✅ 주 3,000건 | ❌ | 256K |
| Pro | $200/월 | ✅ 무제한 | ✅ | 400K (272K 입력) |
| Enterprise | 별도 협의 | ✅ | ✅ | 400K |
Plus에서 주당 3,000건은 꽤 넉넉하게 보이지만, 한 주에 매일 깊이 있는 작업을 Thinking으로 돌린다면 실제로 체감할 수 있는 한도입니다. 한 번의 긴 멀티스텝 에이전트 작업이 수십 건의 내부 요청을 발생시킬 수 있기 때문에, 복잡한 워크플로우를 자주 돌린다면 Pro를 고려해야 하는 상황이 생길 수 있습니다. 막상 써보면 이 단계에서 멈추게 되는 경우가 있습니다.
Tool Search로 실제 비용을 줄이는 방법
OpenAI가 Scale의 MCP Atlas 벤치마크 250개 태스크에서 측정한 결과, 동일 정확도를 유지하면서 토큰 사용량이 47% 줄었습니다. 입력 토큰 단가가 43% 오른 것과 Tool Search 47% 절감 효과가 상쇄되는 구조이기 때문에, 에이전트 워크플로우에서 GPT-5.2 대비 실제 총비용 상승은 생각보다 크지 않을 수 있습니다. (출처: OpenAI 공식 발표 introducing-gpt-5-4, 2026.03.05)
시나리오: 하루 50건 에이전트 작업, 평균 입력 8K 토큰 + 출력 1.5K 토큰 기준 (272K 이하 구간)
→ 일간 $2.10 / 월간 약 $63
Pro 5.4 단독: (8K × $30/M) + (1.5K × $180/M) = 건당 약 $0.51
→ 일간 $25.50 / 월간 약 $765
※ Tool Search 적용 시 입력 토큰 최대 47% 절감 가능 → 실제 비용 추가 감소 (추정)
※ 추정치. 실제 워크플로우로 직접 측정 권장.
생각보다 간단한 결론입니다. MCP 도구를 많이 쓰는 에이전트 워크플로우라면 Tool Search 적용이 거의 필수 수준의 비용 절감 수단입니다. 단순 대화형 사용에서는 이 기능이 크게 의미 없고, API 개발자 위주의 기능입니다.
자주 묻는 질문
마치며
단, 두 가지는 반드시 기억하는 편이 좋습니다. 첫째, 1M 토큰은 기술적 상한선이지 최적 운용 범위가 아닙니다. 실제로 쓸 수 있는 정확도가 유지되는 구간은 272K 이하이고, 이걸 넘으면 가격이 2배로 뛰면서 정확도도 하락합니다. 둘째, Pro 5.4는 Thinking 5.4보다 가격이 12배 비싸지만 일반 전문 업무 벤치마크에서는 오히려 Thinking이 1%p 앞섭니다. Pro가 빛을 발하는 구간은 추상 추론과 심층 멀티소스 리서치입니다.
결론부터 말씀드리면, 대부분의 실무 사용자에게는 ChatGPT Plus($20/월) + Thinking 5.4 조합이 현재 가성비 기준으로 합리적인 선택입니다. API 개발자라면 Tool Search를 반드시 적용하고, 127K~272K 구간을 유지하는 것이 비용 최적화의 핵심입니다.
본 포스팅은 2026년 3월 20일 기준으로 작성됐습니다. OpenAI의 서비스 정책·UI·가격·기능은 업데이트로 인해 언제든 변경될 수 있습니다. 최신 정보는 OpenAI 공식 웹사이트(openai.com)와 Help Center에서 직접 확인하시기 바랍니다.


댓글 남기기