“AI가 드디어 컴퓨터를 쓴다”는 말이 맞긴 한데, 조건이 있습니다.
2026년 3월 5일, OpenAI가 GPT-5.4를 공개했습니다. 이 모델의 핵심은 하나입니다. 추론(Thinking), 코딩(Codex), 그리고 컴퓨터 직접 조작(Computer Use)이라는 세 가지 능력을 별도 모델 없이 단일 모델로 통합했다는 점입니다.
기존에는 코딩 작업이 많으면 GPT-5.3-Codex, 복잡한 추론이 필요하면 GPT-5.2 Thinking을 따로 골라야 했습니다. GPT-5.4는 그 선택 자체를 없앱니다. OpenAI는 공식 발표에서 44개 전문직 직무 벤치마크(GDPval)에서 GPT-5.4가 83.0%의 승률 또는 동률을 기록했다고 밝혔습니다. GPT-5.2는 같은 기준 71.0%였습니다. (출처: OpenAI 공식 블로그, 2026.03.05)
결론부터 말하면, GPT-5.4는 제대로 쓰려면 API나 Codex 환경이 전제됩니다. ChatGPT 웹·앱 화면에서는 핵심 기능인 Computer Use가 아직 지원되지 않습니다. 이 부분을 모르고 들어가면 기대와 현실의 차이가 꽤 납니다.
Computer Use, 진짜로 인간을 넘었을까?
GPT-5.4 발표에서 가장 주목받은 수치가 OSWorld 벤치마크입니다. OSWorld는 AI가 실제 데스크톱 환경에서 화면을 보며 마우스·키보드로 작업을 완수하는 능력을 측정합니다. GPT-5.4는 여기서 75.0%를 기록했습니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
💡 공식 발표문과 벤치마크 방법론을 같이 놓고 보니 이런 차이가 보였습니다. OSWorld의 인간 기준선은 72.4%인데, 이건 “일반인이 컴퓨터를 무작위 과제로 테스트”한 수치입니다. 숙련 사용자 기준이 아닌 점을 감안할 필요가 있습니다.
같은 벤치마크에서 이전 모델 GPT-5.2는 47.3%에 머물렀습니다. 한 세대 만에 거의 두 배에 가까운 수치입니다. 이 숫자가 의미하는 건, AI가 화면을 보고 작업을 수행하는 능력이 이제 어느 정도 실용 수준에 진입했다는 것입니다. WebArena 웹 브라우징 테스트에서도 GPT-5.4는 67.3%를 기록했고, 온라인 복합 작업(Online-Mind2Web)에서는 92.8%를 달성했습니다.
다만 솔직히 말하면, 웹 브라우징 67.3%라는 수치는 1/3 이상의 경우에 작업이 실패한다는 뜻이기도 합니다. “AI가 다 알아서 해준다”기보다는, “AI가 상당히 많은 걸 할 수 있지만 여전히 사람이 결과를 확인해야 한다”는 단계입니다. 결정적인 업무에 단독으로 맡기기에는 아직 이릅니다.
| 벤치마크 | GPT-5.4 | GPT-5.2 | 인간 기준선 |
|---|---|---|---|
| OSWorld-Verified | 75.0% | 47.3% | 72.4% |
| WebArena-Verified | 67.3% | 65.4% | — |
| BrowseComp | 82.7% | 65.8% | — |
| GDPval (전문직 승률) | 83.0% | 71.0% | — |
출처: OpenAI 공식 블로그 introducing-gpt-5-4 (2026.03.05)
1M 토큰이라는데, 256K 넘기면 어떻게 될까?
GPT-5.4는 API와 Codex에서 최대 100만 토큰(1M)의 컨텍스트 윈도우를 지원합니다. 한국어 기준으로 약 소설책 3~4권 분량을 한 번에 넣을 수 있다는 얘기입니다. 대규모 프로젝트 문서를 통째로 넘겨주고 분석하게 하는 게 가능해진 겁니다.
💡 공식 벤치마크 표를 직접 뜯어보니 이런 수치가 나왔습니다. Graphwalks BFS 테스트에서 0~128K 구간 성능은 93.0%지만, 256K~1M 구간에서는 21.4%로 급락합니다. 부모 관계 탐색(Graphwalks parents)도 0~128K에서는 89.8%이지만 256K~1M에서 32.4%로 떨어집니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
이 수치가 뜻하는 건 명확합니다. 1M 토큰을 “지원”한다는 것과 1M 토큰에서 “제대로 작동”한다는 건 다른 이야기입니다. 0~128K 구간에서 93%이던 성능이 256K~1M 구간에서 21%로 내려가면, 사실상 그 구간에서는 모델이 정보를 끝까지 추적하는 데 어려움을 겪는다는 뜻입니다. 토큰을 많이 넣을수록 긴 문서 앞부분의 내용이 뒷부분에서 희석되는 현상은 현재 모든 LLM의 공통 과제입니다.
Codex 환경에서는 또 하나의 기준치가 있습니다. OpenAI 공식 문서에 따르면 model_auto_compact_token_limit가 272K로 설정되어 있습니다. 쉽게 말해 컨텍스트가 272K를 넘기면 자동으로 압축이 시작됩니다. 1M을 넣어도 모델이 내부적으로 중요도 판단하여 정보를 압축하기 때문에, 초반부 내용은 상대적으로 손실이 생길 수 있습니다. (출처: OpenAI developers 공식 문서, 2026.03)
| 컨텍스트 구간 | Graphwalks BFS | Graphwalks Parents |
|---|---|---|
| 0 ~ 128K | 93.0% | 89.8% |
| 256K ~ 1M | 21.4% | 32.4% |
출처: OpenAI 공식 블로그 introducing-gpt-5-4 (2026.03.05) — 128K~256K 구간 데이터는 공식 문서에 별도 기재 없음
실무에서 대규모 문서를 처리할 때는 가능하면 128K 이하로 입력을 분할하거나, 관련 부분만 정제해서 넣는 방식이 여전히 유효합니다. 1M을 지원한다고 해서 무조건 통째로 넣는 것이 더 좋은 결과를 보장하진 않습니다.
ChatGPT에서는 아직 안 됩니다
많은 소개 글에서 “GPT-5.4가 컴퓨터를 직접 씁니다”라고 쓰고 끝납니다. 하지만 실제로 chatgpt.com을 열고 GPT-5.4를 선택해도 Computer Use 기능은 보이지 않습니다. OpenAI 공식 발표문에 명확히 명시되어 있습니다. Computer Use 기능은 현재 API와 Codex 환경에서만 지원되며, ChatGPT 일반 대화 화면에서는 아직 사용 불가입니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
ChatGPT Plus 구독자라면 GPT-5.4 Thinking을 모델 선택기에서 선택할 수 있지만, 이건 추론(Thinking) 모드이지 컴퓨터 조작 기능이 아닙니다. Computer Use를 써보려면 OpenAI API 키를 발급받고 Responses API 또는 Codex CLI를 통해 접근해야 합니다. API에서 호출할 때는 모델 문자열 gpt-5.4를 사용하면 됩니다.
GPT-5.4 Pro는 더 제한적입니다. gpt-5.4-pro는 API에서 사용 가능하고, ChatGPT에서는 Pro(월 200달러, 약 29만 원) 및 Enterprise 구독자만 접근할 수 있습니다. 일반 Plus 사용자가 GPT-5.4 Pro를 ChatGPT에서 직접 쓰는 것은 현재 불가합니다.
| 구분 | ChatGPT Plus ($20/월) | ChatGPT Pro ($200/월) | API |
|---|---|---|---|
| GPT-5.4 Thinking | ✅ | ✅ | ✅ (gpt-5.4) |
| GPT-5.4 Pro | ❌ | ✅ | ✅ (gpt-5.4-pro) |
| Computer Use 기능 | ❌ (Chat UI 미지원) | ❌ (Chat UI 미지원) | ✅ (API/Codex 전용) |
출처: OpenAI 공식 블로그 introducing-gpt-5-4, OpenAI 도움말 센터 (2026.03.05 기준)
API 요금, GPT-5.2랑 얼마나 차이날까?
GPT-5.4가 좋아 보여도 API 비용이 문제입니다. OpenAI 공식 요금 페이지 기준 GPT-5.4의 API 요금은 입력 토큰 100만 개당 $2.50, 출력 토큰 100만 개당 $15.00입니다. 캐시된 입력은 $0.25로 저렴해집니다. (출처: openai.com/api/pricing, 2026.03.18 기준)
GPT-5.2와 비교해보면 입력 기준으로 약 43% 비싸고($1.75 → $2.50), 출력 기준으로는 약 7% 비쌉니다($14 → $15). Pro 버전은 격차가 더 큽니다. GPT-5.2 Pro가 입력 $21/1M인 반면, GPT-5.4 Pro는 $30/1M입니다. 출력은 GPT-5.2 Pro $168/1M에서 GPT-5.4 Pro $180/1M으로 올랐습니다.
| 모델 | 입력 (1M 토큰) | 캐시 입력 | 출력 (1M 토큰) |
|---|---|---|---|
| gpt-5.2 | $1.75 | $0.175 | $14.00 |
| gpt-5.4 | $2.50 (+43%) | $0.25 | $15.00 (+7%) |
| gpt-5.2-pro | $21 | — | $168 |
| gpt-5.4-pro | $30 (+43%) | — | $180 (+7%) |
출처: openai.com/api/pricing (2026.03.18 기준)
입력 단가가 43% 올랐다는 게 실무에서 어떤 의미냐면, 대화를 반복해서 넣는 에이전트 구조일수록 비용이 빠르게 쌓입니다. 캐시 히트가 많은 구조라면 캐시 입력 단가($0.25)로 절감할 수 있지만, 매번 새로운 컨텍스트를 넣는 방식이라면 GPT-5.2보다 의미 있게 비용이 높아집니다. 단순 대화형 챗봇 용도라면 굳이 GPT-5.4를 선택해야 할 이유가 없습니다. Computer Use나 복합 에이전트 작업이 아닌 경우, GPT-5.2로도 충분한 경우가 많습니다.
도구 검색으로 토큰 47% 아낀다는 말의 진짜 의미
GPT-5.4의 또 다른 핵심 기능이 도구 검색(Tool Search)입니다. 기존 방식에서는 AI가 사용할 수 있는 도구 목록을 매 요청마다 전부 컨텍스트에 담아 넘겨야 했습니다. MCP 서버가 36개이고 각 서버에 수십 개 도구가 연결되어 있다면, 단순히 “도구 목록 읽기”에만 상당한 입력 토큰이 소비됩니다.
OpenAI는 공식 발표에서 이 기능을 적용했을 때 250개 도구 환경에서 토큰 사용량이 47% 줄었고, 36개 MCP 서버 환경에서 정확도는 동일하게 유지됐다고 밝혔습니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05) 도구가 많을수록 효과가 커지는 구조입니다.
💡 요금표와 도구 검색 절감 수치를 같이 계산해 보니 이런 그림이 나왔습니다. 입력 단가가 GPT-5.2 대비 43% 올랐지만, 도구 검색으로 입력 토큰을 47% 절감한다면? 단순 산술로는 GPT-5.4 + 도구 검색 조합이 도구가 많은 에이전트 환경에서 GPT-5.2보다 오히려 저렴해질 수 있습니다. 물론 도구 검색 비용 자체($2.50/1K 호출)는 별도입니다.
계산식을 직접 따라해 보면, 입력 토큰 100만 개 사용 기준으로 GPT-5.2는 $1.75이고 GPT-5.4는 $2.50입니다. 하지만 GPT-5.4에서 도구 검색으로 입력 토큰이 47% 줄면 실효 입력은 53만 토큰이 됩니다. 그러면 실효 입력 비용은 약 $1.33으로, GPT-5.2보다 오히려 싸집니다. 단, 이 계산은 도구가 매우 많아서 도구 목록이 입력 토큰의 상당 부분을 차지하는 에이전트 구조에서만 성립합니다. 단순 질의응답 구조에서는 해당되지 않습니다.
Codex 환경에서 GPT-5.4 표준(Instant) 모드는 GPT-5.3-Codex 대비 1.5배 더 빠르다고 OpenAI는 밝혔습니다. 속도 향상과 도구 절감이 동시에 적용될 때, 복잡한 에이전트 파이프라인에서 비용·시간 효율이 올라가는 구조입니다. (출처: OpenAI 공식 문서 priority-processing, 2026.03)
자주 묻는 질문 (Q&A)
Q1. ChatGPT Plus($20/월)를 쓰면 GPT-5.4 Computer Use를 쓸 수 있나요?
아직은 안 됩니다. Computer Use는 API와 Codex 환경 전용이라 ChatGPT Plus에서는 GPT-5.4 Thinking(추론 모드)만 사용 가능합니다. Computer Use를 쓰려면 OpenAI API 키를 발급받아 Responses API 또는 Codex CLI를 통해 접근해야 합니다. (출처: OpenAI 공식 블로그, 2026.03.05)
Q2. 100만 토큰 컨텍스트면 대용량 문서 처리에 완전히 자유로운 건가요?
그렇지 않습니다. OpenAI 공식 벤치마크에서 256K~1M 구간 성능은 0~128K 구간 대비 급격히 낮아집니다. 특히 관계 추적 과제에서는 128K 이내 93%이던 성능이 256K~1M에서 21%까지 떨어집니다. 가능하면 입력을 128K 이내로 분할하는 것이 정확도 측면에서 현실적입니다. (출처: OpenAI 공식 블로그 introducing-gpt-5-4, 2026.03.05)
Q3. GPT-5.4와 GPT-5.3-Codex 중 코딩 용도에는 어떤 게 더 나을까요?
코딩 전용이라면 GPT-5.4가 전반적으로 앞서지만 격차가 크진 않습니다. SWE-Bench Pro에서 GPT-5.4는 57.7%, GPT-5.3-Codex는 56.8%입니다. 반면 Terminal-Bench 2.0에서는 GPT-5.3-Codex가 77.3%로 GPT-5.4(75.1%)보다 약간 높습니다. 터미널 중심 작업이라면 GPT-5.3-Codex가 여전히 합리적인 선택입니다. (출처: OpenAI 공식 블로그, 2026.03.05)
Q4. GPT-5.2 Thinking이 6월 5일까지만 지원된다고 하던데, 그다음은 어떻게 되나요?
OpenAI 공식 릴리스 노트에 따르면 GPT-5.2 Thinking은 2026년 6월 5일에 지원이 종료됩니다. Plus/Team 사용자는 그 이후 GPT-5.4 Thinking으로 전환됩니다. Enterprise/Edu 사용자는 별도 일정으로 안내될 예정입니다. (출처: OpenAI 모델 릴리스 노트, 2026.02.10)
Q5. OpenAI가 곧 컨테이너 요금도 청구한다던데, 이게 뭔가요?
OpenAI API의 내장 도구 중 “컨테이너(호스티드 셸 및 코드 인터프리터)”가 2026년 3월 31일부터 세션 기준으로 요금이 청구됩니다. 기존에는 컨테이너당 $0.03이었는데, 3월 31일부터는 동일 단가지만 “20분 세션당” 과금으로 방식이 명확해집니다. 1GB 기본 컨테이너 기준 $0.03/20분 세션입니다. (출처: openai.com/api/pricing, 2026.03.18 기준)
마치며 — GPT-5.4, 지금 써야 할까?
GPT-5.4는 확실히 한 단계 올라간 모델입니다. Computer Use의 OSWorld 75%는 사람(72.4%)을 넘는 첫 사례이고, 추론·코딩·컴퓨터 사용을 통합한 구조도 실용적입니다. 하지만 이 모든 것의 전제는 API나 Codex 환경입니다. ChatGPT 구독자라면 Thinking 기능의 향상은 체감하겠지만 Computer Use는 아직 해당 사항이 없습니다.
개인적인 판단으로는, 에이전트나 자동화 파이프라인을 만드는 개발자라면 GPT-5.4는 지금 테스트해볼 이유가 충분합니다. 도구 검색(Tool Search)으로 토큰 비용을 실질적으로 줄이면서 Computer Use까지 엮을 수 있기 때문입니다. 반면 단순 대화나 문서 요약 용도라면 GPT-5.2가 여전히 가성비 면에서 합리적입니다. 입력 단가가 43% 오른 만큼, 그 차이를 메우는 기능을 실제로 쓸 수 있는 환경인지를 먼저 확인하는 게 맞습니다.
1M 컨텍스트는 매력적이지만, 256K를 넘기면 성능이 급락한다는 공식 수치는 잊지 말아야 합니다. “지원”과 “제대로 작동”은 언제나 다른 이야기입니다.
본 포스팅 참고 자료
-
OpenAI 공식 블로그 — Introducing GPT-5.4
https://openai.com/ko-KR/index/introducing-gpt-5-4/ -
OpenAI 공식 API 요금 페이지 (2026.03.18 기준)
https://openai.com/api/pricing/ -
OpenAI 모델 릴리스 노트 (한국어 공식)
https://help.openai.com/ko-kr/articles/9624314-model-release-notes
⚠️ 본 포스팅은 2026년 3월 18일 작성 시점의 OpenAI 공식 발표 자료를 기반으로 합니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. API 가격은 openai.com/api/pricing에서 최신 정보를 직접 확인하시기 바랍니다.


댓글 남기기