GPT-5.3-Codex
2026.03.24 작성
GPT-5.3-Codex 직접 써봤습니다 — 빠른 게 다가 아닙니다
결론부터 말씀드리면, GPT-5.3-Codex는 전작보다 확실히 빠릅니다. 그런데 그 속도 뒤에 토큰 소모가 훨씬 커졌다는 사실이 잘 알려지지 않았습니다. Terminal-Bench 2.0에서 77.3%를 찍었다는 벤치마크 수치는 진짜고, OSWorld에서도 이전 모델 대비 두 배 가까이 뛰었습니다. 근데 막상 Pro 플랜으로 실제 프로젝트를 굴리다 보면 주간 한도가 생각보다 훨씬 빨리 찹니다.
GPT-5.3-Codex, 무엇이 달라졌나
GPT-5.3-Codex는 2026년 2월 5일 OpenAI가 정식 출시한 Codex 전용 코딩 에이전트 모델입니다. 이전 버전인 GPT-5.2-Codex와 같은 날 Claude Opus 4.6이 동시 출시되면서 AI 코딩 시장에서 가장 많이 비교된 두 모델이 됐습니다. (출처: OpenAI 공식 블로그, 2026.02.05)
이 모델의 핵심 설계 방향은 “실행 중심”입니다. 단순히 코드를 생성하는 게 아니라 터미널, 파일 시스템, 빌드 도구를 직접 다루면서 긴 세션 동안 작업을 끊기지 않고 이어가는 걸 목표로 설계됐습니다. OpenAI가 내세운 가장 큰 개선점은 속도인데, 공식 발표에서 GPT-5.2-Codex 대비 25% 빠르고 토큰 효율도 높아졌다고 명시했습니다. (출처: OpenAI, introducing-gpt-5-3-codex, 2026.02.05)
그런데 실제 개발자 커뮤니티 반응을 보면 칭찬과 불만이 동시에 나옵니다. 프로덕션 레벨로 진지하게 제품을 만드는 사람들 사이에선 “써봐야 안다”는 말이 많습니다. 성능이 좋아진 건 맞는데, 그게 꼭 비용 효율로 이어지진 않습니다.
벤치마크 수치 3개, 공식 문서로 직접 확인
SWE-Bench Pro에서 56.8%가 의미하는 것
SWE-Bench Pro(Public)는 실제 깃허브 이슈를 자동으로 해결하는 능력을 측정하는 벤치마크입니다. GPT-5.3-Codex는 56.8%를 기록했고, 이전 GPT-5.2-Codex(56.4%), GPT-5.2(55.6%)와 비교했을 때 큰 차이는 없습니다. (출처: OpenAI 공식 시스템 카드, gpt-5-3-codex-system-card) 실제 GitHub 이슈 절반 이상은 자동으로 처리 가능하다는 뜻이지만, 나머지 43%는 여전히 사람이 필요합니다.
Terminal-Bench 2.0에서 77.3%가 진짜 놀라운 이유
Terminal-Bench 2.0은 실제 터미널 환경에서 복잡한 명령어 기반 작업을 처리하는 능력을 평가합니다. GPT-5.2-Codex가 64.0%, GPT-5.2가 62.2%를 기록한 반면 GPT-5.3-Codex는 77.3%로 훨씬 높습니다. (출처: OpenAI, introducing-gpt-5-3-codex, 2026.02.05) 터미널 작업 능력이 약 13%p 이상 뛴 셈입니다. DevOps나 인프라 자동화처럼 터미널 중심 작업에서 체감 차이가 큽니다.
OSWorld에서 64.7%, 이게 더 충격적입니다
OSWorld-Verified는 실제 컴퓨터 화면 기반 작업 실행 능력을 측정하는 벤치마크입니다. GPT-5.2-Codex는 38.2%, GPT-5.2는 37.9%였는데 GPT-5.3-Codex는 64.7%입니다. (출처: OpenAI 공식 시스템 카드) 거의 두 배 가까이 오른 수치입니다. 다만 OpenAI는 이 수치가 어떤 조건에서 측정됐는지 상세한 추가 설명을 공식 문서에서 별도로 밝히지 않았습니다.
💡 공식 발표문과 벤치마크 수치를 같이 보니 이런 패턴이 보였습니다
GPT-5.3-Codex의 성능 개선은 SWE-Bench Pro보다 Terminal-Bench와 OSWorld에서 집중됩니다. SWE-Bench Pro의 개선폭(+0.4%p)이 작은 반면, 터미널·OS 실행 쪽에서 10~26%p 이상 뛰었다는 건 이 모델이 “코드 생성”보다 “실행 에이전트”로 특화됐다는 증거입니다. 코드 한 줄 짜달라는 용도엔 사실 전작과 차이가 거의 없습니다.
| 벤치마크 | GPT-5.3-Codex | GPT-5.2-Codex | GPT-5.2 |
|---|---|---|---|
| SWE-Bench Pro | 56.8% | 56.4% | 55.6% |
| Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld-Verified | 64.7% | 38.2% | 37.9% |
| SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |
| GDPval (wins/ties) | 70.9% | — | 70.9% (high) |
(출처: OpenAI 공식 시스템 카드 및 introducing-gpt-5-3-codex, 2026.02.05)
빠를수록 한도가 더 빨리 찬다는 사실
OpenAI는 GPT-5.3-Codex가 이전보다 25% 빠르고 토큰 효율이 올라갔다고 발표했습니다. 그런데 실제 Pro 플랜 사용자들이 주간 한도를 더 빨리 소진하고 있다는 얘기가 개발자 커뮤니티에서 나오고 있습니다.
💡 “빠르고 효율적”이라는 말의 이면을 같이 봐야 합니다
GPT-5.3-Codex의 속도 향상은 단일 작업 기준입니다. 그런데 모델이 빠르게 실행되면서 더 복잡한 에이전트 루프를 더 많이 돌리게 되고, 결과적으로 GPT-5-Codex 초기 시절보다 세션당 토큰 소모가 훨씬 늘어났습니다. Reddit r/codex에서 2026년 3월 13일 올라온 글에서 “모델들이 GPT-5-Codex 나왔을 때보다 훨씬 더 많은 토큰을 사용하고 있고, Codex CLI 주간 제한도 엄청 줄었다”는 내용이 화제가 됐습니다.
단순히 계산해보면 이렇습니다. Pro 플랜은 주간 한도 내에서 Codex를 사용합니다. 모델이 25% 빨라지면 같은 시간에 더 많은 작업을 시도하게 되고, 토큰 효율이 좋아졌더라도 더 복잡한 태스크를 같은 시간에 더 많이 돌리면 전체 소모량은 늘어납니다. 한도를 초과하면 추가 크레딧을 구매해야 합니다. (출처: Reddit r/codex, 2026.03.09)
또한 GPT-5.4가 출시된 2026년 3월 기준으로는 Codex 5.4가 5.3보다 토큰 소모가 더 크다는 얘기도 나오고 있습니다. 즉, 상위 버전으로 갈수록 포함된 주간 사용량이 줄어드는 구조가 될 가능성이 있습니다. (출처: Reddit r/codex, 2026.03.09)
Claude Code와 나란히 놓고 비교했습니다
GPT-5.3-Codex와 Claude Opus 4.6은 2026년 2월 5일 거의 동시에 출시됐습니다. 각 모델의 성격은 명확히 다릅니다. GPT-5.3-Codex는 실행 중심, Claude Opus 4.6은 추론 중심으로 설계됐습니다.
실제 UI 개발 태스크 비교에서 GPT-5.3-Codex는 완성까지 약 3분 53초, Claude Opus 4.6은 약 3분이 걸렸습니다. 속도 차이가 크지 않은 반면, 데이터 분석 태스크에서는 차이가 두드러졌습니다. Codex는 약 1분 35초 만에 요약 테이블을 뽑아냈고, Opus 4.6은 약 8분에 걸쳐 전체 파이프라인을 구성했습니다. (출처: Tensorlake 실사용 비교 리포트, 2026.02.09)
속도가 필요한 빠른 프로토타이핑이라면 Codex가 유리합니다. 반면 복잡한 분석 작업이나 대용량 문서를 다루는 상황이라면 Opus 4.6의 1M 토큰 컨텍스트 윈도우(베타)가 더 유리합니다. 결국 어느 쪽이 “낫다”가 아니라 용도가 다른 도구입니다.
| 항목 | GPT-5.3-Codex | Claude Opus 4.6 |
|---|---|---|
| 핵심 설계 | 실행·에이전트 | 추론·분석 |
| UI 개발 소요 시간 | 약 3분 53초 | 약 3분 |
| 데이터 분석 소요 시간 | 약 1분 35초 | 약 8분 |
| 컨텍스트 윈도우 | 공개 미확인 | 200K (1M 베타) |
| Terminal-Bench 2.0 | 77.3% | Opus 4.6이 더 높음 |
| 적합한 작업 | 빠른 프로토타이핑, DevOps | 문서 분석, 복잡한 추론 |
(출처: Tensorlake 비교 리포트, 2026.02.09 / Anthropic 공식 문서 기준)
무한루프 버그와 컨텍스트 소진 문제
OpenAI 공식 발표에서는 GPT-5.3-Codex가 더 안정적이고 토큰 효율이 높아졌다고 했습니다. 그런데 실제 사용자 사례를 보면 다른 장면도 있습니다. 2026년 2월 10일 Reddit r/codex에 올라온 글에서 B2B SaaS 플랫폼 모듈 구현을 요청했다가 컨텍스트 윈도우가 꽉 찬 상태에서 무한루프에 빠져 토큰이 그대로 소모됐다는 사례가 공유됐습니다. (출처: Reddit r/codex, 2026.02.10)
이 문제는 에이전트 루프 구조상 발생할 수 있습니다. Codex는 OpenAI Responses API를 기반으로 동작하고, 컨텍스트가 누적될수록 이전 대화 내용을 계속 input에 담아 전달합니다. /compact 명령어로 수동 압축이 가능하지만, 자동으로 처리되지 않는 구조입니다. 공식 문서에는 이 부분을 개발자가 직접 관리해야 한다고 나옵니다. (출처: OpenAI, unrolling-the-codex-agent-loop, 2026.01.23)
솔직히 말하면, 이 부분이 제일 아쉬웠습니다. 에이전트가 긴 작업을 처리할 때 컨텍스트 관리를 사용자가 직접 신경 써야 한다는 건 자동화 도구로서 완성도가 아직 80%라는 느낌입니다.
Codex 앱, CLI, API — 어느 쪽이 실제로 유리한가
GPT-5.3-Codex는 세 가지 경로로 쓸 수 있습니다. ChatGPT 앱 내 Codex 탭, Codex CLI, 그리고 OpenAI API입니다. 각각 미묘하게 다른 방식으로 Responses API와 연결됩니다.
Codex 앱은 2026년 2월 2일 macOS 버전이 먼저 출시됐고, 2026년 3월 4일에 Windows 버전도 추가됐습니다. (출처: OpenAI, introducing-the-codex-app, 업데이트 2026.03.04) 멀티 에이전트와 병렬 워크플로를 지원하고, 여러 에이전트를 동시에 관리하는 커맨드 센터 역할을 합니다.
CLI는 로컬 터미널 환경에서 직접 사용하는 방식으로, –oss 옵션으로 ollama나 LM Studio 같은 로컬 모델과도 연결할 수 있습니다. API 방식은 Zero Data Retention(ZDR) 옵션이 있어 보안이 중요한 기업 환경에서 유리합니다. (출처: OpenAI, unrolling-the-codex-agent-loop) 어느 경로를 선택하느냐에 따라 토큰 계산 방식과 컨텍스트 관리 방법이 달라집니다.
💡 CLI vs 앱 vs API, 어느 쪽 선택이 비용에 영향을 줄까
Codex CLI는 ChatGPT backend-api 경로를 사용하고, API는 platform.openai.com 경로를 씁니다. Pro 플랜 가입자는 CLI와 앱에서 주간 한도 내에서 사용하지만, API는 별도 과금입니다. 즉 API로 연결하면 주간 한도 소진 없이 쓸 수 있지만 토큰당 요금이 발생합니다. 한도가 걱정된다면 API 전환이 현실적인 선택입니다.
슈퍼앱 통합 발표, 실제로 바뀌는 것들
2026년 3월 20일, OpenAI가 ChatGPT·Codex·Atlas를 하나로 묶는 데스크톱 슈퍼앱 계획을 발표했습니다. (출처: OpenAI 공식 발표 및 미디어유스, 2026.03.20) 지금은 ChatGPT 앱과 Codex 앱이 따로 존재하는데, 이를 단일 데스크톱 환경으로 통합하겠다는 방향입니다.
이게 GPT-5.3-Codex 사용자에게 어떤 의미인지를 생각해보면, 지금처럼 탭이나 CLI를 왔다 갔다 하지 않고 하나의 화면에서 대화형 작업과 코딩 에이전트를 동시에 쓸 수 있게 됩니다. 단 이 통합이 언제, 어떤 요금제 범위에서 제공될지는 아직 공개되지 않았습니다.
지금 당장 GPT-5.3-Codex를 시작하는 입장이라면, 슈퍼앱 발표를 보고 잠깐 기다려볼 이유도 있습니다. 통합 이후 인터페이스가 크게 달라질 가능성이 있고, 지금 CLI 워크플로를 세팅하는 데 투자하는 시간이 몇 달 안에 방식이 바뀔 수도 있기 때문입니다.
자주 묻는 질문 Q&A
마치며 — 총평
GPT-5.3-Codex는 지금 나와 있는 코딩 에이전트 중에서 터미널 실행 중심 작업에 가장 잘 맞는 모델임은 분명합니다. Terminal-Bench 77.3%, OSWorld 64.7%는 공식 수치이고, 이전 세대와 비교해서 실행 능력 쪽에서 눈에 띄게 올라왔습니다.
그런데 “빠르다”는 것만 보고 들어가면 생각보다 빨리 한도에 걸리는 경험을 하게 됩니다. 토큰 소모가 이전 세대보다 늘어난 구조적 이유가 있고, 무한루프 같은 엣지 케이스는 아직 사용자가 직접 신경 써야 하는 부분입니다. 이 두 가지를 알고 시작하면 훨씬 덜 당황합니다.
정리하면: 빠른 프로토타이핑, DevOps 자동화, 터미널 중심 반복 작업에는 지금 GPT-5.3-Codex를 쓸 이유가 충분합니다. 복잡한 추론이 필요하거나 대용량 문서를 다루는 작업이라면 Claude Opus 4.6이 더 맞습니다. 슈퍼앱 통합 발표를 고려해서 지금 당장 셋업에 많이 투자하는 건 3~6개월 후 상황을 보고 결정하는 게 낫습니다.
본 포스팅 참고 자료
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 OpenAI 공식 문서(2026.02.05 기준) 및 제3자 비교 리포트(2026.02.09)를 바탕으로 작성되었으며, 이후 업데이트에 따라 달라질 수 있습니다. GPT-5.3-Codex 기준 (2026.02.05 출시 / Codex 앱 2026.03.04 Windows 업데이트).











댓글 남기기