GPT-5.3-Codex, Plus로 막히는 조건 3가지

Published on

in

GPT-5.3-Codex, Plus로 막히는 조건 3가지

2026.02.05 출시 기준
GPT-5.3-Codex

GPT-5.3-Codex, Plus로 막히는 조건 3가지

2026년 2월 5일 공개된 GPT-5.3-Codex는 OpenAI가 “지금껏 나온 코딩 에이전트 중 가장 뛰어나다”고 표현한 모델입니다. Terminal-Bench 2.0에서 77.3%, OSWorld-Verified에서 64.7%를 기록하며 인간(약 72%) 수준에 근접했죠. 그런데 공식 문서를 보면 막상 써보기 전에 알아야 할 조건이 3가지 있습니다. 모두 Plus 가입자에게 직접 영향을 줍니다.

77.3%
Terminal-Bench 2.0
64.7%
OSWorld-Verified
25%
기존 대비 속도 향상

GPT-5.3-Codex가 뭐가 달라졌는가

결론부터 말씀드리면, GPT-5.3-Codex는 단순히 코드를 잘 쓰는 모델이 아닙니다. OpenAI가 직접 이 모델로 자기 자신의 학습과 배포를 관리했을 정도입니다. 공식 발표문에는 “Codex 팀이 이 모델의 조기 버전을 사용해 학습 과정을 디버깅하고 테스트를 진단했다”고 나와 있습니다. (출처: OpenAI 공식 블로그, 2026.02.05)

벤치마크 수치만 보면 전작(GPT-5.2-Codex)과 큰 차이가 없어 보입니다. SWE-Bench Pro는 56.4%에서 56.8%로 0.4%p 상승에 그쳤습니다. 그런데 Terminal-Bench 2.0은 64.0%에서 77.3%로 13.3%p, OSWorld-Verified는 38.2%에서 64.7%로 무려 26.5%p 뛰었습니다. 코드 생성만 잘하는 게 아니라 컴퓨터를 직접 조작하는 능력이 비약적으로 올라간 겁니다.

SWE-Bench Pro는 Python만 테스트하던 기존 SWE-Bench Verified와 달리 4개 언어를 다루고, 오염 저항성도 더 높은 평가 방식입니다. 그러면서도 GPT-5.3-Codex는 이전 모델보다 더 적은 토큰으로 같은 작업을 해냅니다. 같은 비용으로 더 많이 할 수 있다는 뜻입니다.

💡 OSWorld-Verified에서 인간 평균은 약 72%입니다. GPT-5.3-Codex는 64.7%로, 이 벤치마크 기준으로는 아직 인간 수준에 못 미칩니다. (출처: OpenAI 공식 발표문, 2026.02.05)

▲ 목차로 돌아가기

Plus에서 막히는 첫 번째 조건 — 클라우드 태스크

Codex에는 두 가지 실행 방식이 있습니다. 하나는 내 컴퓨터에서 직접 돌아가는 로컬 태스크, 다른 하나는 OpenAI 서버의 격리된 샌드박스에서 실행되는 클라우드 태스크입니다. 클라우드 태스크는 내가 딴 일 하는 동안 Codex가 알아서 작업하고 결과물을 준비해 두는 방식입니다.

공식 개발자 문서를 보면 클라우드 태스크와 코드 리뷰(GitHub PR 자동 리뷰) 항목에 Plus와 Business란에 “Not available”이라고 적혀 있습니다. (출처: developers.openai.com/codex/pricing, 2026.03.06 기준) 즉, 월 $20짜리 Plus를 쓰면 Codex를 로컬에서만 사용할 수 있고, GitHub PR 자동 리뷰도 쓸 수 없습니다.

Codex 앱의 핵심 기능이 클라우드 기반 병렬 에이전트 실행인데, Plus에서는 이게 막혀 있습니다. 앱 자체는 실행되지만 클라우드로 위임하는 기능은 Pro부터 가능합니다.

기능 Plus ($20) Pro ($200)
로컬 태스크 (5h 기준) 33~168개 223~1,120개
클라우드 태스크 (5h 기준) 사용 불가 별도 제공
GitHub 코드 리뷰 (주간) 사용 불가 Plus 대비 10배
GPT-5.3-Codex-Spark (리서치 프리뷰) 사용 불가

(출처: developers.openai.com/codex/pricing, 2026.03.06 기준)

▲ 목차로 돌아가기

두 번째 조건 — GPT-4o는 Codex에서 아예 없습니다

ChatGPT에서 GPT-4o를 쓰던 방식으로 Codex를 쓸 수 있다고 생각하면 막힙니다. OpenAI Help Center에 이렇게 나와 있습니다. “GPT-4o is not available in Codex. Codex currently supports the GPT-5.1-Codex model family.” (출처: OpenAI Help Center, 2026.03 기준) 단순히 지원이 줄어든 게 아니라 완전히 제거된 겁니다.

더 주목할 부분이 있습니다. 같은 문서에서 “Retired or removed models, including GPT-4o, cannot be restored or purchased as a legacy tier”라고 명시합니다. 과거 GPT-4o로 Codex CLI를 써온 사람이라면 업그레이드 후 기존 설정이 그대로 작동하지 않을 수 있습니다.

또한 Codex에서 사용 가능한 모델과 ChatGPT 웹 인터페이스에서 사용 가능한 모델은 서로 별개의 시스템으로 운영됩니다. ChatGPT에서 어떤 모델에 접근 가능하든, Codex에서 쓸 수 있는 모델은 따로 결정됩니다. API Key 접근 방식에서는 신모델 접근이 일정 기간 지연(delayed access)된다는 점도 공식 가격표에 명시돼 있습니다.

💡 공식 문서에서 Codex의 기본 모델은 GPT-5.1-Codex-Max이고, 선택적으로 Mini를 쓸 수 있다고 명시합니다. GPT-5.3-Codex는 CLI나 IDE 확장에서 버전 및 설정에 따라 기본 또는 선택 모델로 제공됩니다. (출처: OpenAI Help Center)

▲ 목차로 돌아가기

세 번째 조건 — Pro가 6배인데 가격은 10배인 이유

공식 가격표에 따르면 Pro의 로컬 태스크 한도는 Plus의 6배입니다. 그런데 가격은 $20에서 $200으로 10배입니다. 이 비율이 맞지 않는다는 지적이 Reddit에서도 나왔습니다. 실제 사용자 댓글에는 “Pro는 Plus보다 실제로 약 8배 쓸 수 있다는 경험담도 있지만, 6배 vs 10배 가격은 불균형”이라는 반응이 있습니다. (출처: r/OpenAI, 2026.02.06)

이 불균형을 메우는 것이 크레딧 구매입니다. Plus와 Pro 모두 한도 소진 후 크레딧을 구매해 계속 사용할 수 있습니다. 공식 한도표에 따르면 GPT-5.3-Codex 로컬 태스크 1건당 평균 약 5 크레딧, 클라우드 태스크는 1건당 평균 약 25 크레딧이 소모됩니다. 크레딧은 구매 후 12개월 유효합니다. (출처: OpenAI Help Center, 2026.03 기준)

결론적으로 라이트 사용자라면 Plus + 필요시 크레딧 구매가 Pro보다 경제적일 수 있습니다. 반면 매일 대형 코드베이스를 다루고 클라우드 병렬 실행이 필요한 상황이라면 Pro 전환이 실질적입니다. Pro에는 우선 처리(priority request processing)와 더 큰 VM도 포함됩니다.

💡 공식 발표문과 실제 요금 체계를 같이 놓고 보니 이런 차이가 보였습니다 — Plus를 써보다가 한도 초과 직후 Pro로 업그레이드하면 쿼터가 리셋되는 게 아니라 추가됩니다. 반대로 Free에서 업그레이드하면 쿼터가 리셋됩니다. (출처: r/OpenAI, 2026.02.06)

▲ 목차로 돌아가기

5시간 리셋 구조, 생각보다 까다롭습니다

Codex의 한도는 24시간 또는 1주일 기준이 아닙니다. 공식 문서에는 “5시간 윈도우”라고 명시합니다. 첫 메시지를 보낸 시점부터 5시간이 흐르면 한도가 리셋됩니다. 5시간 동안 메시지를 아예 안 보내면 그 시간이 카운트되지 않다가, 다음에 메시지를 보내는 순간 새로운 5시간이 시작됩니다. (출처: developers.openai.com/codex/pricing)

문제는 Plus 기준으로 5시간에 33~168개라는 범위 자체가 너무 넓다는 점입니다. 간단한 스크립트 수정은 1건에 1개 메시지를 쓸 수 있지만, 대형 코드베이스를 다루거나 MCP 서버를 여러 개 연결하면 1건이 수십 개 메시지를 소모합니다. 공식 문서도 “컨텍스트가 클수록 메시지 1건당 사용량이 크게 늘어난다”고 직접 경고합니다. 33~168개 범위의 하단(33개)에 걸릴 가능성은 MCP나 대규모 AGENTS.md 사용 시 현실적입니다.

5시간 한도 외에 주간 한도도 별도로 존재합니다. 두 한도 중 먼저 소진되는 쪽에서 막힙니다. 현재 남은 한도는 Codex CLI에서 /status 명령어로 확인할 수 있고, chatgpt.com/codex/settings/usage에서도 볼 수 있습니다.

▲ 목차로 돌아가기

Plus에서 한도를 늘리는 공식 방법 4가지

OpenAI 공식 문서가 직접 제안하는 방법이라 신뢰할 수 있습니다. 첫 번째는 프롬프트를 간결하게 유지하는 것입니다. 불필요한 컨텍스트를 제거할수록 메시지 1건당 소모 크레딧이 줄어듭니다. 두 번째는 AGENTS.md 파일 최적화입니다. 큰 프로젝트라면 AGENTS.md를 저장소 내 하위 디렉터리로 분산해 한 번에 로드되는 컨텍스트를 줄일 수 있습니다.

세 번째는 MCP 서버 수를 줄이는 것입니다. MCP 서버 하나를 추가할 때마다 메시지에 컨텍스트가 붙어 한도가 빨리 소모됩니다. 쓰지 않는 MCP는 비활성화 상태로 두는 것이 좋습니다. 네 번째는 GPT-5.4-mini로 전환입니다. 공식 문서는 mini 모델로 전환하면 로컬 메시지 한도가 2.5배~3.3배 늘어난다고 명시합니다. GPT-5.3-Codex의 성능이 필요한 작업과 mini로 충분한 작업을 구분해서 쓰는 전략이 실용적입니다.

한도를 다 쓴 뒤에도 API Key를 별도로 연결하면 표준 API 요금으로 추가 로컬 태스크를 실행할 수 있습니다. 단, API Key 방식에서는 신모델 접근이 지연되고 클라우드 기반 기능은 사용할 수 없습니다.

▲ 목차로 돌아가기

Claude Code와의 실질적 차이

SWE-Bench 계열 수치를 보면 GPT-5.3-Codex와 Claude Opus 4.6의 코딩 성능은 실제로 비슷한 수준입니다. emergent.sh 비교 분석에서는 “두 모델 모두 SWE-bench에서 약 80% 수준을 기록하며, 실제 격차는 모델 자체보다 주변 에이전트 구조에서 난다”고 정리합니다. (출처: emergent.sh, 2026.03 기준)

실사용 측면에서 GPT-5.3-Codex는 IDE·웹·앱·CLI·iOS까지 멀티 플랫폼을 지원하고, GitHub 자동 리뷰와 Slack 연동 같은 생태계 통합이 강점입니다. Claude Code는 터미널 전용으로 인터페이스가 제한되지만 컨텍스트 유지력과 대형 코드베이스 분석에서 좋은 평가를 받습니다. Reddit에서는 “Claude Code가 현재 가장 강력한 에이전트 경험”이라는 반응과 “하지만 터미널 전용은 UI 중심 워크플로에서 진입장벽”이라는 반응이 함께 나옵니다. (출처: r/ClaudeCode, 2026.03)

이 부분이 보통 비교글에서 잘 안 나오는 지점입니다 — GPT-5.3-Codex의 앱 환경(병렬 에이전트, built-in worktree 지원, git 기능 내장)은 Plus에서 클라우드 태스크가 막혀 있어 완전히 활용할 수 없습니다. 앱 자체가 클라우드 기반 병렬 실행을 위해 설계됐기 때문입니다. Plus는 CLI와 IDE 확장을 통한 로컬 실행이 현실적인 사용 경로입니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

GPT-5.3-Codex는 무료로 쓸 수 있나요?
현재 기간 한정으로 ChatGPT Free와 Go 플랜에서도 Codex를 무료로 쓸 수 있습니다. 다만 이 조건은 공식 문서에서도 “For a limited time”이라고 명시된 프로모션이며, 한도와 기능은 유료 플랜보다 제한됩니다. 언제까지 무료로 유지될지 별도 일정은 공개되지 않았습니다. (출처: OpenAI Help Center, 2026.03)
GPT-5.3-Codex와 GPT-5.4의 차이가 뭔가요?
공식 가격표를 보면 GPT-5.4도 Codex 내에서 사용 가능한 모델로 등재돼 있습니다. 로컬 태스크 1건당 평균 크레딧 소모가 GPT-5.3-Codex는 약 5크레딧, GPT-5.4는 약 7크레딧으로 GPT-5.4가 40% 더 비쌉니다. 클라우드 태스크는 각각 약 25크레딧, 약 34크레딧입니다. 성능 차이는 아직 독립적인 공식 벤치마크로 발표되지 않았습니다. (출처: developers.openai.com/codex/pricing)
크레딧을 사면 언제까지 쓸 수 있나요?
구매 후 12개월 유효합니다. Reddit 사용자 ImSingee의 답글에서 확인됩니다. 공식 문서는 만료 일정을 직접 명시하지 않았고, OpenAI 측의 공식 답변도 아직 나오지 않은 부분입니다. 실사용 기준으로 2025년 11월에 구매한 크레딧이 2026년 3월 기준 여전히 유효하다는 후기도 있습니다. (출처: r/OpenAI, 2026.02)
API Key로 접근하면 GPT-5.3-Codex 바로 쓸 수 있나요?
공식 가격표에 API Key 방식은 “Delayed access to new models like GPT-5.3-Codex”라고 명시합니다. 바로 사용할 수 없고 일정 기간 후 접근 가능해집니다. 또한 API Key 방식에서는 GitHub 코드 리뷰, Slack 연동 등 클라우드 기반 기능을 전혀 사용할 수 없습니다. 반면 토큰 사용량만큼만 비용을 내는 방식이라 자동화 파이프라인(CI 환경)에는 적합합니다. (출처: developers.openai.com/codex/pricing)
내 Codex 사용 내역이 OpenAI 학습에 쓰이나요?
Plus와 Pro 플랜에서는 대화가 모델 학습에 사용될 수 있습니다. ChatGPT 설정 → 데이터 컨트롤에서 학습 공유를 끌 수 있습니다. Business, Enterprise, Edu에서는 기본값으로 학습에 사용하지 않습니다. 이미 API Key를 통해 Codex CLI를 쓰다가 구독 방식으로 전환하는 경우, `codex logout` 후 재로그인이 필요합니다. (출처: OpenAI Help Center)

▲ 목차로 돌아가기

마치며

GPT-5.3-Codex는 벤치마크 수치만 보면 분명히 인상적입니다. Terminal-Bench 2.0의 13.3%p 도약과 OSWorld에서의 64.7%는 코드 에이전트가 컴퓨터 조작 영역으로 확장되고 있다는 신호입니다.

그런데 Plus $20로 가입해 앱을 열면 클라우드 태스크가 막혀 있고, GPT-4o는 사라졌으며, 5시간 리셋 구조는 대형 프로젝트에서 생각보다 빨리 소모됩니다. 이 세 가지를 미리 알고 쓰면 기대와 실제 경험의 차이를 줄일 수 있습니다.

개인적으로는 매일 대형 코드베이스를 다루지 않는다면 Plus + 필요 시 크레딧 추가 구매가 합리적입니다. 클라우드 병렬 실행이 핵심이거나 GitHub PR 자동 리뷰를 팀 단위로 써야 한다면 Pro 전환이 맞습니다. 어떤 플랜을 선택하든 CLI의 /status 명령어로 남은 한도를 수시로 확인하는 습관이 도움이 됩니다.

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — GPT-5.3-Codex 소개 (openai.com/ko-KR/index/introducing-gpt-5-3-codex/)
  2. OpenAI Developers — Codex 공식 요금표 (developers.openai.com/codex/pricing/)
  3. OpenAI Help Center — ChatGPT 플랜으로 Codex 사용하기 (help.openai.com/en/articles/11369540)
  4. OpenAI Help Center — Codex 평균 크레딧 요금표 (help.openai.com/en/articles/20001106)
  5. emergent.sh — Claude Code vs Codex 비교 분석 (emergent.sh/learn/claude-code-vs-codex)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Codex 요금제·한도·지원 모델 등은 OpenAI의 업데이트에 따라 달라질 수 있으므로 최신 내용은 공식 문서에서 직접 확인하시기 바랍니다. 본 포스팅은 2026년 3월 22일 기준으로 작성됐습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기