GPT-5.3-Codex 기준
OpenAI 공식 발표 기반
GPT-5.3-Codex,
빠를수록 감독이 더 필요합니다
Terminal-Bench 2.0에서 77.3%를 기록하며 코딩 에이전트 최정상에 올랐지만, 실사용에서 나오는 이야기는 조금 다릅니다. 공식 수치와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
GPT-5.3-Codex가 뭔지 30초 정리
GPT-5.3-Codex는 OpenAI가 2026년 2월 5일 공개한 에이전트형 코딩 특화 모델입니다. 단순히 코드를 완성해 주는 보조 도구가 아니라, 터미널을 직접 조작하고 버그를 잡고 PR까지 올리는 것을 혼자서 수행하도록 설계됐습니다. (출처: OpenAI 공식 발표, 2026.02.05)
같은 날 Anthropic도 Claude Opus 4.6을 내놓았는데, 두 회사가 하루 만에 동시에 에이전트 특화 모델을 발표한 건 이례적인 일이었습니다. OpenAI 측은 이 모델이 GPT-5.2-Codex 대비 처리 속도가 25% 빨라졌다고 밝혔습니다. (출처: OpenAI 공식 발표, 2026.02.05)
Codex 앱(macOS), CLI, IDE 확장, API를 통해 접근할 수 있고, ChatGPT Plus 이상 유료 구독자라면 당장 써볼 수 있습니다. 다만 API 가격은 별도 공지 없이 롤아웃 중이라 개발자라면 접근 방식을 달리 봐야 합니다.
벤치마크 숫자, 뭘 믿어야 할까요
공식 발표에 나온 수치를 먼저 보면 이렇습니다. SWE-Bench Pro(Public)에서 GPT-5.3-Codex는 56.8%를 기록했고, 전작 GPT-5.2-Codex는 56.4%였습니다. 0.4%p 차이입니다. 솔직히 말하면 이 숫자만 봐서는 “거의 같다”는 느낌밖에 안 옵니다. (출처: OpenAI 공식 발표, 2026.02.05)
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
Terminal-Bench 2.0 결과는 전혀 다른 그림입니다. GPT-5.3-Codex는 77.3%, GPT-5.2-Codex는 64.0% — 13.3%p 격차입니다. SWE-Bench Pro에서의 0.4%p와 Terminal-Bench의 13.3%p, 이 두 수치가 가리키는 방향이 다릅니다.
| 벤치마크 | GPT-5.3-Codex | GPT-5.2-Codex | GPT-5.2 |
|---|---|---|---|
| SWE-Bench Pro | 56.8% | 56.4% | 55.6% |
| Terminal-Bench 2.0 | 77.3% | 64.0% | 62.2% |
| OSWorld-Verified | 64.7% | 38.2% | 37.9% |
| SWE-lancer IC Diamond | 81.4% | 76.0% | 74.6% |
| Cybersecurity CTF | 77.6% | 67.4% | 67.7% |
(출처: OpenAI 공식 발표, 2026.02.05 / xhigh 설정 기준)
SWE-Bench Pro는 GitHub 이슈를 풀어내는 정적인 코드 수정 능력을 보고, Terminal-Bench 2.0은 실제 터미널을 열어 파일 시스템을 누비고 명령을 실행하는 능력을 봅니다. 후자에서 13.3%p 뛰었다는 건 “에이전트로서의 실행 능력”이 크게 달라졌다는 뜻입니다.
스스로를 디버깅한 첫 번째 모델
OpenAI 공식 발표문에는 이런 문장이 있습니다. GPT-5.3-Codex는 “자기 자신의 훈련 프로세스를 디버깅하는 데 실질적으로 기여한 최초의 모델”이라고 직접 밝혔습니다. 단순히 마케팅 수사가 아니라, Codex를 사용해 자체 배포와 학습 파이프라인을 관리했다는 뜻입니다. (출처: OpenAI 공식 발표, 2026.02.05)
💡 이 부분은 보도자료에서 자주 빠집니다
AI가 코드를 짜준다는 건 이미 익숙한 얘기지만, AI 자신의 학습 시스템을 그 AI가 관리했다는 건 다른 차원의 이야기입니다. 이는 코딩 모델이 “도구”에서 “인프라 참여자”로 역할이 바뀌기 시작했다는 신호입니다.
GDPval 벤치마크에서 나온 수치도 흥미롭습니다. GPT-5.3-Codex는 70.9%(wins or ties)를 기록했는데, 이 벤치마크는 OpenAI가 2025년 내부에서 만든 것으로 44개 이상의 실제 프로덕션 수준 작업을 평가합니다. 단순 코드 스니펫이 아니라, 실제 제품을 만드는 과정에 가까운 테스트입니다. (출처: OpenAI 공식 발표, 2026.02.05)
NVIDIA GB200 NVL72 인프라 위에서 돌아가며, 이 하드웨어 환경이 처리 속도 25% 개선의 핵심 배경입니다. OpenAI가 별도 이유를 밝히진 않았지만, 추론 스택 최적화와 인프라 개선이 병행된 결과로 봅니다. (출처: OpenAI 공식 발표, 2026.02.05)
Claude Opus 4.6과 직접 비교했습니다
벤치마크 숫자만 보면 GPT-5.3-Codex가 코딩에서 우세합니다. Terminal-Bench 2.0에서 GPT-5.3-Codex는 77.3%, Claude Opus 4.6은 65.4%입니다. 그런데 OSWorld-Verified에서는 순서가 뒤집힙니다. GPT-5.3-Codex가 64.7%, Opus 4.6은 72.7%입니다. (출처: OpenAI 공식 발표 / Anthropic 공식 발표, 2026.02.05)
| 벤치마크 | GPT-5.3-Codex | Claude Opus 4.6 | 우세 |
|---|---|---|---|
| Terminal-Bench 2.0 | 77.3% | 65.4% | Codex |
| SWE-Bench Verified | 80.0% | 81.42% | Opus 4.6 |
| OSWorld-Verified | 64.7% | 72.7% | Opus 4.6 |
| API 입력 가격 (1M 토큰) | 공개 롤아웃 중 | $5.00 | — |
(출처: OpenAI·Anthropic 공식 발표 / eesel.ai 비교 분석, 2026.02.05~17)
터미널 명령 실행과 파일 시스템 탐색은 Codex가 확실히 빠르고 강합니다. 그런데 GUI를 포함한 컴퓨터 조작(OSWorld)으로 범위가 넓어지면 Opus 4.6이 앞섭니다. 코드만 잘 쓰는 것과, 실제 컴퓨터 환경 전체를 다루는 것은 다른 능력입니다.
속도가 올라가자 생긴 새로운 문제
막상 쓰다 보면 생각보다 더 많이 지켜봐야 합니다. Reddit 커뮤니티와 전문 리뷰어들이 공통적으로 짚는 부분이 이것입니다. “Codex는 범위를 명확하게 줘야 한다. 그렇지 않으면 파일을 건너뛰거나 엉뚱한 위치에 코드를 넣는다.” (출처: Interconnects.ai, Nathan Lambert, 2026.02.09)
💡 25% 빨라진 모델이 오히려 더 자주 확인해야 하는 이유
속도가 올라가면 잘못된 방향으로 더 빨리 달려갈 수도 있습니다. Claude가 맥락을 이해하고 조심스럽게 확인하면서 진행하는 방식을 선택한 것과 달리, GPT-5.3-Codex는 즉각 실행을 우선시합니다. 벤치마크에서는 이게 강점으로 나타나지만, 실제 프로젝트에서는 감독 비용이 늘어납니다.
4일 실사용 후기(Reddit r/codex, 2026.02.09)에서 지적된 내용을 정리하면 이렇습니다. 너무 적극적으로 행동하려는 경향이 있고, 시스템 프롬프트가 행동에 예상보다 강하게 영향을 미칩니다. GPT-5.2-high만큼 깊이 파고들지 못한다는 평도 있습니다. 단일 문제를 집중해서 풀게 하면 뛰어나지만, 복잡하게 얽힌 맥락에서 여러 지시를 동시에 받으면 지시 일부를 무시하는 사례가 보고됩니다.
코딩 에이전트를 “자율주행”처럼 쓰려면 아직 갈 길이 있습니다. 지금 단계에서는 명확한 범위를 정해주고, 중간중간 결과물을 확인하는 “감독형 협업” 방식이 더 안전합니다.
요금제별 접근 방법 정리
GPT-5.3-Codex에 접근하는 경로는 크게 세 가지입니다. ChatGPT 유료 구독(Plus $20/월, Pro $200/월), Codex CLI, IDE 확장 플러그인입니다. ChatGPT Plus 이상이면 Codex 앱에서 바로 GPT-5.3을 선택해 쓸 수 있습니다. (출처: OpenAI 공식 발표, 2026.02.05)
| 접근 경로 | 요금 | 제한 사항 |
|---|---|---|
| ChatGPT Plus | $20/월 | 사용량 상한 있음 |
| ChatGPT Pro | $200/월 | 더 높은 사용량 한도 |
| API (개발자) | 토큰 기반 (롤아웃 중) | 가격 아직 미공개 |
| Codex CLI | ChatGPT 계정 연동 | 터미널 환경 필요 |
(출처: OpenAI 공식 발표·가격 페이지, 2026.02~03)
한 가지 짚어둘 게 있습니다. OpenAI API 컨테이너 가격 구조가 2026년 3월 31일부터 바뀌었습니다. 기존에는 컨테이너 단위로 과금했지만, 이제는 20분당 세션 단위로 전환됐습니다. 1GB 기준 $0.03/세션입니다. API로 Codex를 쓰는 개발자라면 이 요금 구조 변경을 반드시 확인해야 합니다. (출처: OpenAI API 가격 페이지, 2026.03.31)
Claude Opus 4.6의 API 가격($5/1M 입력 토큰, $25/1M 출력 토큰)과 직접 비교는 어렵습니다. Codex의 API 가격이 아직 전면 공개되지 않았기 때문입니다. 가격 비교 후 선택하려면 정식 공개 이후로 판단을 미루는 게 낫습니다.
자주 나오는 질문 5가지
Q1. GPT-5.3-Codex는 무료로 쓸 수 있나요?
ChatGPT Plus 이상 유료 구독자에게 제공됩니다. 무료 플랜에서는 접근이 되지 않습니다. API는 현재 가격 공개 전 롤아웃 중으로, 별도 신청이 필요할 수 있습니다. (출처: OpenAI 공식 발표, 2026.02.05)
Q2. SWE-Bench Pro와 SWE-Bench Verified는 뭐가 다른가요?
SWE-Bench Verified는 GitHub에서 이미 해결된 이슈를 풀게 하는 표준 테스트입니다. SWE-Bench Pro는 Python에 편중된 기존 테스트의 한계를 보완한 업그레이드 버전으로, 더 다양한 언어와 더 복잡한 이슈를 다룹니다. GPT-5.3-Codex는 Pro 버전에서 56.8%를 기록했습니다. (출처: OpenAI 공식 발표, 2026.02.05)
Q3. GPT-5.3-Codex와 GPT-5.4는 어떻게 다른가요?
GPT-5.4는 범용 언어 모델이고, GPT-5.3-Codex는 코딩 에이전트 특화 모델입니다. 용도가 다릅니다. 코딩 이외의 일반 대화나 문서 작업은 GPT-5.4 계열이 더 자연스럽고, 터미널 작업이나 코드베이스 탐색은 Codex가 앞섭니다. 실제 사용자들의 평가에서 GPT-5.4가 나온 뒤에도 코딩 특화 작업에서는 Codex를 선호하는 경향이 있습니다.
Q4. Codex CLI는 어떻게 설치하나요?
ChatGPT 계정으로 로그인 후 Codex CLI를 설치하면 됩니다. Plus·Pro 구독자는 30일간 각각 $5·$50의 무료 API 크레딧이 제공됩니다. 설치 방법은 OpenAI 공식 Codex 페이지(openai.com/codex)에 안내돼 있습니다. (출처: OpenAI Codex 소개 페이지, 2025.05.16)
Q5. 한국어로 Codex를 쓰면 성능이 달라지나요?
코드 자체는 언어에 관계없이 동일하게 처리됩니다. 다만 주석이나 변수명 설명 등 자연어가 섞인 맥락에서는 영어로 프롬프트를 주는 것이 더 정확한 결과를 내는 경향이 있습니다. 아직 한국어 특화 벤치마크 결과는 공개되지 않았습니다.
마치며 — 총평
GPT-5.3-Codex는 터미널 작업과 에이전트형 코딩 실행 능력에서 확실한 강점을 가진 모델입니다. Terminal-Bench 2.0의 77.3%는 단순한 숫자가 아니라, “파일을 열고 명령을 치고 결과를 확인하는 사이클”을 자동화하는 능력이 실질적으로 달라졌다는 의미입니다.
그런데 빠른 만큼 조심해야 할 지점도 있습니다. 범위를 명확히 주지 않으면 엉뚱한 방향으로 빠르게 달립니다. “자율주행 모드”를 기대하고 켰다가 코드를 뜯어고치는 일이 생길 수 있습니다. 이 부분이 제가 이 모델을 쓸 때 가장 주의하게 되는 지점입니다.
자신의 학습 프로세스를 직접 디버깅한 첫 번째 모델이라는 사실은, 코딩 AI의 다음 단계가 어디인지를 가리키고 있습니다. 지금 당장 모든 작업을 맡길 수준은 아니지만, 방향은 분명합니다. 잘 훈련된 에이전트에게 명확한 과제를 주는 방식에 익숙해질수록, 이 모델을 제대로 쓸 수 있게 됩니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — GPT-5.3-Codex 소개 (openai.com/ko-KR/index/introducing-gpt-5-3-codex/)
- OpenAI API 가격 페이지 (openai.com/ko-KR/api/pricing/)
- OpenAI Codex 소개 페이지 (openai.com/ko-KR/index/introducing-codex/)
- Interconnects.ai — Opus 4.6 vs Codex 5.3 실사용 분석 (Nathan Lambert, 2026.02.09) (interconnects.ai)
- eesel.ai — GPT-5.3-Codex vs Claude Opus 4.6 비교 분석 (eesel.ai)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI Codex의 API 가격은 롤아웃 중으로, 최신 가격은 OpenAI 공식 가격 페이지에서 확인하세요. 본 포스팅은 정보 제공 목적으로 작성됐으며, 투자·구매 판단의 근거로 사용하기 전 공식 채널에서 최신 정보를 반드시 확인하시기 바랍니다.

댓글 남기기