2026.02.05 출시 기준
GPT-5.3-Codex

GPT-5.3-Codex, Terminal-Bench 1위인데 왜 쓰다 보면 다를까요?

2026년 2월 5일(현지 시각), OpenAI가 공식 출시한 GPT-5.3-Codex는 코딩 에이전트 벤치마크에서 충격적인 수치를 냈습니다. Terminal-Bench 2.0에서 77.3%, OSWorld-Verified에서 64.7%로 이전 세대 모델보다 각각 13.3%p, 26.5%p 뛰었죠. 그런데 막상 써보면 “공식 수치랑 다르다”는 개발자들이 많습니다. 왜 그런지 공식 문서와 실사용 데이터를 직접 대조해봤습니다.

77.3%

Terminal-Bench 2.0

64.7%

OSWorld-Verified

25%↑

이전 세대 대비 속도

GPT-5.3-Codex가 뭔지 먼저 정리합니다

기반 구조도 달라졌습니다. Responses API 기반의 SSE(Server-Sent Events) 스트리밍 방식으로 중간 과정을 실시간 노출하고, 사용자는 실행 도중 말을 끊어 방향을 바꿀 수 있습니다. OpenAI가 “함께 일하는 동료”라는 마케팅 메시지를 강하게 미는 이유가 여기 있습니다. Codex App Server를 통해 VS Code, JetBrains, Xcode 같은 IDE에 직접 통합할 수 있고, CLI 형태로도 로컬에서 쓸 수 있습니다.

한 가지 알아두면 좋은 게 있는데, GPT-5.3-Codex는 이미 GPT-5.4가 2026년 3월 6일에 출시된 지금 시점에서 “바로 이전 세대 코딩 전문 모델”입니다. 나무위키 GPT-5 문서에 따르면 ChatGPT 내에서 Instant 기능은 여전히 5.3 기반으로 작동합니다. 5.4와 5.3-Codex를 구분해서 이해하는 게 중요합니다.

▲ 목차로 돌아가기

공식 수치로 확인하는 성능 차이

공식 발표에서 직접 확인한 벤치마크 수치를 아래 표에 정리했습니다. 모두 xhigh 추론 설정 기준이고, OpenAI 공식 발표 자료(2026.02.05)에서 인용했습니다.

벤치마크	GPT-5.3-Codex	GPT-5.2-Codex	GPT-5.2
SWE-Bench Pro (Public)	56.8%	56.4%	55.6%
Terminal-Bench 2.0	77.3%	64.0%	62.2%
OSWorld-Verified	64.7%	38.2%	37.9%
SWE-lancer IC Diamond	81.4%	76.0%	74.6%
Cybersecurity CTF	77.6%	67.4%	67.7%

출처: OpenAI 공식 발표 자료 (2026.02.05), xhigh 추론 설정 기준

수치만 보면 Terminal-Bench 2.0의 격차가 가장 두드러집니다. GPT-5.2-Codex 64.0%에서 5.3에서 77.3%로, 13.3%p 뛰었습니다. 터미널 작업 자동화에서 진짜 도약이 있었다는 뜻입니다. 반면 SWE-Bench Pro는 56.4% → 56.8%로 0.4%p 개선에 그쳤습니다. 일반 코드 작성 과제에서는 이전 세대와 거의 차이가 없습니다.

💡 공식 수치를 나란히 놓고 보면 이런 구도가 나옵니다

SWE-Bench Pro는 세 모델이 거의 같고, Terminal-Bench와 OSWorld에서만 5.3이 크게 앞섭니다. 즉 GPT-5.3-Codex의 진짜 강점은 “코드를 쓰는 것”이 아니라 “터미널을 다루는 것”입니다.

OSWorld-Verified 수치는 더 극적입니다. 이전 세대 38.2%에서 64.7%로, 거의 1.7배입니다. 이 벤치마크는 AI가 실제 컴퓨터 화면을 보고 작업을 수행하는 능력을 측정합니다. GUI 자동화 영역에서 이전 세대가 얼마나 한계가 있었는지를 역으로 보여주는 수치입니다.

▲ 목차로 돌아가기

벤치마크 1위인데 체감이 다른 이유

Terminal-Bench에서 77.3%로 Claude Opus 4.6(65.4%)을 12%p 앞서는데, 정작 실제 개발자 커뮤니티 반응은 엇갈립니다. 이건 단순히 취향 차이가 아닙니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

OpenAI는 “함께 일하는 동료”라고 설명하지만, 실제 개발자들의 반응은 “혼자 멀리 갔다가 제멋대로 결론을 들고 온다”는 쪽이 많습니다. 마케팅 언어와 체감이 어긋나는 지점이 여기입니다.

첫 번째 이유는 벤치마크 자체의 구조적 문제입니다. 개발자 커뮤니티에서는 “Terminal-Bench 같은 점수는 평가 파라미터 설정과 특화 튜닝에 따라 크게 달라질 수 있어 재현이 어렵다”는 지적이 꾸준히 나옵니다. 실제로 Claude와 OpenAI는 각각 다른 벤치마크 하위 집합에 점수를 매겨서, 직접 비교가 어려운 구조입니다. (출처: HackerNoon, Claude Opus 4.6 vs GPT-5.3-Codex 분석, 2026.02.26)

두 번째는 “너무 자율적으로 행동한다”는 실사용 문제입니다. Reddit r/codex 커뮤니티(2026.02.09)에서 실사용자가 남긴 4일 사용 후기에서 단점으로 명시된 내용입니다. 시스템 프롬프트가 예상한 방향대로 작동하지 않아 에이전트가 계획 없이 과도하게 행동한다는 것입니다. 큰 작업을 맡겼다가 원하지 않는 방향으로 코드가 대거 수정되는 경험이 여기서 나옵니다.

세 번째는 컨텍스트 윈도우 한계입니다. GPT-5.3-Codex의 컨텍스트 윈도우는 약 200,000토큰입니다. 반면 Claude Opus 4.6은 1,000,000토큰 컨텍스트를 지원합니다. (출처: Morph LLM 벤치마크, 2026.03.17) 대규모 코드베이스를 다룰 때 5배 차이가 나는 것입니다. 단일 파일이나 소규모 프로젝트에서는 문제없지만, 레거시 코드 리팩터링이나 대형 모노레포를 다룰 때 이 차이가 뚜렷하게 나타납니다.

⚠️ 이 조건이라면 주의가 필요합니다

코드베이스 규모가 커서 전체 파일을 한 번에 넣어야 할 때
중간 검토 없이 에이전트에게 긴 작업을 한 번에 맡길 때
비즈니스 규칙·보안 로직·결제 코드처럼 실수 비용이 클 때

▲ 목차로 돌아가기

요금 구조, 생각보다 단순하지 않습니다

ChatGPT Plus($20/월)와 Pro($200/월) 구독자는 Codex 앱 사용이 별도 추가 비용 없이 포함됩니다. API로 직접 호출할 경우 입력 $1.75/100만 토큰, 출력 $14/100만 토큰이 부과됩니다. (출처: OpenAI API 공식 요금 페이지, developers.openai.com)

여기서 놓치기 쉬운 포인트가 있습니다. xhigh 추론 설정으로 쓸 경우 토큰 소비량이 일반 사용 대비 몇 배 이상 뛰어오릅니다. 공식 벤치마크 수치는 모두 xhigh 설정 기준인데, 이 설정으로 API를 호출하면 비용이 급격히 증가합니다. 실제 개발자 토론에서 “같은 Terminal-Bench 점수를 xhigh 설정으로 재현하면 Codex가 Claude보다 훨씬 비싸게 나온다”는 지적이 나온 것도 이 때문입니다. (출처: tilnote.io, GPT-5.3-Codex vs Claude Opus 4.6 비교 분석, 2026.02.06)

구독 기준으로 보면 이야기가 달라집니다. 실제로 “$20 플랜으로 xhigh 작업을 꽤 많이 할 수 있는 반면, Claude Pro는 5시간 제한 때문에 큰 기능 하나 만들면 바로 막힌다”는 반응이 있습니다. 구독자 입장에서는 Codex가 가성비가 좋을 수 있고, API 직접 사용 기준으로는 추론 강도에 따라 비용이 크게 달라질 수 있는 구조입니다.

무료 계정에서는 GPT-5.3-Codex를 쓸 수 없습니다

Reddit r/codex 커뮤니티에서 무료 계정 사용자들이 “Mac 앱에서 해당 모델이 안 보인다”고 보고했습니다. (2026.02.05) GPT-5.3-Codex는 유료 플랜(Plus 이상)에서만 접근 가능합니다. OpenAI가 공식 답변을 별도로 내놓지 않았지만, 현재까지 무료 계정에서 사용된 사례는 확인되지 않았습니다.

▲ 목차로 돌아가기

한 모델만 쓰는 게 오히려 손해인 이유

💡 여러 개발자의 실제 워크플로를 분석하니 공통된 패턴이 나왔습니다

GPT-5.3-Codex를 “구현 도구”가 아닌 “리뷰어”로 포지셔닝하는 방식이 실제 생산성 향상에 가장 효과적이라는 결론이었습니다.

실제 개발자 커뮤니티에서 검증된 패턴이 있습니다. Claude로 구현 → Codex로 리뷰 → Claude에게 리뷰 반영 구현. 또는 더 간단하게, Codex CLI를 감싼 codex-review 스킬을 만들어 코드 리뷰 전용으로 쓰는 방식입니다. (출처: tilnote.io, GPT-5.3-Codex vs Claude Opus 4.6 분석, 2026.02.06)

Codex는 이런 용도에 강합니다. 반복적인 빌드·테스트 자동화, CI/CD 파이프라인 점검, 작은 단위의 빠른 버그 수정, 신규 프로젝트 스캐폴딩. Claude 계열이나 대형 컨텍스트 모델이 더 잘 맞는 영역은 여전히 있습니다. 레거시 코드 전체를 한 번에 이해해야 하는 대규모 리팩터링, 비즈니스 로직과 도메인 규칙이 복잡하게 얽힌 구현 작업이 그쪽입니다.

보안 측면에서 생각해봐야 할 게 있습니다

OpenAI는 GPT-5.3-Codex를 자사 준비성 프레임워크에서 사이버보안 분야 첫 번째 “높은 역량(high capability)” 모델로 분류했습니다. (출처: OpenAI 시스템 카드, 2026.02.05) 이 말은 공격 시도 자동화 능력도 높아졌다는 뜻이기도 합니다. 실제 개발자 토론에서 나온 시각은 이쪽입니다. “AI가 생성한 코드 비중이 늘수록, 공격자 입장에서 취약한 코드가 대량으로 쏟아질 위험이 커진다.” AI 생성 코드에 대한 보안 검토를 별도로 하지 않으면 오히려 공격 표면이 넓어질 수 있다는 지적입니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. GPT-5.3-Codex와 GPT-5.4는 어떻게 다른가요?

Q2. 무료 계정으로도 GPT-5.3-Codex를 쓸 수 있나요?

쓸 수 없습니다. Codex 앱과 GPT-5.3-Codex 모델은 ChatGPT Plus($20/월) 이상 유료 플랜에서만 접근 가능합니다. 무료 계정에서는 모델 선택 목록에 표시되지 않는다는 실사용 보고가 있습니다. (Reddit r/codex, 2026.02.05)

Q3. Terminal-Bench 77.3%는 실제로 어떤 작업을 의미하나요?

Terminal-Bench 2.0은 AI가 터미널에서 실제 명령어를 실행하고, 오류를 처리하고, 연속적인 작업 흐름을 완성하는 능력을 측정합니다. 빌드 자동화, 테스트 실행, 패키지 설치와 설정 같은 반복적인 터미널 작업에서 77.3% 성공률을 냈다는 뜻입니다. 단 이 수치는 xhigh 추론 설정 기준이고, 실제 Claude Opus 4.6과의 직접 비교는 서로 다른 벤치마크 하위 집합 차이로 완전히 동일선상에서 비교하기 어렵습니다.

Q4. Codex CLI와 Codex 앱은 어떻게 다른가요?

Codex 앱은 ChatGPT 플랫폼에서 웹/데스크톱 UI로 접근하는 방식이고, Codex CLI는 로컬 터미널에서 직접 실행하는 명령줄 도구입니다. CLI는 오픈소스(GitHub)로 공개되어 있고, Rust로 작성된 핵심 엔진 위에 App Server가 올라가 VS Code, JetBrains, Xcode 등 IDE와 통합을 제공합니다. ChatGPT 구독자라면 앱이 더 편리하고, API 직접 연동이나 자동화 파이프라인 구축은 CLI가 더 유연합니다.

Q5. 코딩 초보에게도 Codex가 유용할까요?

솔직히 말하면 조심해서 쓰는 게 좋습니다. Codex는 에이전트가 스스로 여러 단계를 실행하도록 설계됐는데, 코드를 검토하고 이해할 능력이 없는 상태에서 자율 실행을 허용하면 코드가 원치 않는 방향으로 크게 바뀌는 상황이 발생할 수 있습니다. 초보라면 먼저 작은 단위의 작업만 맡기고, 매 단계마다 무슨 코드가 생성됐는지 확인하는 습관을 먼저 들이는 쪽을 추천합니다.

▲ 목차로 돌아가기

마치며

“벤치마크 1위 = 내 작업에도 최고”라는 등식은 성립하지 않습니다. 컨텍스트 윈도우가 200K로 Claude 계열(1M) 대비 5분의 1이라는 현실적인 제약이 있고, xhigh 추론으로 API를 직접 쓸 경우 비용이 빠르게 불어납니다. 이 두 가지를 알고 쓰는 것과 모르고 쓰는 것은 결과가 달라집니다.

가장 현실적인 활용법은 Codex를 “코딩 구현 메인 도구”가 아니라 “터미널 자동화와 코드 리뷰 전담 에이전트”로 쓰는 것입니다. 구현은 컨텍스트가 넉넉한 다른 모델에게 맡기고, Codex가 잘하는 반복 빌드·테스트·리뷰에 집중시키면 두 모델 모두 좋은 면을 뽑아낼 수 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

OpenAI 공식 블로그 — GPT-5.3-Codex 소개 (openai.com/ko-KR/index/introducing-gpt-5-3-codex/)
OpenAI 공식 — Codex 에이전트 루프 해설 (openai.com/ko-KR/index/unrolling-the-codex-agent-loop/)
OpenAI API 공식 요금 페이지 (developers.openai.com/api/docs/pricing/)
tilnote.io — GPT-5.3-Codex vs Claude Opus 4.6 논쟁 정리 (2026.02.06)
Morph LLM 코딩 모델 벤치마크 순위 (morphllm.com/best-ai-model-for-coding)

본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금·플랜 세부 사항은 OpenAI 공식 페이지에서 최신 내용을 확인하시기 바랍니다.

GPT-5.3-Codex, Terminal-Bench 1위인데 왜 쓰다 보면 다를까요?

GPT-5.3-Codex가 뭔지 먼저 정리합니다

공식 수치로 확인하는 성능 차이

벤치마크 1위인데 체감이 다른 이유

요금 구조, 생각보다 단순하지 않습니다

무료 계정에서는 GPT-5.3-Codex를 쓸 수 없습니다

한 모델만 쓰는 게 오히려 손해인 이유

보안 측면에서 생각해봐야 할 게 있습니다

자주 묻는 질문

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.3-Codex, Terminal-Bench 1위인데 왜 쓰다 보면 다를까요?

GPT-5.3-Codex가 뭔지 먼저 정리합니다

공식 수치로 확인하는 성능 차이

벤치마크 1위인데 체감이 다른 이유

요금 구조, 생각보다 단순하지 않습니다

무료 계정에서는 GPT-5.3-Codex를 쓸 수 없습니다

한 모델만 쓰는 게 오히려 손해인 이유

보안 측면에서 생각해봐야 할 게 있습니다

자주 묻는 질문

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기