GPT-5.3-Codex, 빠를수록 감독이 더 필요합니다

magister

Published on

2026년 4월 1일

IT/AI

2026.02.05 출시
GPT-5.3-Codex 기준
OpenAI 공식 발표 기반

GPT-5.3-Codex,
빠를수록 감독이 더 필요합니다

Terminal-Bench 2.0에서 77.3%를 기록하며 코딩 에이전트 최정상에 올랐지만, 실사용에서 나오는 이야기는 조금 다릅니다. 공식 수치와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

77.3%

Terminal-Bench 2.0

+25%

이전 대비 처리 속도

64.7%

OSWorld-Verified

GPT-5.3-Codex가 뭔지 30초 정리

GPT-5.3-Codex는 OpenAI가 2026년 2월 5일 공개한 에이전트형 코딩 특화 모델입니다. 단순히 코드를 완성해 주는 보조 도구가 아니라, 터미널을 직접 조작하고 버그를 잡고 PR까지 올리는 것을 혼자서 수행하도록 설계됐습니다. (출처: OpenAI 공식 발표, 2026.02.05)

같은 날 Anthropic도 Claude Opus 4.6을 내놓았는데, 두 회사가 하루 만에 동시에 에이전트 특화 모델을 발표한 건 이례적인 일이었습니다. OpenAI 측은 이 모델이 GPT-5.2-Codex 대비 처리 속도가 25% 빨라졌다고 밝혔습니다. (출처: OpenAI 공식 발표, 2026.02.05)

Codex 앱(macOS), CLI, IDE 확장, API를 통해 접근할 수 있고, ChatGPT Plus 이상 유료 구독자라면 당장 써볼 수 있습니다. 다만 API 가격은 별도 공지 없이 롤아웃 중이라 개발자라면 접근 방식을 달리 봐야 합니다.

▲ 목차로 돌아가기

벤치마크 숫자, 뭘 믿어야 할까요

공식 발표에 나온 수치를 먼저 보면 이렇습니다. SWE-Bench Pro(Public)에서 GPT-5.3-Codex는 56.8%를 기록했고, 전작 GPT-5.2-Codex는 56.4%였습니다. 0.4%p 차이입니다. 솔직히 말하면 이 숫자만 봐서는 “거의 같다”는 느낌밖에 안 옵니다. (출처: OpenAI 공식 발표, 2026.02.05)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

Terminal-Bench 2.0 결과는 전혀 다른 그림입니다. GPT-5.3-Codex는 77.3%, GPT-5.2-Codex는 64.0% — 13.3%p 격차입니다. SWE-Bench Pro에서의 0.4%p와 Terminal-Bench의 13.3%p, 이 두 수치가 가리키는 방향이 다릅니다.

벤치마크	GPT-5.3-Codex	GPT-5.2-Codex	GPT-5.2
SWE-Bench Pro	56.8%	56.4%	55.6%
Terminal-Bench 2.0	77.3%	64.0%	62.2%
OSWorld-Verified	64.7%	38.2%	37.9%
SWE-lancer IC Diamond	81.4%	76.0%	74.6%
Cybersecurity CTF	77.6%	67.4%	67.7%

(출처: OpenAI 공식 발표, 2026.02.05 / xhigh 설정 기준)

SWE-Bench Pro는 GitHub 이슈를 풀어내는 정적인 코드 수정 능력을 보고, Terminal-Bench 2.0은 실제 터미널을 열어 파일 시스템을 누비고 명령을 실행하는 능력을 봅니다. 후자에서 13.3%p 뛰었다는 건 “에이전트로서의 실행 능력”이 크게 달라졌다는 뜻입니다.

▲ 목차로 돌아가기

스스로를 디버깅한 첫 번째 모델

OpenAI 공식 발표문에는 이런 문장이 있습니다. GPT-5.3-Codex는 “자기 자신의 훈련 프로세스를 디버깅하는 데 실질적으로 기여한 최초의 모델”이라고 직접 밝혔습니다. 단순히 마케팅 수사가 아니라, Codex를 사용해 자체 배포와 학습 파이프라인을 관리했다는 뜻입니다. (출처: OpenAI 공식 발표, 2026.02.05)

💡 이 부분은 보도자료에서 자주 빠집니다

AI가 코드를 짜준다는 건 이미 익숙한 얘기지만, AI 자신의 학습 시스템을 그 AI가 관리했다는 건 다른 차원의 이야기입니다. 이는 코딩 모델이 “도구”에서 “인프라 참여자”로 역할이 바뀌기 시작했다는 신호입니다.

GDPval 벤치마크에서 나온 수치도 흥미롭습니다. GPT-5.3-Codex는 70.9%(wins or ties)를 기록했는데, 이 벤치마크는 OpenAI가 2025년 내부에서 만든 것으로 44개 이상의 실제 프로덕션 수준 작업을 평가합니다. 단순 코드 스니펫이 아니라, 실제 제품을 만드는 과정에 가까운 테스트입니다. (출처: OpenAI 공식 발표, 2026.02.05)

NVIDIA GB200 NVL72 인프라 위에서 돌아가며, 이 하드웨어 환경이 처리 속도 25% 개선의 핵심 배경입니다. OpenAI가 별도 이유를 밝히진 않았지만, 추론 스택 최적화와 인프라 개선이 병행된 결과로 봅니다. (출처: OpenAI 공식 발표, 2026.02.05)

▲ 목차로 돌아가기

Claude Opus 4.6과 직접 비교했습니다

벤치마크 숫자만 보면 GPT-5.3-Codex가 코딩에서 우세합니다. Terminal-Bench 2.0에서 GPT-5.3-Codex는 77.3%, Claude Opus 4.6은 65.4%입니다. 그런데 OSWorld-Verified에서는 순서가 뒤집힙니다. GPT-5.3-Codex가 64.7%, Opus 4.6은 72.7%입니다. (출처: OpenAI 공식 발표 / Anthropic 공식 발표, 2026.02.05)

벤치마크	GPT-5.3-Codex	Claude Opus 4.6	우세
Terminal-Bench 2.0	77.3%	65.4%	Codex
SWE-Bench Verified	80.0%	81.42%	Opus 4.6
OSWorld-Verified	64.7%	72.7%	Opus 4.6
API 입력 가격 (1M 토큰)	공개 롤아웃 중	$5.00	—

(출처: OpenAI·Anthropic 공식 발표 / eesel.ai 비교 분석, 2026.02.05~17)

터미널 명령 실행과 파일 시스템 탐색은 Codex가 확실히 빠르고 강합니다. 그런데 GUI를 포함한 컴퓨터 조작(OSWorld)으로 범위가 넓어지면 Opus 4.6이 앞섭니다. 코드만 잘 쓰는 것과, 실제 컴퓨터 환경 전체를 다루는 것은 다른 능력입니다.

▲ 목차로 돌아가기

속도가 올라가자 생긴 새로운 문제

막상 쓰다 보면 생각보다 더 많이 지켜봐야 합니다. Reddit 커뮤니티와 전문 리뷰어들이 공통적으로 짚는 부분이 이것입니다. “Codex는 범위를 명확하게 줘야 한다. 그렇지 않으면 파일을 건너뛰거나 엉뚱한 위치에 코드를 넣는다.” (출처: Interconnects.ai, Nathan Lambert, 2026.02.09)

💡 25% 빨라진 모델이 오히려 더 자주 확인해야 하는 이유

속도가 올라가면 잘못된 방향으로 더 빨리 달려갈 수도 있습니다. Claude가 맥락을 이해하고 조심스럽게 확인하면서 진행하는 방식을 선택한 것과 달리, GPT-5.3-Codex는 즉각 실행을 우선시합니다. 벤치마크에서는 이게 강점으로 나타나지만, 실제 프로젝트에서는 감독 비용이 늘어납니다.

4일 실사용 후기(Reddit r/codex, 2026.02.09)에서 지적된 내용을 정리하면 이렇습니다. 너무 적극적으로 행동하려는 경향이 있고, 시스템 프롬프트가 행동에 예상보다 강하게 영향을 미칩니다. GPT-5.2-high만큼 깊이 파고들지 못한다는 평도 있습니다. 단일 문제를 집중해서 풀게 하면 뛰어나지만, 복잡하게 얽힌 맥락에서 여러 지시를 동시에 받으면 지시 일부를 무시하는 사례가 보고됩니다.

코딩 에이전트를 “자율주행”처럼 쓰려면 아직 갈 길이 있습니다. 지금 단계에서는 명확한 범위를 정해주고, 중간중간 결과물을 확인하는 “감독형 협업” 방식이 더 안전합니다.

▲ 목차로 돌아가기

요금제별 접근 방법 정리

GPT-5.3-Codex에 접근하는 경로는 크게 세 가지입니다. ChatGPT 유료 구독(Plus $20/월, Pro $200/월), Codex CLI, IDE 확장 플러그인입니다. ChatGPT Plus 이상이면 Codex 앱에서 바로 GPT-5.3을 선택해 쓸 수 있습니다. (출처: OpenAI 공식 발표, 2026.02.05)

접근 경로	요금	제한 사항
ChatGPT Plus	$20/월	사용량 상한 있음
ChatGPT Pro	$200/월	더 높은 사용량 한도
API (개발자)	토큰 기반 (롤아웃 중)	가격 아직 미공개
Codex CLI	ChatGPT 계정 연동	터미널 환경 필요

(출처: OpenAI 공식 발표·가격 페이지, 2026.02~03)

한 가지 짚어둘 게 있습니다. OpenAI API 컨테이너 가격 구조가 2026년 3월 31일부터 바뀌었습니다. 기존에는 컨테이너 단위로 과금했지만, 이제는 20분당 세션 단위로 전환됐습니다. 1GB 기준 $0.03/세션입니다. API로 Codex를 쓰는 개발자라면 이 요금 구조 변경을 반드시 확인해야 합니다. (출처: OpenAI API 가격 페이지, 2026.03.31)

Claude Opus 4.6의 API 가격($5/1M 입력 토큰, $25/1M 출력 토큰)과 직접 비교는 어렵습니다. Codex의 API 가격이 아직 전면 공개되지 않았기 때문입니다. 가격 비교 후 선택하려면 정식 공개 이후로 판단을 미루는 게 낫습니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. GPT-5.3-Codex는 무료로 쓸 수 있나요?

ChatGPT Plus 이상 유료 구독자에게 제공됩니다. 무료 플랜에서는 접근이 되지 않습니다. API는 현재 가격 공개 전 롤아웃 중으로, 별도 신청이 필요할 수 있습니다. (출처: OpenAI 공식 발표, 2026.02.05)

Q2. SWE-Bench Pro와 SWE-Bench Verified는 뭐가 다른가요?

SWE-Bench Verified는 GitHub에서 이미 해결된 이슈를 풀게 하는 표준 테스트입니다. SWE-Bench Pro는 Python에 편중된 기존 테스트의 한계를 보완한 업그레이드 버전으로, 더 다양한 언어와 더 복잡한 이슈를 다룹니다. GPT-5.3-Codex는 Pro 버전에서 56.8%를 기록했습니다. (출처: OpenAI 공식 발표, 2026.02.05)

Q3. GPT-5.3-Codex와 GPT-5.4는 어떻게 다른가요?

GPT-5.4는 범용 언어 모델이고, GPT-5.3-Codex는 코딩 에이전트 특화 모델입니다. 용도가 다릅니다. 코딩 이외의 일반 대화나 문서 작업은 GPT-5.4 계열이 더 자연스럽고, 터미널 작업이나 코드베이스 탐색은 Codex가 앞섭니다. 실제 사용자들의 평가에서 GPT-5.4가 나온 뒤에도 코딩 특화 작업에서는 Codex를 선호하는 경향이 있습니다.

Q4. Codex CLI는 어떻게 설치하나요?

ChatGPT 계정으로 로그인 후 Codex CLI를 설치하면 됩니다. Plus·Pro 구독자는 30일간 각각 $5·$50의 무료 API 크레딧이 제공됩니다. 설치 방법은 OpenAI 공식 Codex 페이지(openai.com/codex)에 안내돼 있습니다. (출처: OpenAI Codex 소개 페이지, 2025.05.16)

Q5. 한국어로 Codex를 쓰면 성능이 달라지나요?

코드 자체는 언어에 관계없이 동일하게 처리됩니다. 다만 주석이나 변수명 설명 등 자연어가 섞인 맥락에서는 영어로 프롬프트를 주는 것이 더 정확한 결과를 내는 경향이 있습니다. 아직 한국어 특화 벤치마크 결과는 공개되지 않았습니다.

▲ 목차로 돌아가기

마치며 — 총평

GPT-5.3-Codex는 터미널 작업과 에이전트형 코딩 실행 능력에서 확실한 강점을 가진 모델입니다. Terminal-Bench 2.0의 77.3%는 단순한 숫자가 아니라, “파일을 열고 명령을 치고 결과를 확인하는 사이클”을 자동화하는 능력이 실질적으로 달라졌다는 의미입니다.

그런데 빠른 만큼 조심해야 할 지점도 있습니다. 범위를 명확히 주지 않으면 엉뚱한 방향으로 빠르게 달립니다. “자율주행 모드”를 기대하고 켰다가 코드를 뜯어고치는 일이 생길 수 있습니다. 이 부분이 제가 이 모델을 쓸 때 가장 주의하게 되는 지점입니다.

자신의 학습 프로세스를 직접 디버깅한 첫 번째 모델이라는 사실은, 코딩 AI의 다음 단계가 어디인지를 가리키고 있습니다. 지금 당장 모든 작업을 맡길 수준은 아니지만, 방향은 분명합니다. 잘 훈련된 에이전트에게 명확한 과제를 주는 방식에 익숙해질수록, 이 모델을 제대로 쓸 수 있게 됩니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

OpenAI 공식 발표 — GPT-5.3-Codex 소개 (openai.com/ko-KR/index/introducing-gpt-5-3-codex/)
OpenAI API 가격 페이지 (openai.com/ko-KR/api/pricing/)
OpenAI Codex 소개 페이지 (openai.com/ko-KR/index/introducing-codex/)
Interconnects.ai — Opus 4.6 vs Codex 5.3 실사용 분석 (Nathan Lambert, 2026.02.09) (interconnects.ai)
eesel.ai — GPT-5.3-Codex vs Claude Opus 4.6 비교 분석 (eesel.ai)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI Codex의 API 가격은 롤아웃 중으로, 최신 가격은 OpenAI 공식 가격 페이지에서 확인하세요. 본 포스팅은 정보 제공 목적으로 작성됐으며, 투자·구매 판단의 근거로 사용하기 전 공식 채널에서 최신 정보를 반드시 확인하시기 바랍니다.

AI코딩에이전트, Claude비교, GPT-5.3-Codex, OpenAI Codex, SWEBench

GPT-5.3-Codex, 빠를수록 감독이 더 필요합니다

GPT-5.3-Codex,
빠를수록 감독이 더 필요합니다

GPT-5.3-Codex가 뭔지 30초 정리

벤치마크 숫자, 뭘 믿어야 할까요

스스로를 디버깅한 첫 번째 모델

Claude Opus 4.6과 직접 비교했습니다

속도가 올라가자 생긴 새로운 문제

요금제별 접근 방법 정리

자주 나오는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

GPT-5.3-Codex, 빠를수록 감독이 더 필요합니다

GPT-5.3-Codex,빠를수록 감독이 더 필요합니다

GPT-5.3-Codex가 뭔지 30초 정리

벤치마크 숫자, 뭘 믿어야 할까요

스스로를 디버깅한 첫 번째 모델

Claude Opus 4.6과 직접 비교했습니다

속도가 올라가자 생긴 새로운 문제

요금제별 접근 방법 정리

자주 나오는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

GPT-5.3-Codex,
빠를수록 감독이 더 필요합니다