GPT-5.3 Codex, 벤치마크 1위가 전부가 아닌 이유

Published on

in

GPT-5.3 Codex, 벤치마크 1위가 전부가 아닌 이유
2026.02.05 출시 기준 / GPT-5.3-Codex (xhigh)

GPT-5.3 Codex, 벤치마크 1위가 전부가 아닌 이유

터미널 점수 77.3%, 스스로 만들었다는 말—수치만 보면 완벽한 코딩 에이전트입니다. 공식 시스템 카드를 함께 펼쳐놓고 보니 말이 달라졌습니다.

Terminal-Bench 77.3%
Cyber Range 합격률 80%
API 미개방 상태
사이버보안 High 최초 판정

GPT-5.3-Codex가 뭐가 다른가 — 결론부터

GPT-5.3-Codex는 2026년 2월 5일 OpenAI가 공개한 에이전트형 코딩 모델입니다. GPT-5.2-Codex의 코딩 성능에 GPT-5.2의 추론·전문지식 역량을 합친 구조로, 같은 날 Anthropic이 Claude Opus 4.6을 발표한 지 20분 만에 공개됐습니다. (출처: OpenAI 공식 발표문, 2026.02.05)

결론부터 말씀드리면—터미널 자동화와 지속형 코딩 세션에서는 현재 가장 앞서 있습니다. 그런데 OpenAI 공식 시스템 카드를 같이 읽으면, 마케팅 문구와 안전 평가 결과 사이에 꽤 큰 간격이 보입니다. 그 부분이 이 글의 핵심입니다.

현재 유료 ChatGPT 플랜에서 Codex 앱·CLI·IDE 확장·웹으로 사용 가능합니다. API는 아직 미개방 상태입니다. (출처: OpenAI 공식 발표문, 2026.02.05)

▲ 목차로 돌아가기

벤치마크 수치, 직접 따라가보면 보이는 것

OpenAI 공식 발표문에 공개된 4개 핵심 벤치마크 수치입니다. (출처: OpenAI 공식 발표문, 2026.02.05)

벤치마크 GPT-5.3-Codex GPT-5.2-Codex 변화폭
SWE-Bench Pro 56.8% 56.4% +0.4%p
Terminal-Bench 2.0 77.3% 64.0% +13.3%p ↑
OSWorld-Verified 64.7% 38.2% +26.5%p ↑
SWE-Lancer IC Diamond 81.4% 76.0% +5.4%p ↑

💡 공식 발표문과 실제 수치를 나란히 놓고 보니 이런 차이가 보였습니다 — SWE-Bench Pro 개선폭은 0.4%p에 불과합니다. “소프트웨어 엔지니어링 1위”라는 홍보문구가 주는 인상과 다릅니다. 실제 도약은 터미널 자동화(+13.3%p)와 일반 컴퓨터 사용(+26.5%p)에서 일어났습니다.

터미널 점수 77.3%를 Claude Opus 4.6(65.4%)과 비교하면 Codex가 앞서는 게 맞습니다. 반면 OSWorld에선 Opus 4.6이 72.7%로 Codex의 64.7%를 역전합니다. 터미널 자동화에 강하고, 시각적 데스크톱 작업에는 아직 밀립니다. (출처: sumgenius.ai 교차 벤치마크 분석, 2026.02.09)

벤치마크 자체의 한계도 있습니다. SWE-Bench Verified와 SWE-Bench Pro는 측정 방식이 달라 Anthropic과 OpenAI 수치를 직접 비교할 수 없습니다. 두 회사가 서로 다른 버전의 벤치마크를 사용한다는 사실은 공식 발표문 어디에도 크게 적혀 있지 않습니다.

▲ 목차로 돌아가기

“스스로 만들었다”는 말이 절반만 맞는 이유

발표문의 가장 화제가 된 문구는 “GPT-5.3-Codex는 스스로를 만드는 데 기여한 첫 모델”이라는 표현입니다. 초기 버전이 자체 훈련 디버깅, 배포 관리, 테스트 진단에 실제로 투입됐다는 사실은 맞습니다. (출처: OpenAI 공식 발표문, 2026.02.05)

💡 발표문 문구와 공식 시스템 카드를 같이 읽었을 때 보이는 것입니다 — 시스템 카드는 다른 말을 합니다. “GPT-5.3-Codex does not reach High capability on AI self-improvement.”(출처: OpenAI GPT-5.3-Codex System Card, 2026.02.05) 즉 OpenAI 자체 기준으로 자기개선 High 능력에 미달한다고 명시합니다.

시스템 카드의 AI 자기개선 평가 항목인 Monorepo-Bench와 OpenAI-Proof Q&A에서 GPT-5.3-Codex는 GPT-5.2-Codex와 비슷하거나 살짝 낮은 성능을 보였습니다. “개발 가속 도구로 활용됐다”는 것과 “스스로 발전할 수 있다”는 건 다른 주장입니다. 전자는 사실이고, 후자는 공식 평가 결과와 어긋납니다.

파괴적 행동 회피 점수는 0.88로 이전 GPT-5.2-Codex(0.76) 대비 개선됐습니다. “clean the folder” 같은 지시가 실제로는 rm -rf로 이어질 수 있다는 점을 인식하고 멈추는 능력이 실질적으로 올라갔다는 뜻입니다. (출처: OpenAI GPT-5.3-Codex System Card Table 2, 2026.02.05)

▲ 목차로 돌아가기

사이버보안 High — OpenAI가 처음 인정한 것

GPT-5.3-Codex는 OpenAI의 Preparedness Framework에서 사이버보안 High 능력을 가진 첫 번째 모델로 분류됐습니다. 이전 모든 모델은 이 기준에 못 미쳤습니다. (출처: OpenAI GPT-5.3-Codex System Card, 2026.02.05)

Cyber Range 합격률을 보면 맥락이 명확해집니다. GPT-5.3-Codex는 15개 시나리오 중 12개를 통과해 80%를 기록했습니다. 직전 모델 GPT-5.2-Codex는 53.3%, GPT-5.1-Codex-Max는 60%였습니다. 3세대 만에 20%p 이상 뛰었습니다. (출처: OpenAI GPT-5.3-Codex System Card Table 5, 2026.02.05)

⚠️ OpenAI가 직접 쓴 문장

“This is the first launch we are treating as High capability in the Cybersecurity domain under our Preparedness Framework… we cannot rule out the possibility that it may be capable enough to reach the threshold.”

(출처: OpenAI GPT-5.3-Codex System Card, 2026.02.05)

“확실하지는 않지만 가능성을 배제할 수 없어 조치를 취한다”는 표현입니다. 이걸 뒤집어 보면, OpenAI도 자사 모델이 실제로 엔드투엔드 사이버 공격을 자동화할 수 있는지 아직 단정하지 못한다는 뜻입니다.

이 판정으로 API 전면 개방이 미뤄지고, Trusted Access for Cyber라는 사전 심사 프로그램이 생겼습니다. 사이버 방어 연구에는 1,000만 달러 상당의 API 크레딧을 지원합니다. (출처: OpenAI 공식 발표문, 2026.02.05)

▲ 목차로 돌아가기

API 없이 쓴다는 게 실무에서 어떤 의미인가

GPT-5.3-Codex는 출시 이후 현재까지 API가 공개되지 않았습니다. OpenAI는 “곧 개방 예정”이라고만 밝혔습니다. (출처: OpenAI 공식 발표문, 2026.02.05) API가 없으면 자사 서비스에 모델을 붙이거나 자동화 파이프라인을 만드는 게 불가능합니다.

💡 가격 구조와 API 상황을 같이 보면 이게 보입니다 — 비교 대상인 Claude Opus 4.6은 출시 당일부터 API 가격을 공개했습니다: 입력 토큰 MTok당 $5, 출력 MTok당 $25. (출처: Anthropic 공식 API 가격 문서, 2026.02.05) Codex는 아직 API 가격 자체가 없습니다. 규모 있는 개발 팀이 비용 예측을 세울 수 없는 상태입니다.

개인 개발자라면 Codex 앱이나 CLI로 충분히 체감할 수 있습니다. 실사용 후기에서는 “4시간에 지난 주 작업량을 넘어섰다”는 반응도 있었습니다. 단, 이 속도는 추론 노력 설정을 xhigh로 놓았을 때 기준입니다. xhigh 설정은 토큰 소비가 many 가장 크기 때문에 사용량 제한을 빠르게 소진합니다.

사이버보안 High 판정이 API 개방 지연과 직결됩니다. 악의적 사용 위험을 이유로 전면 개방 대신 Trusted Access 심사 프로그램을 먼저 만들었고, API는 그 다음에 순차적으로 풀릴 구조입니다. 언제 열릴지는 공식 일정이 공개되지 않았습니다.

▲ 목차로 돌아가기

Claude Opus 4.6과 나란히 놓고 보면

같은 날 20분 간격으로 출시된 두 모델을 항목별로 정리했습니다. (출처: sumgenius.ai 교차 분석, 2026.02.09 / Anthropic 공식 발표문, 2026.02.05 / OpenAI 공식 발표문, 2026.02.05)

항목 GPT-5.3-Codex Claude Opus 4.6
Terminal-Bench 2.0 77.3% 65.4%
OSWorld-Verified 64.7% 72.7%
GPQA Diamond 73.8% 91.3%
컨텍스트 윈도우 400K 토큰 1M 토큰 (베타)
API 접근 미개방 개방 (출시일부터)
API 출력 가격 미발표 $25/MTok

터미널 자동화와 지속형 코딩 세션에서는 Codex가 앞서고, 복잡한 추론·오픈엔드 문제해결·긴 컨텍스트 처리에서는 Opus 4.6이 앞섭니다. Every.to의 실전 평가(React, 3D 시각화, 이커머스 빌드 통합)에서 Opus 4.6은 9.25/10, Codex는 7.5/10을 받았습니다. 요구사항이 불분명할수록 Opus가 유리합니다. (출처: Every.to LFG 벤치마크, 2026.02.09)

실사용자들의 평가는 “둘 중 하나”가 아닌 “섞어 쓴다”는 쪽으로 기울고 있습니다. 빠른 터미널 작업은 Codex, 복잡한 리팩터링이나 멀티에이전트 워크플로는 Claude Code로 분리하는 방식입니다.

▲ 목차로 돌아가기

Q&A

Q1. GPT-5.3-Codex는 무료로 쓸 수 있나요?
유료 ChatGPT 플랜 가입자는 Codex 앱·CLI·IDE 확장에서 사용할 수 있습니다. 무료 플랜은 출시 초기 한정 프로모션 시 GPT-5.2-Codex만 접근 가능했고 GPT-5.3-Codex에는 적용되지 않았습니다. (출처: ZDNET, 2026.02.06)
Q2. API는 언제 열리나요?
OpenAI는 공식 발표문에서 “API 개방을 위해 작업 중”이라고만 밝혔으며 구체적인 일정을 공개하지 않았습니다. 사이버보안 High 판정에 따른 안전 체계 구축이 선행 조건으로 보입니다. (출처: OpenAI 공식 발표문, 2026.02.05)
Q3. 보안 연구자는 고급 기능을 쓸 수 없나요?
고위험 사이버 기능은 Trusted Access for Cyber 프로그램 심사를 통과한 전문가에게만 개방됩니다. 사이버 방어 연구 목적이라면 OpenAI 사이버보안 보조금 프로그램에 지원해 API 크레딧을 신청할 수 있습니다. (출처: OpenAI 공식 발표문, 2026.02.05)
Q4. 한국어 코딩 작업에도 잘 맞나요?
YTN 보도에 따르면 GPT-5.3 인스턴트 기반 일상 대화 모델에서 “한국어가 어색할 수 있다”는 언급이 있었습니다. (출처: YTN, 2026.03.04) Codex는 코드 생성 특화 모델로 영어 주석·문서 처리에서는 성능 차이가 없으나, 한국어 인터페이스 명세서 해석이나 주석 생성에서는 추가 검토가 필요합니다.
Q5. NVIDIA GB200과의 연관성은 무엇인가요?
GPT-5.3-Codex는 NVIDIA GB200 NVL72 시스템에서 공동 설계·훈련·서빙됩니다. 기존 대비 25% 빠른 추론 속도는 GB200 인프라 최적화의 결과입니다. (출처: OpenAI 공식 발표문, 2026.02.05)

▲ 목차로 돌아가기

마치며

GPT-5.3-Codex는 터미널 자동화와 장시간 코딩 에이전트 부문에서 현재 가장 높은 수치를 보여주는 모델입니다. 특히 OSWorld에서의 26%p 도약은 단순 코드 생성 도구를 넘어 컴퓨터 작업 전반을 처리하는 방향으로 진화하고 있다는 신호입니다.

솔직히 말하면, 두 가지가 아쉬웠습니다. 첫째는 API가 없다는 점입니다. 개인 개발자에게는 CLI와 앱으로 충분할 수 있어도, 팀 단위 서비스 개발에 붙이려면 API가 필수입니다. 둘째는 마케팅과 시스템 카드 사이의 거리입니다. “스스로 만들었다”는 문구를 읽을 때는 시스템 카드의 AI 자기개선 High 불충족 문구를 함께 보는 게 맞습니다. 이 두 문서를 나란히 읽는 사람이 많지 않을 뿐입니다.

당장 가장 실용적인 접근은 터미널 집약적 작업과 단기 코딩 세션에는 Codex, 복잡한 다단계 리팩터링이나 긴 컨텍스트가 필요한 작업에는 Claude Code를 병행하는 것입니다. 두 모델 모두 2026년 2월에 동시 출시됐고, 경쟁은 앞으로도 빠르게 이어질 것입니다.

▲ 목차로 돌아가기

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 모든 수치와 기능 설명은 2026.02.05 GPT-5.3-Codex 출시 시점 기준이며, OpenAI 공식 발표문과 System Card를 바탕으로 작성했습니다. IT·AI 서비스 특성상 업데이트로 내용이 달라질 수 있으니 최신 정보는 openai.com에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글

  • 보육료 전환 신청 2026, 양육수당 중복 체크
    보육료 전환 신청 2026 기준으로 입소일과 신청일, 양육수당·부모급여, 보육료 자격 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청년월세지원 신청 2026, 임대차 서류 체크
    청년월세지원 신청 2026 기준으로 나이·거주 요건, 계약서와 이체 내역, 본인·원가구 소득 확인 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민취업지원제도 신청 2026, 구직촉진수당 체크
    국민취업지원제도 신청 2026 기준으로 유형과 자격, 월 소득과 재산, 구직활동 계획 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 국민연금 반환일시금 청구 2026, 수급 조건 확인
    국민연금 반환일시금 청구 2026 기준으로 10년 기준, 연령·국외이주 등, 신분·계좌·증빙 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기