2026.02.12 출시 / Research Preview
ChatGPT Pro 전용
GPT-5.3-Codex-Spark 직접 써봤습니다 — 빠른데 왜 더 오래 걸릴까
초당 1,000토큰. 숫자만 보면 압도적입니다. GPT-5.3-Codex 대비 15배 빠르다는 수치도 돌아다닙니다. 근데 실제로 코드 작업을 시켜보면 플래그십인 GPT-5.3-Codex보다 작업 완료 시간이 더 오래 걸리는 경우가 생깁니다. 토큰 생성 속도와 작업 완료 속도는 다른 얘기입니다.
Spark가 뭔지 30초 요약
구동 하드웨어가 다릅니다. 기존 GPT 모델이 NVIDIA GPU 클러스터에서 돌아가는 것과 달리, Spark는 Cerebras의 웨이퍼 스케일 엔진 3(WSE-3)에서 구동됩니다. 하드웨어 차이가 속도 차이의 본질입니다. OpenAI가 1월에 발표한 Cerebras 파트너십의 첫 번째 결과물이기도 합니다.
현재는 월 200달러 ChatGPT Pro 플랜 사용자에게만 Codex 앱·CLI·VS Code 확장에서 사용 가능합니다. API 접근은 일부 디자인 파트너에게만 제한적으로 열려 있습니다.
“15배 빠르다”는 수치의 진짜 의미
💡 공식 발표 수치와 실측 비교를 같이 놓고 보니 이런 차이가 보였습니다.
초당 1,000+ 토큰, GPT-5.3-Codex 대비 15배 빠르다는 주장이 여러 커뮤니티에 퍼져 있습니다. 숫자 자체는 거짓말이 아닙니다. 근데 이 수치는 토큰 생성 속도만 잰 것입니다. GPT-5.3-Codex가 초당 약 65~70토큰을 뽑아내고, Spark는 초당 1,000토큰 이상을 생성하니 생성 속도만 놓으면 15배 맞습니다.
문제는 작업 완료 시간입니다. Hacker News에 올라온 분석에서, OpenAI 공식 SWE-Bench Pro 차트의 데이터 포인트를 역산해 동일한 정확도 수준에서 속도를 비교했더니 실제 속도 향상은 약 1.37배였습니다. (출처: Hacker News #47007896, 2026.02.20) 15배와 1.37배의 차이가 나는 이유는 Spark가 정확도를 낮춘 상태에서의 속도를 기준 모델의 최고 정확도 상태와 비교했기 때문입니다.
솔직히 말하면, 15배라는 수치는 홍보성 메타 태그에서 시작된 것으로 보입니다. 공식 페이지 본문에는 “15배”라는 표현이 없고, 인터넷 아카이브 최초 버전에도 없습니다. 검색 스니펫과 RSS 피드를 통해 이 문구가 퍼졌고, 많은 리뷰 사이트가 원문 확인 없이 인용했습니다. OpenAI가 공식 이유를 밝히지 않은 부분입니다.
벤치마크 수치로 확인하는 정확도 격차
공식 벤치마크 수치를 직접 비교해보면 어디서 차이가 나는지 보입니다.
| 벤치마크 | GPT-5.3-Codex (xhigh) | GPT-5.3-Codex-Spark | 차이 |
|---|---|---|---|
| SWE-Bench Pro (Public) | 56.8% | ~56% | ≈ 동등 |
| Terminal-Bench 2.0 | 77.3% | 58.4% | -18.9%p |
| OSWorld-Verified | 64.7% | 해당 없음 | — |
| SWE-lancer IC Diamond | 81.4% | 해당 없음 | — |
(출처: OpenAI 공식 블로그 및 adam.holter.com, 2026.02.12/2026.02.12)
SWE-Bench Pro는 거의 같습니다. 근데 Terminal-Bench 2.0에서 19%p 가까이 벌어집니다. Terminal-Bench는 실제 터미널 환경 소프트웨어 엔지니어링 작업을 평가하는 벤치마크인데, 실무와 가장 가깝다고 알려진 지표입니다. 이 격차가 크다는 건 복잡한 실전 작업에서 품질 차이가 난다는 얘기입니다.
실제 작업이 오히려 느려지는 이유
💡 “빠른 모델”인데 작업이 더 오래 걸리는 상황이 왜 생기는지, 공식 문서와 실사용 흐름을 같이 놓고 보니 보였습니다.
Spark는 공식적으로 “가벼운 작업 스타일”을 기본값으로 설정했다고 밝혔습니다. 최소한의 편집을 수행하고, 요청하지 않으면 테스트를 자동으로 실행하지 않는다고 OpenAI 공식 발표에 나옵니다. (출처: openai.com/index/introducing-gpt-5-3-codex-spark/, 2026.02.12) 이론상으로는 간결한 작동 방식처럼 보입니다.
실제 사용 후기는 좀 다릅니다. 커뮤니티 사용자들 사이에서 일관되게 나오는 이야기가 있습니다. Spark가 툴 호출을 필요 이상으로 많이 한다는 겁니다. GPT-5.3-Codex는 필요한 툴만 정확히 써서 작업을 끝내는데, Spark는 같은 작업을 하면서 불필요한 툴 호출을 반복하고 토큰도 더 많이 씁니다. 초당 토큰은 15배 빠른데, 작업 완료까지의 총 토큰 수가 늘어나면 속도 이점이 상쇄됩니다.
OpenAI가 발표 데모에서 스네이크 게임 만들기를 시연한 것도 이 맥락에서 아쉽습니다. 스네이크 게임은 AI 코딩 모델이 몇 년 전부터 만들어온 예제입니다. 실무에서 마주치는 대규모 코드베이스 리팩토링, 멀티 파일 의존성 추적, 복잡한 버그 수정 같은 작업에서의 성능이 더 중요한데, 그 부분은 아직 공식적으로 공개된 자료가 없습니다.
컨텍스트 창 128K — 생각보다 치명적입니다
💡 컨텍스트 창 숫자를 나란히 놓고 보면 실제 사용 범위가 어디까지인지가 보입니다.
Spark의 컨텍스트 창은 128K 토큰입니다. GPT-5.3-Codex는 100만 토큰입니다. 숫자만 보면 잘 안 와닿으니 실제 코드 규모로 환산해봤습니다. 128K 토큰은 대략 영어 기준 9만 5,000단어 분량입니다. 중간 규모 프로젝트에서 핵심 파일 몇 개만 넣어도 금방 한계에 닿습니다. (출처: OpenAI 공식 블로그, 2026.02.12)
텍스트 전용이라는 제약도 있습니다. 이미지 입력이 안 됩니다. UI 스크린샷을 넘겨주면서 “이 디자인 기반으로 코드 짜줘” 같은 요청은 지금 Spark에서 안 됩니다. OpenAI는 향후 멀티모달 입력을 추가할 계획이라고 했지만 일정은 공개하지 않았습니다.
Spark 한도가 남아도 막히는 버그
Spark는 표준 Codex와 별도의 사용량 버킷을 씁니다. 공식 발표에서도 “리서치 프리뷰 기간 중 Spark 사용량은 표준 한도에 카운트되지 않습니다”라고 명시했습니다. 이론상으로는 표준 Codex 한도를 다 쓴 뒤에도 Spark로 전환해서 계속 쓸 수 있어야 합니다.
실제로는 다릅니다. 2026년 3월 25일 OpenAI 커뮤니티에서 이 문제가 공식적으로 제기됐습니다. Pro 플랜 사용자가 표준 Codex 주간 한도를 소진하자, Spark 주간 한도가 55% 남아있음에도 앱 전체에서 “You’re out of Codex messages” 메시지가 뜨면서 Spark 모델을 선택해도 입력이 막혔습니다. (출처: OpenAI Community, community.openai.com, 2026.03.25) 표준 Codex 한도 소진이 앱 레벨에서 전체 잠금으로 작동한 것입니다.
해당 사용자는 수일 뒤 자연스럽게 해결됐다고 보고했지만, 같은 버그를 경험한 다른 사용자도 확인됐습니다. Codex CLI에서는 이 잠금이 적용되지 않는다는 후속 공유도 있었습니다. Spark를 월 200달러짜리 유료 요금제에서 쓰는 상황에 이런 버그가 생기면, 별도 한도라는 설명 자체가 무의미해집니다.
결국 어떤 상황에서 쓰면 맞을까
속도가 빛을 발하는 작업과 그렇지 않은 작업이 나뉩니다.
Spark가 맞는 상황
독립적이고 짧은 단위의 작업에서는 속도 이점이 체감됩니다. 독스트링 생성, 간단한 함수 리팩토링, 변수명 정리, 소규모 로직 수정, 코드베이스 내 빠른 검색과 질의응답 같은 작업이 여기에 해당합니다. 응답이 거의 즉시 나오는 느낌 자체가 페어 프로그래밍 경험을 크게 바꿉니다. 실시간 피드백 루프가 중요한 프로토타이핑 단계에서도 실용적입니다.
GPT-5.3-Codex를 써야 하는 상황
컨텍스트가 큰 작업, 복잡한 멀티 파일 변경, 전체 코드베이스 분석, 취약점 탐지와 보안 감사에는 GPT-5.3-Codex가 맞습니다. 128K 한계를 넘는 순간 Spark는 작업 자체가 안 됩니다. Terminal-Bench에서 18.9%p 차이가 나는 복잡한 터미널 기반 엔지니어링 작업도 마찬가지입니다.
OpenAI가 제시하는 미래 방향은 둘을 함께 쓰는 구조입니다. Spark로 빠른 실시간 인터랙션을 유지하면서, 무거운 작업은 백그라운드에서 GPT-5.3-Codex 서브 에이전트에 위임하는 방식입니다. 이 구조가 제대로 구현되면 지금의 한계가 많이 줄겠지만, 현재 리서치 프리뷰 단계에서는 그 통합이 아직 완성되지 않았습니다.
자주 나오는 질문 5가지
마치며 — 빠른 모델을 사야 할 때와 기다려야 할 때
근데 지금 당장 Pro 200달러를 쓰는 사람 입장에서, Spark를 주력으로 쓰기엔 아쉬운 점이 명확합니다. 128K 컨텍스트 제한으로 규모 있는 코드에는 못 쓰고, 툴 호출 과다 문제로 단순 작업이 아니면 오히려 느려지며, 표준 한도 소진 시 잠기는 버그도 아직 남아있습니다. “15배 빠르다”는 말은 같은 조건에서 정확히 성립하는 수치가 아니었습니다.
짧은 독립 작업, 빠른 프로토타이핑, 코드 리뷰 정도라면 지금도 쓸 만합니다. OpenAI가 예고한 Spark와 플래그십 Codex의 하이브리드 구조가 실제로 나오면 평가가 달라질 수 있습니다. 지금은 그 구조의 첫 번째 부품이 나온 단계입니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Introducing GPT-5.3-Codex-Spark (openai.com/index/introducing-gpt-5-3-codex-spark/)
- OpenAI 공식 발표 — Introducing GPT-5.3-Codex (한국어) (openai.com/ko-KR/index/introducing-gpt-5-3-codex/)
- OpenAI Community — Codex 앱 Spark 차단 버그 (community.openai.com, 2026.03.25)
- Hacker News — 15× vs. ~1.37×: Recalculating GPT-5.3-Codex-Spark on SWE-Bench (news.ycombinator.com, 2026.02.20)
- adam.holter.com — GPT-5.3-Codex-Spark: 1000 Tokens Per Second, But Is It Actually Faster? (adam.holter.com, 2026.02.12)
본 포스팅은 2026년 3월 28일 기준으로 작성됐습니다. GPT-5.3-Codex-Spark는 현재 리서치 프리뷰 단계이며, 서비스 정책·사용 한도·기능·UI는 OpenAI의 업데이트에 따라 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.

댓글 남기기