GPT-5.3-Codex 기준
OpenAI Codex 앱 Windows:
“Mac과 같다” 믿으면
파일 370GB 날리는 이유
2026년 3월 4일, OpenAI의 Codex 앱 Windows 버전이 정식 출시됐습니다.
“드디어 Mac 없이도 쓸 수 있다”는 기대감과 달리,
출시 직후 OpenAI 공식 커뮤니티에 WSL 치명 오류, 크레딧 7배 과다소모, 프로젝트 외부 파일 대량 삭제 제보가 쏟아졌습니다.
무엇을 주의해야 하는지, 그리고 어떻게 써야 실제로 이득인지, 공식 벤치마크와 실사용 데이터로 정리했습니다.
(GPT-5.3-Codex)
(GPT-5.3-Codex)
파일 삭제 피해
속도 이상 보고
Codex 앱 Windows 버전, 실제로 무엇이 달라졌나?
OpenAI가 2026년 2월 2일 macOS용 Codex 앱을 출시하고 약 한 달 뒤인 3월 4일, Windows 버전을 정식 공개했습니다. (출처: OpenAI 공식 블로그, 2026.03.04) 공식 발표에 따르면 Windows 버전은 macOS와 동일한 핵심 기능을 제공한다고 명시돼 있습니다.
구체적으로는 여러 에이전트를 동시에 관리할 수 있는 멀티에이전트 허브, 프로젝트별 격리된 클라우드 샌드박스 실행 환경, Skills 확장 기능, Automations 백그라운드 자동화가 포함됩니다. CLI(명령줄 도구) 형태로만 존재했던 기존 Codex와 달리, 이제 GUI 앱으로 별도 개발 환경 설정 없이 설치 즉시 사용 가능한 구조로 변경된 것이 핵심입니다.
Windows 환경에서는 네이티브 에이전트 샌드박스와 PowerShell을 통한 Windows 개발 환경 지원이 함께 제공되며, WSL(Windows Subsystem for Linux)도 지원 대상에 포함됩니다. 그러나 “macOS와 동일하다”는 공식 표현이 사실상 기능 목록상의 동일성을 의미할 뿐, 안정성과 실행 환경은 상당히 다르다는 것을 아래에서 확인하게 됩니다.
💡 공식 발표와 실제 사이의 간극 — 이 분석은 OpenAI 공식 릴리스 노트와 출시 이후 Reddit·OpenAI 커뮤니티의 실사용 보고를 교차 대조한 결과입니다. 공식 문서가 말하지 않는 부분에 집중했습니다.
OpenAI는 GPT-5.3-Codex가 이전 모델 대비 25% 속도 향상을 달성했다고 발표했습니다. (출처: OpenAI 공식 블로그, 2026.02) SWE-Bench Pro에서 56.8%, Terminal-Bench 2.0에서 77.3%, OSWorld-Verified에서 64.7%를 기록했습니다.
그런데 “코딩 최강”이라는 수식어는 벤치마크를 어떻게 읽느냐에 달려 있습니다
여기서 많은 사람이 놓치는 포인트가 있습니다. GPT-5.3-Codex의 SWE-Bench Pro 점수(56.8%)는 Claude Opus 4.6(59%)에 뒤집니다. (출처: morphllm.com 비교 분석, 2026.02.28) 즉 “OpenAI Codex가 코딩을 가장 잘한다”는 인상은 Terminal-Bench 2.0에서 Codex가 77.3%로 Claude Code(65.4%)를 압도하는 수치 때문에 만들어진 것입니다.
| 벤치마크 | GPT-5.3-Codex | Claude Opus 4.6 | 우위 |
|---|---|---|---|
| SWE-Bench Pro (코드 품질) | 56.8% | 59.0% | Claude ✓ |
| Terminal-Bench 2.0 (터미널 작업) | 77.3% | 65.4% | Codex ✓ |
| OSWorld-Verified (GUI 자동화) | 64.7% | — | Codex ✓ |
| 처리 속도 (tok/s) | 1,000+ | ~200 | Codex ✓ |
출처: morphllm.com 비교 분석, OpenAI 공식 시스템 카드 (2026.02)
이 수치가 실제로 의미하는 것은 단순합니다. Codex는 터미널·CLI 집약적 작업에서 강하고, 코드 품질과 일관성이 중요한 작업에서는 Claude에 뒤집힙니다. 벤치마크 한 줄로 “최강 AI 코딩 도구”라고 판단하면, 자신의 워크플로와 전혀 맞지 않는 도구를 구독할 수 있습니다.
출시 직후 터진 Windows 전용 버그 3가지
① WSL 선택 후 첫 재시작에서 치명적 오류 발생
설정에서 WSL을 선택하면 앱 재시작 즉시 치명 오류(fatal error)가 발생한다는 제보가 쏟아졌습니다. Reddit r/codex 커뮤니티의 ‘Prestigiouspite’ 사용자는 “어떻게 이렇게 명백하게, 모든 사람에게 영향을 미치는 것이 테스트에서 잡히지 않았느냐”고 지적했습니다. (출처: Reddit r/codex, 2026.03.07) 추가로 WSL용 config.toml이 Windows 경로를 그대로 사용해 MCP 설정이 정상 작동하지 않는 문제도 함께 보고됐습니다. 이는 WSL을 활용하려는 Windows 개발자에게 핵심 기능이 사실상 막혀 있다는 의미입니다.
② apply_patch 명령어가 새 Windows 샌드박스에서 실행 불가
WSL을 포기하고 네이티브 Windows 환경으로 전환해도 문제는 이어집니다. apply_patch 등 기본 파일 패치 명령어가 Windows 샌드박스에서 실행되지 않습니다. (출처: GitHub openai/codex issue #13965, 2026.03.08) 패치 하나를 적용하는 데 4~5번 재시도가 반복되고, 그 과정에서 할당량이 소진됩니다. 이 버그는 코드 수정 작업의 근간이 되는 기능이기 때문에, 실질적으로 Codex 앱의 핵심 사용 시나리오를 막는 수준의 문제입니다.
③ 프로젝트 디렉토리 밖 파일 370GB 대량 삭제
가장 심각한 사례는 Full Access 모드에서 에이전트가 프로젝트 폴더를 벗어나 사용자 PC 전체 파일을 삭제한 것입니다. OpenAI 공식 커뮤니티에 접수된 제보에 따르면, GPT-5.4를 Codex App for Windows에서 사용하던 중 게임, 작업 프로젝트, 사용자 폴더 전체를 포함해 약 370GB의 데이터가 삭제됐습니다. (출처: OpenAI Developer Community, 2026.03.06) 외장 SSD 구매(약 80유로)와 18일이 소요되는 복구 작업이 필요했다는 보고입니다. 보고자는 동일 IDE 통합 환경(Cursor)에서는 같은 Full Access 모드에서도 이 문제가 발생하지 않았다고 밝혔습니다.
⚠️ 현재 권고 사항: Windows에서 Codex 앱을 사용할 때는 Full Access 모드 대신 workspace-write 모드를 선택하고, 중요한 파일이 있는 드라이브와 분리된 환경에서 테스트하는 것이 안전합니다. OpenAI 측에서 공식 해결 패치가 발표되기 전까지 주의가 필요합니다.
크레딧 7배 소진 버그: 지금 내 요금제는 안전한가?
Windows 출시 전후로 또 다른 문제가 터졌습니다. OpenAI 상태 페이지에는 2026년 3월 6일 “Codex 사용량이 예상보다 빠르게 소진되는 문제를 식별했다”는 공식 공지가 게시됐습니다. (출처: OpenAI Status Page, 2026.03.06) Reddit에서는 “30분 만에 주간 한도의 50%를 소진했다”, “금요일부터 소진 속도가 7배 빨라졌다”는 제보가 잇따랐습니다.
이 버그가 실제로 의미하는 손실을 계산해보면
ChatGPT Plus(월 $20)의 경우 Codex 세션 한도는 5시간 창당 30~150회입니다. 크레딧 소진 속도가 7배라면 실제 사용 가능한 세션 수는 최소 4.3회~21.4회 수준으로 줄어듭니다. 추가 크레딧을 API 요금으로 구매했을 때 “$40을 구입했는데 몇 프롬프트 만에 소진됐다”는 제보도 공식 커뮤니티에 다수 존재합니다. (출처: OpenAI Developer Community, 2025.11~2026.03) 이는 단순한 기술적 오류가 아니라 직접적인 금전 손해입니다.
💡 지금 이 시점에서 크레딧 소진 속도를 직접 확인하는 방법: ChatGPT → 설정 → 사용량 대시보드에서 세션별 소비량을 직접 확인할 수 있습니다. 평소보다 소진 속도가 빠르다면 GitHub openai/codex Issues에서 관련 버그 번호(#14752)를 검색해 최신 수정 여부를 확인하세요. OpenAI는 영향을 받은 일부 사용자(전체의 약 1%)에게 사용량을 리셋해줬다고 밝혔습니다. (출처: Reddit r/codex, 2026.03.07)
Codex vs Claude Code: 쓰임새가 완전히 다르다
“Codex가 좋나, Claude Code가 좋나”는 잘못된 질문입니다. 두 도구는 아키텍처 설계 철학 자체가 다릅니다. Codex는 클라우드 샌드박스에서 독립된 작업을 빠르게 처리하는 데 최적화돼 있고, Claude Code는 다중 에이전트가 협조하면서 복잡한 코드베이스를 체계적으로 다루는 데 강합니다.
토큰 사용량 비교: Codex가 Claude보다 4배 적게 쓴다는 것의 진짜 의미
동일한 작업에서 Claude Code는 Codex보다 토큰을 3.2~4.2배 더 사용합니다. (출처: morphllm.com 토큰 비교 분석, 2026.02.28) Figma 플러그인 빌드 기준으로 Codex는 약 150만 토큰, Claude Code는 약 620만 토큰을 소비했습니다. 이것이 “Codex가 더 효율적”이라는 뜻처럼 보이지만, 실상은 Claude가 더 꼼꼼하게 확인하고 설명하기 때문에 토큰을 더 쓴다는 의미이기도 합니다. 즉, 토큰 소비가 적은 것이 반드시 비용 효율이 좋다는 결론으로 이어지지는 않습니다.
더 중요한 것은 현재 Windows 버전 버그로 인해 Codex 앱에서 apply_patch 실패가 4~5회 반복될 경우, 이론상 절약되던 토큰이 실패 재시도로 상쇄된다는 점입니다. 적은 토큰 사용이 장점으로 작동하려면 실행 안정성이 전제돼야 합니다.
| 상황 | Codex 추천 | Claude Code 추천 |
|---|---|---|
| 독립적 태스크 빠른 반복 | ✅ | — |
| 복잡한 코드베이스 리팩토링 | — | ✅ |
| 터미널 중심 작업(CI/CD) | ✅ | — |
| 다중 에이전트 병렬 작업 | — | ✅ |
| 예측 가능한 동일 결과 필요 | — | ✅ |
출처: morphllm.com 비교 분석 교차 정리 (2026.02)
Windows에서 Codex를 지금 쓴다면 꼭 알아야 할 것
버그가 있다고 해서 Codex 앱 Windows 버전을 지금 당장 쓸 수 없다는 뜻은 아닙니다. 다만 알고 쓰는 것과 모르고 쓰는 것의 차이는 데이터 370GB입니다. 현재 시점(2026.03.17)에서 안전하게 사용하기 위한 체크리스트입니다.
설치 전 확인: 최신 버전인지 반드시 체크
OpenAI 커뮤니티에는 “업데이트가 필요합니다. 이 버전은 더 이상 지원되지 않습니다”라는 팝업이 사라지지 않는다는 제보가 있었습니다. (출처: OpenAI Developer Community, 2026.03.03) 이 경우 공식 사이트에서 v0.108 이상을 새로 설치하는 것이 권장됩니다. GitHub openai/codex의 릴리스 탭에서 최신 버전을 항상 먼저 확인하세요.
작업 모드 선택: Full Access는 지금 당장 피할 것
Codex 앱에는 sandbox 모드가 세 가지입니다. workspace-write(프로젝트 폴더 쓰기 허용), read-only(읽기 전용), danger-full-access(전체 파일 시스템 접근)입니다. 현재 Windows에서는 danger-full-access 모드를 절대 사용하지 말 것을 권장합니다. 디렉토리 제한 메커니즘이 정상 작동하지 않는 것이 공식 커뮤니티에서 확인됐습니다.
WSL 대신 네이티브 PowerShell 모드로 시작
WSL 치명 오류 버그는 아직 완전히 해결되지 않은 상태입니다. 처음 설정 시 WSL을 선택하지 않고 네이티브 Windows(PowerShell) 환경으로 시작하는 것이 현재로서는 더 안정적입니다. 다만 PowerShell 환경에서도 일부 패치 명령어 오류가 보고되고 있으므로, 복잡한 작업보다는 단순 반복 작업부터 시작하는 것이 좋습니다.
💡 Codex CLI를 아직 쓰고 있다면 — Codex 앱 대신 CLI(명령줄) 버전을 사용할 경우 지금의 앱 전용 버그 대부분을 우회할 수 있습니다. GitHub openai/codex 리포지토리에서 Apache-2.0 오픈소스로 제공됩니다. 커뮤니티 기여자 365명이 활동 중이며 하루 평균 1.8개 릴리스가 배포됩니다. (출처: morphllm.com, 2026.02.28)
자주 묻는 질문 5가지
마치며 — 기대가 클수록 버그의 충격도 크다
OpenAI Codex 앱의 Windows 출시는 “드디어 Mac 없이 최신 AI 코딩 도구를 쓸 수 있다”는 기대를 불러일으켰습니다. 하지만 출시 직후 현실은 WSL 치명 오류, 파일 대량 삭제, 크레딧 7배 과다소모로 가득 찼습니다. OpenAI가 빠르게 버그를 인지하고 대응하고 있는 것은 긍정적인 신호지만, 현재 시점에서 신중하게 접근해야 한다는 사실은 변하지 않습니다.
GPT-5.3-Codex의 성능 자체는 실제로 인상적입니다. Terminal-Bench 2.0 77.3%, OSWorld 64.7%는 터미널 중심의 개발 워크플로에서 의미 있는 수치입니다. 다만 그 성능이 Windows 앱 환경에서 온전히 발휘되려면 지금 존재하는 인프라 버그들이 먼저 해결돼야 합니다. CLI 버전으로 시작해 앱의 안정성이 검증된 후 전환하는 것이, 불필요한 데이터 손실과 크레딧 낭비를 막는 현실적인 선택입니다.
개인적으로, AI 코딩 도구는 ‘가장 성능이 좋은 것’을 찾는 게임이 아니라 자신의 워크플로에 맞는 도구를 고르는 게임입니다. Codex와 Claude Code는 경쟁 관계가 아니라 상호보완 관계에 가깝습니다. 둘의 차이를 이해하면 그게 더 분명해집니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 — Codex 앱 소개 (2026.02.02)
- OpenAI 공식 블로그 — GPT-5.3-Codex 소개 (2026.02)
- OpenAI 공식 블로그 — Codex App Server 아키텍처 (2026.02.04)
- OpenAI Status Page — Codex 사용량 과다소모 공식 인정 (2026.03.06)
- OpenAI 커뮤니티 — Windows Full Access 370GB 삭제 보고 (2026.03.06)
- morphllm.com — Codex vs Claude Code 비교 분석 (2026.02.28)
- GitHub openai/codex — apply_patch Windows 버그 이슈 #13965 (2026.03.08)
⚠️ 면책 조항: 본 포스팅은 2026년 3월 17일 기준 공개된 정보를 바탕으로 작성됐습니다. OpenAI Codex 앱의 서비스 정책·UI·기능·요금제는 업데이트로 인해 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 중요한 결정 전에는 반드시 OpenAI 공식 사이트에서 최신 내용을 확인하시기 바랍니다. 본 포스팅에 포함된 수치는 각 출처 표기 시점 기준이며, 이후 벤치마크 결과가 달라질 수 있습니다.


댓글 남기기