Research Preview
GPT-5.3-Codex 기반
Codex Security, SAST 믿었다가 이 부분에서 막힙니다
OpenAI가 2026년 3월 6일 공개한 Codex Security — 기존 SAST 도구와 뭐가 다른지, 실제로 어디까지 잡는지, 그리고 Claude Code Security와는 어떻게 갈리는지 공식 자료와 수치로 직접 확인했습니다.
Codex Security가 뭔지, 결론부터
OpenAI가 2026년 3월 6일 공식 출시한 Codex Security는 코드베이스를 직접 읽고 보안 취약점을 찾아 패치까지 제안하는 AI 에이전트입니다. 정식 명칭 이전엔 Aardvark라는 코드명으로 2025년 10월부터 비공개 베타를 진행했고, 이번에 ChatGPT Pro·Enterprise·Business·Edu 사용자 대상 리서치 프리뷰로 공개됐습니다. 출시 후 한 달간은 무료로 사용할 수 있습니다.
기존 보안 스캐너와 가장 큰 차이는 작동 방식의 출발점입니다. 기존 SAST(정적 분석 도구)가 코드에서 위험 패턴을 찾는 방식이라면, Codex Security는 저장소 전체를 먼저 읽어 “이 시스템이 무엇을 신뢰하는지, 어디가 노출되는지”를 파악하는 위협 모델을 먼저 만듭니다. 그 위협 모델을 기반으로 취약점을 탐색하고, 유망한 후보는 샌드박스 환경에서 실제로 실행해 오탐 여부를 검증합니다.
동작은 세 단계로 나뉩니다. 저장소 구조 분석 및 위협 모델 생성 → 위협 모델 기반 취약점 탐색 및 실제 임팩트 기준 분류 → 시스템 의도에 맞는 패치 제안. 패치는 자동 적용되지 않으며, 사람이 검토 후 직접 반영합니다.
SAST는 왜 이 취약점을 못 잡나
SAST가 잡는 취약점의 구조는 단순합니다. 외부 입력(소스)이 위험한 함수(싱크)에 도달하는 경로를 추적하고, 중간에 검증 로직이 없으면 플래그를 세웁니다. SQL 인젝션, XSS, 경로 순회 같은 고전적 취약점이 여기 해당됩니다. 대규모 코드베이스에서 일관된 기준으로 빠르게 스캔할 수 있다는 점은 분명한 강점입니다.
💡 공식 발표문과 실제 취약점 사례를 같이 놓고 보니 이런 패턴이 보였습니다 — SAST가 감지에 실패하는 취약점은 데이터 흐름이 아닌 시스템 상태와 인가 논리의 문제였습니다.
OpenAI 공식 블로그에는 이 한계를 보여주는 사례가 구체적으로 나옵니다. 웹 애플리케이션이 JSON에서 redirect_url을 추출해 정규식 허용 목록으로 검증한 뒤, URL 디코딩을 거쳐 리다이렉트 핸들러로 전달하는 흐름이 있다고 가정합니다. SAST 입장에서 이 흐름은 깨끗합니다 — 소스에서 싱크로 가는 경로에 검증이 있으니까요. 하지만 실제 문제는 정규식이 디코딩 전에 실행된다는 것입니다. 디코딩 후 URL이 어떻게 해석되는지까지는 정적 분석만으론 판단할 수 없습니다. 이 정확한 패턴이 Express.js에서 CVE-2024-29041로 실제 확인됐습니다.
Codex Security가 SAST 리포트를 시작점으로 삼지 않는 이유도 여기 있습니다. 공식 블로그에서 OpenAI는 세 가지 문제를 꼽습니다. 첫째, 사전 필터링이 탐색 범위를 기존 도구의 시각으로 제한합니다. 둘째, SAST 결과에 내재된 가정(이 함수는 검증한다)이 에이전트의 판단을 오염시킵니다. 셋째, 무엇이 SAST의 발견이고 무엇이 에이전트 자체의 발견인지 구분할 수 없어 시스템 개선이 어렵습니다. (출처: OpenAI 공식 블로그 “Why Codex Security doesn’t include SAST”, 2026.03.16)
실제로 Codex Security는 z3-solver를 사용한 정수 오버플로우 검증, 마이크로 퍼저 생성, 샌드박스 PoC 실행 등 정적 분석이 수행할 수 없는 방식을 복합적으로 사용합니다.
AI 코딩 도구가 보안 구멍을 만드는 아이러니
⚠️ AI 코딩 에이전트가 보안 취약점을 줄이는 게 아니라 만드는 쪽에 가깝다는 연구 결과가 나왔습니다.
DryRun Security가 2026년 3월 발표한 연구에서는 Claude Code(Sonnet 4.6), OpenAI Codex(GPT-5.2), Google Gemini(2.5 Pro) 세 에이전트에게 실제 제품 스펙으로 두 개의 애플리케이션을 처음부터 개발하게 했습니다. 보안 지침은 프롬프트에 전혀 포함하지 않았고, 각 PR마다 DryRun의 코드 리뷰 에이전트가 즉시 스캔했습니다.
결과는 충격적입니다. 30개 PR 중 26개에서 보안 취약점이 발견됐습니다. PR 기준 87%에 취약점이 포함된 것입니다. (출처: DryRun Security, 2026.03 / HelpNetSecurity 보도, 2026.03.13) 총 143개의 보안 이슈가 발견됐고, 접근 제어 오류가 세 에이전트 모두에서 가장 일관되게 나타났습니다.
더 흥미로운 부분은 패턴의 일관성입니다. WebSocket 인증 누락이 세 에이전트의 최종 코드베이스 전부에 있었습니다. 이유는 같습니다 — REST 인증 미들웨어는 올바르게 구현했지만, 그것을 WebSocket 업그레이드 핸들러에 연결하지 않았습니다. 레이트 리미팅도 마찬가지입니다. 모든 에이전트가 미들웨어를 정의는 했지만, 실제 애플리케이션에 연결하지 않았습니다. 코드 자체는 존재하지만 실제로 작동하지 않는 구조입니다.
💡 DryRun 보고서와 Codex Security 공식 발표를 교차해서 보니 이게 보였습니다 — SAST 계열 도구가 가장 약한 클래스(로직·인가 오류)가 정확히 AI 코딩 에이전트가 가장 많이 만드는 클래스입니다. Codex Security가 노리는 지점이 바로 거기입니다.
이 연구에서 Codex(GPT-5.2 기반)는 최종 스캔에서 가장 적은 잔여 취약점을 기록했지만, Claude Code는 PR 1에서 발생한 인증되지 않은 파괴적 엔드포인트를 프로젝트 끝까지 가져갔습니다. 에이전트별로 강점이 다르다는 것이고, 어떤 에이전트도 보안을 기본으로 보장하지 않는다는 뜻입니다.
실제 스캔 수치, 직접 해석해봤습니다
OpenAI 공식 발표에 따르면 베타 기간 30일 동안 외부 저장소에서 120만 개 이상의 커밋을 스캔해 792개의 치명적 발견, 10,561개의 고심각도 발견을 확인했습니다. (출처: openai.com/index/codex-security-now-in-research-preview/, 2026.03.06)
| 지표 | 수치 | 의미 |
|---|---|---|
| 스캔 커밋 수 | 120만+ | 대규모 저장소 실전 투입 수준 |
| 치명적 발견(Critical) | 792개 | 전체 스캔 커밋의 0.1% 미만에서 발견 |
| 고심각도 발견(High) | 10,561개 | 패치 가능한 형태로 제안 제공 |
| 노이즈 감소율 | 84% | 동일 레포 반복 스캔 시, 베타 기준 |
| 과보고 심각도 감소 | 90%+ | 심각도 부풀리기 문제 대폭 개선 |
| 오탐(False Positive) 감소 | 50%+ | 전체 저장소 평균 기준 |
치명적 발견이 전체 스캔 커밋의 0.1% 미만에서만 나왔다는 점이 핵심입니다. 수백만 줄의 코드를 훑어도 진짜 위험한 것만 골라낸다는 의미입니다. 보안팀이 하루에 처리할 수 있는 알림 수가 한정돼 있다는 점을 생각하면, 노이즈 84% 감소가 단순한 정확도 수치가 아니라 팀 생산성 문제임을 알 수 있습니다.
실제로 발견된 CVE 목록을 보면 OpenSSH, GnuTLS, Chromium, PHP, GOGS 등 전문 보안 팀이 수년간 관리하던 오픈소스 프로젝트들입니다. GnuPG에서는 CVE-2026-24881(gpg-agent 스택 버퍼 오버플로우)와 CVE-2026-24882(TPM2 PKDECRYPT 스택 기반 버퍼 오버플로우)가 발견됐습니다. 전문가들이 오랫동안 관리한 코드에서 나온 취약점이라는 점이 의미 있습니다.
단, 이 수치는 큐레이션된 저장소 대상 베타 데이터입니다. 실제 기업 코드베이스에 적용했을 때 동일한 성능이 나온다는 보장은 없으며, OpenAI도 이 부분의 공식 답변을 내놓지 않았습니다.
Claude Code Security vs. Codex Security — 무엇이 다른가
Anthropic의 Claude Code Security(2026.02.20 출시)와 OpenAI의 Codex Security(2026.03.06 출시)는 불과 2주 차이로 등장했습니다. 둘 다 AI 기반이고, 둘 다 패치를 자동 적용하지 않으며, 둘 다 기존 SAST를 넘어선다고 주장합니다. 하지만 작동 방식은 구조적으로 다릅니다.
💡 공식 발표문과 두 도구의 아키텍처를 나란히 놓고 보니 이런 차이가 보였습니다 — 검증 방식이 다르고, 그 차이가 어떤 취약점을 더 잘 잡는지 결정합니다.
Claude Code Security는 Claude Opus 4.6을 기반으로 파일 간 데이터 흐름을 추적해 다중 컴포넌트 취약점 그래프를 구성합니다. 후보 결과물은 모델이 자기 자신의 추론에 반박을 시도하는 적대적 자기 검증 과정을 거칩니다. 결과물에는 심각도와 함께 발견별 신뢰 점수가 포함됩니다.
Codex Security는 저장소 전체 컨텍스트를 먼저 구성한 뒤 고신호 후보를 격리 환경에서 실제로 PoC 익스플로잇으로 실행해 검증합니다. “이게 취약점일 수 있다”가 아니라 “이게 실제로 실패한다, 그 증거가 여기 있다”를 지향합니다.
| 항목 | Claude Code Security | Codex Security |
|---|---|---|
| 출시일 | 2026.02.20 | 2026.03.06 |
| 기반 모델 | Claude Opus 4.6 | GPT-5.3-Codex |
| 검증 방식 | 적대적 자기 추론 재검토 | 샌드박스 PoC 실행 |
| 오탐 지표 공개 | 미공개 (신뢰 점수 제공) | 50% 감소 (베타 수치) |
| 이용 가능 플랜 | Enterprise·Team | Pro·Enterprise·Business·Edu |
| 강점 취약점 유형 | 복합 파일 로직, 역직렬화 체인 | 익스플로잇 가능성 증명 필요 시 |
중요한 사실 하나 — Claude Code 자체에도 CVE가 있습니다. CVE-2025-59536(CVSS 8.7, 신뢰할 수 없는 디렉터리 초기화를 통한 코드 인젝션)과 CVE-2026-21852(CVSS 5.3, 악성 저장소를 통한 API 키 유출)가 공개됐고, 둘 다 패치됐습니다. 보안을 검사하는 도구 자체도 공격 대상이 된다는 점을 실제 CVE로 확인할 수 있습니다.
두 도구 모두 GA(정식 출시) 이후 가격을 공개하지 않았습니다. 지금 시점에서 어느 쪽이 더 비쌀지는 이유가 아직 공개되지 않았습니다. 조달 계획에는 이 불확실성을 반드시 반영해야 합니다.
지금 쓸 수 있는 조건과 실제 한계
Codex Security는 현재 ChatGPT Pro, Enterprise, Business, Edu 구독자가 Codex 웹에서 접근할 수 있습니다. 출시 후 한 달간은 무료이며, 이 기간이 지나면 가격이 별도로 공지됩니다. 접근 방법과 스캔 설정은 공식 문서(developers.openai.com/codex/security)에 정리돼 있습니다. Enterprise·Business·Edu 계정은 출시 후 며칠 내로 순차 적용된다고 OpenAI가 밝혔습니다.
오픈소스 프로젝트 유지관리자를 위한 별도 프로그램 Codex for OSS도 있습니다. ChatGPT Pro·Plus 계정과 Codex Security 무료 이용권을 제공하며, vLLM이 이미 이 프로그램을 통해 취약점을 찾아 패치했습니다. 참여를 원하면 OpenAI 공식 사이트에서 신청 가능합니다.
솔직하게 한계도 짚어야 합니다. 첫째, 베타 수치(84% 노이즈 감소)는 OpenAI가 직접 큐레이션한 저장소 기준입니다. 내부 레거시 코드나 비표준 프레임워크에서의 성능은 별도 검증이 필요합니다. 둘째, 한국어 코드 주석이나 문서에 대한 최적화 여부는 OpenAI가 공식적으로 밝히지 않았습니다. 셋째, 위협 모델 생성 단계에서 프로젝트 컨텍스트를 얼마나 잘 전달하느냐에 따라 결과 품질이 크게 달라질 수 있습니다.
DryRun 보고서가 제시한 실용적 권고도 참고할 만합니다. 최종 빌드만이 아니라 PR마다 스캔을 실행하고, 코딩 단계가 아닌 설계 단계부터 보안을 검토하며, 하나의 도구가 아닌 PR 스캔과 전체 코드베이스 스캔을 병행하는 방식을 제안합니다. 반복적으로 나타난 취약점 패턴 — JWT 기본값 문제, 레이트 리미팅 미연결, 비폐기 갱신 토큰 — 은 어떤 에이전트를 쓰든 별도로 체크리스트를 만들어 관리하는 것이 현실적입니다.
Q&A 5선
Q1. Codex Security가 SAST를 완전히 대체할 수 있나요?
OpenAI 공식 입장은 대체가 아니라 보완입니다. SAST는 알려진 패턴을 빠르게 대규모로 잡는 데 강하고, Codex Security는 SAST가 놓치는 컨텍스트 의존적 취약점과 로직 오류에 집중합니다. 두 도구를 병행하는 것이 현실적인 방어 심층화 전략입니다.
Q2. 무료 체험 기간이 끝나면 가격이 얼마인가요?
2026년 3월 25일 기준으로 GA 이후 가격은 공개되지 않았습니다. OpenAI가 별도 공지할 예정이며, Claude Code Security와 마찬가지로 정식 출시 전까지는 예산 계획을 확정하기 어렵습니다.
Q3. AI 코딩 에이전트를 이미 쓰고 있는데 Codex Security가 필요한가요?
DryRun Security 연구에서 Claude Code, Codex, Gemini 세 에이전트 모두 PR의 87%에 취약점을 포함시켰습니다. AI 코딩 도구를 쓸수록 오히려 AI 보안 스캔의 필요성이 높아집니다. 에이전트가 많이 생성하는 취약점 유형(WebSocket 인증 누락, 레이트 리미팅 미연결, JWT 기본값)이 SAST로는 잡기 어려운 로직 오류 계열이기 때문입니다.
Q4. Codex Security가 발견한 취약점을 자동으로 고쳐주나요?
자동 적용은 하지 않습니다. 패치 제안을 생성하고, 사람이 검토한 뒤 직접 반영하는 구조입니다. Claude Code Security도 동일합니다. 두 도구 모두 현재 단계에서는 사람이 루프에 반드시 포함되도록 설계돼 있습니다.
Q5. 오픈소스 프로젝트에서도 쓸 수 있나요?
네, Codex for OSS 프로그램을 통해 오픈소스 유지관리자에게 무료로 제공됩니다. vLLM이 이미 이 프로그램으로 취약점을 패치했습니다. OpenAI 공식 사이트의 신청 폼을 통해 접수할 수 있으며, 앞으로 수용 규모를 늘릴 계획이라고 밝혔습니다.
마치며
Codex Security를 보면서 가장 아이러니하게 느껴진 지점은 이겁니다 — AI 코딩 도구가 만들어낸 문제를 AI 보안 도구로 해결해야 하는 구조가 됐습니다. DryRun 연구에서 나온 87%라는 수치는 에이전트를 못 믿어서라기보다, 에이전트가 보안을 기본 조건으로 탑재하고 있지 않다는 현실을 반영합니다.
SAST는 사라지지 않습니다. 알려진 패턴을 빠르고 일관되게 잡는 역할이 있고, 그 역할은 계속 유효합니다. 다만 AI가 만들어내는 코드에서 가장 많이 발생하는 취약점 유형이 정확히 SAST가 가장 못 잡는 유형이라는 게 지금 상황의 본질입니다. Codex Security와 Claude Code Security가 각자 다른 방식으로 그 빈틈을 채우려 하고 있고, 어느 쪽이 실제 기업 환경에서 더 유효한지는 베타 데이터만으론 아직 판단하기 어렵습니다.
당장 사용 조건이 된다면 리서치 프리뷰 기간에 한 달 무료로 실제 저장소에 돌려보는 게 맞습니다. 추상적인 벤치마크보다 자신의 코드베이스에서 나온 결과가 가장 직접적인 근거입니다.
본 포스팅 참고 자료
- OpenAI 공식 발표 — Codex Security: now in research preview (2026.03.06)
https://openai.com/index/codex-security-now-in-research-preview/ - OpenAI 공식 블로그 — Why Codex Security doesn’t include SAST (2026.03.16)
https://openai.com/index/why-codex-security-doesnt-include-sast/ - HelpNetSecurity — AI coding agents introduce vulnerabilities in 87% of PRs (2026.03.13)
https://www.helpnetsecurity.com/2026/03/13/ - The Hacker News — OpenAI Codex Security Scanned 1.2 Million Commits (2026.03.07)
https://thehackernews.com/2026/03/openai-codex-security-scanned-12.html - TheCyberthrone — Claude Code Security vs. OpenAI Codex Security (2026.03.08)
https://thecyberthrone.in/2026/03/08/ - Codex Security 공식 문서
https://developers.openai.com/codex/security
본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Codex Security는 현재 리서치 프리뷰 단계이며, 정식 출시 시 가격·기능·가용 플랜이 달라질 수 있습니다. 공식 문서(developers.openai.com/codex/security)에서 최신 정보를 직접 확인하시기 바랍니다.











댓글 남기기