2026.03.06 공식 출시 기준
Research Preview
ChatGPT Pro·Enterprise·Business·Edu

Codex Security, 수치 3개로 직접 따져봤습니다

OpenAI가 2026년 3월 6일 Codex Security를 리서치 프리뷰로 공개했습니다. “1개월 무료”라는 문구가 퍼졌는데, 막상 접근 조건을 보면 생각보다 좁습니다. 노이즈 84% 감소, 오탐 50% 감소, 120만 커밋 스캔—이 세 숫자가 실제로 무엇을 의미하는지 공식 문서와 FAQ를 직접 열어서 정리했습니다.

Codex Security가 뭔지 30초 요약

Codex Security는 GitHub 리포지터리에 연결해서 취약점을 찾고, 샌드박스에서 재현하고, 패치 코드까지 제안하는 AI 보안 에이전트입니다. 기존 SAST(정적 분석 도구)처럼 패턴 매칭으로 돌아가는 게 아니라, GPT-5.3-Codex 기반 LLM이 코드 흐름 전체를 읽고 공격 경로를 직접 추론하는 방식입니다.

이전에는 “아드바크(Aardvark)”라는 이름으로 2025년 10월부터 소수 고객 대상으로 비공개 베타를 운영했고, 2026년 3월 6일 리서치 프리뷰로 전환했습니다. (출처: OpenAI 공식 블로그, 2026.03.06)

공식 문서에서 딱 이렇게 구분합니다. “보안 연구원처럼 동작하도록 설계됐다 — 코드를 읽고, 테스트를 실행하고, 현실적인 공격 경로를 탐색한다.” 단순 경고 리스트를 뱉는 스캐너와 애초에 지향점이 다릅니다.

▲ 목차로 돌아가기

수치 3개의 실제 맥락 — 생각보다 다릅니다

💡 공식 발표문과 베타 운영 이력을 같이 놓고 보니 이런 차이가 보였습니다

숫자 세 개가 각각 다른 기준점을 갖고 있어서, 한 화면에서 비교하면 오해가 생깁니다.

① 노이즈 84% 감소 — 기준이 “업계 표준”이 아닙니다

“같은 리포지터리를 시간 차를 두고 반복 스캔한 결과, 초기 배포 시점 대비 노이즈가 84% 줄었다”고 공식 블로그에 나옵니다. (출처: openai.com/index/codex-security-now-in-research-preview, 2026.03.06) 비교 대상이 경쟁 툴이 아니라 Codex Security 자기 자신의 초기 버전입니다. 84%라는 수치가 크게 보이는 이유가 여기 있습니다.

② 오탐률 50% 감소 — 여전히 진행형

“모든 리포지터리 기준 오탐률이 50% 이상 감소했다”는 수치도 공식 발표에 포함됩니다. 주목할 점은 이것이 현재 완료형이 아니라 “우리는 이 비율이 계속 개선될 것으로 기대한다(we expect to continue to improve)”고 OpenAI가 직접 표현했다는 점입니다. 50% 감소 후 남은 오탐이 얼마인지는 공식 문서에서 별도 수치를 밝히지 않았습니다.

③ 120만 커밋 스캔, 792개 크리티컬 — 0.1%의 진짜 의미

베타 기간 30일 동안 외부 리포지터리 120만 커밋을 스캔해서 크리티컬 취약점 792개, 하이 심각도 10,561개를 찾았습니다. (출처: The Hacker News, 2026.03.07) 크리티컬 발견 비율은 0.1% 미만입니다. OpenAI는 이 수치를 “적은 오탐의 증거”로 제시합니다. 뒤집으면, 커밋 1,000개 스캔해도 크리티컬 취약점은 평균 1개 미만이라는 뜻이기도 합니다. 처음 쓰면 결과가 “없음”처럼 느껴질 수 있습니다.

수치	비교 기준	의미
노이즈 84% 감소	자체 초기 버전 대비	경쟁 SAST 대비 수치 아님
오탐 50% 감소	베타 전체 리포지터리 평균	절대값 미공개, 지속 개선 중
크리티컬 비율 <0.1%	120만 커밋 대비	스캔 결과 “없음”처럼 보일 수 있음

▲ 목차로 돌아가기

“무료 1개월”인데, 누가 쓸 수 있나요?

💡 발표 문구와 실제 접근 조건을 나란히 놓으면 달라 보입니다

Pro만 구독 중인 개인 개발자는 쓸 수 있지만, Plus 구독자는 제외입니다.

공식 발표문 원문에는 “ChatGPT Pro, Enterprise, Business, Edu 고객에게 Codex 웹을 통해 1개월 무료 사용으로 리서치 프리뷰를 제공한다”고 나옵니다. (출처: openai.com/index/codex-security-now-in-research-preview, 2026.03.06) 개인 월 구독 기준으로 보면 Pro($200/월) 이상부터입니다.

ChatGPT Plus($20/월) 구독자는 명시적으로 포함되지 않습니다. ChatGPT Free 사용자도 마찬가지입니다. 1개월 무료라는 말이 퍼지면서 “그냥 써보면 되겠다”고 생각하기 쉬운데, 접근 자체가 Pro 이상 플랜에 묶여 있습니다.

GitHub 연동도 전제 조건입니다. 공식 Help Center에 따르면 현재 Codex Security는 GitHub Cloud 리포지터리에만 직접 연결됩니다. GitHub을 사용하지 않거나 GitHub Enterprise Server(온프레미스) 환경이라면 지금 당장은 쓸 수 없습니다.

오픈소스 메인테이너는 별도 프로그램으로 무료 접근이 가능합니다. OpenAI의 “Codex for OSS” 프로그램에 신청하면 ChatGPT Pro 또는 Plus 계정과 Codex Security 접근권을 지원받을 수 있습니다. vLLM 프로젝트가 이미 이 프로그램을 통해 취약점을 발견하고 패치했습니다. (출처: openai.com/index/codex-security-now-in-research-preview, 2026.03.06)

▲ 목차로 돌아가기

작동 방식 — 3단계 파이프라인 직접 보기

공식 Help Center(help.openai.com/en/articles/20001107-codex-security, 2026.03.07)에 나오는 작동 순서는 다음과 같습니다. 찾고 → 확인하고 → 패치 제안하는 3단계입니다.

1단계 식별

리포지터리를 역순으로 커밋 스캔하면서 위협 모델을 생성합니다. 진입점, 신뢰 경계, 민감 데이터 흐름을 파악합니다.

2단계 검증

격리된 샌드박스 컨테이너에서 취약점 재현을 시도합니다. 재현 성공 여부, 로그, PoC 아티팩트를 기록하고 검증 결과를 findings에 첨부합니다.

3단계 패치

근본 원인을 해결하는 최소 패치를 생성하고 PR 검토용으로 제출합니다. 코드에 자동 적용되지는 않습니다.

중요한 점은 초기 스캔 시간입니다. 공식 FAQ에서 “리포지터리 규모와 빌드 시간에 따라 초기 스캔은 몇 시간이 걸릴 수 있고, 대형 리포지터리는 며칠이 소요될 수 있다”고 명시했습니다. (출처: developers.openai.com/codex/security/faq) 실시간 보안 도구 이미지와 달리, 처음 연결 후 바로 결과를 보기 어렵습니다.

패치 검토 후에는 Codex Security가 재검증을 수행합니다. 수정된 코드가 실제로 취약점을 닫았는지 확인하는 루프가 닫히는 구조입니다. 공식 문서 표현으로는 “detection to remediation까지 loop를 닫는다”입니다.

▲ 목차로 돌아가기

공식 FAQ가 인정한 한계 두 가지

💡 “SAST를 대체한다”는 주장이 나오는데, OpenAI 공식 문서는 반대로 말합니다

FAQ 첫 번째 질문 “SAST를 대체합니까?” — 공식 답변: “No.”

한계 ① SAST·SCA·인프라 스캔을 대체하지 않습니다

developers.openai.com/codex/security/faq 에 “Codex Security는 SAST를 보완하며, 기존 SAST 툴은 결정적(deterministic) 광범위 커버리지를 여전히 담당한다”고 나옵니다. 소프트웨어 컴포지션 분석(SCA), 컨테이너 스캔, IaC(인프라 코드) 스캔, CI/CD 파이프라인 보안은 Codex Security 범위 밖입니다. AppSec 전문업체 Checkmarx 분석에서도 “리포지터리 수준 추론이 엔터프라이즈 애플리케이션 보안 프로그램 전체와 같지 않다”고 선을 그었습니다. (출처: LinkedIn Checkmarx 분석, 2026.03.18)

한계 ② 검증 실패 시 결과는 “미검증”으로 남습니다

샌드박스 자동 검증이 실패하면 해당 취약점 발견은 “unvalidated” 상태로 남습니다. 공식 FAQ 표현: “Finding remains unvalidated. Logs still capture what was attempted.” 즉, 잠재적 취약점이 있을 수 있지만 재현 실패로 증거가 없는 상태가 생깁니다. 이를 무시할 건지, 수동 검증을 할 건지는 사람이 판단해야 합니다.

Claude Opus 4.6 대상으로 Checkmarx Zero 팀이 진행한 별도 실험에서는 LLM 보안 검토가 8개 잠재 취약점을 제시했고, 실제 확인된 건 2개였습니다. (출처: Checkmarx LinkedIn 분석, 2026.03.18) Codex Security의 아키텍처가 더 정교하더라도, LLM 기반 보안 분석의 구조적 한계는 여전히 유효합니다.

▲ 목차로 돌아가기

Claude Code Security와 뭐가 다른가

Anthropic도 2026년 2월 Claude Code Security를 출시했습니다. 두 도구를 직접 비교한 Checkmarx 분석과 공개된 정보를 기준으로 정리하면, 핵심 접근 방식에서 차이가 있습니다.

항목	Codex Security	Claude Code Security
기반 모델	GPT-5.3-Codex	Claude Opus 4.6
접근 방식	위협 모델 생성 후 스캔	코드베이스 직접 스캔
샌드박스 검증	자동 재현 시도 포함	수동 검증 중심
플랜 조건	Pro($200/월) 이상	Claude Code 구독 필요
현재 상태	리서치 프리뷰	출시 (2026년 2월)

Codex Security가 위협 모델을 먼저 생성하고 그 위협 모델을 기반으로 스캔한다는 점은 차별화된 부분입니다. 같은 리포지터리를 반복 스캔할수록 정확도가 높아지는 구조라서, 한 번 쓰고 버리는 툴보다는 지속적으로 연결해서 운용하는 방식에 더 맞습니다.

두 도구 모두 Checkmarx 분석이 지적한 “런타임 익스플로잇 가능성, 공급망 리스크, 인프라 설정 오류”는 현재 직접 커버하지 않습니다. 각자 장점이 있지만, AppSec 전체 커버리지 측면에서는 보완 도구로 보는 편이 현실적입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Codex Security가 코드를 자동으로 고치나요?

자동 수정은 하지 않습니다. 패치 제안을 생성하고 PR로 올릴 수 있도록 준비해주는 방식입니다. 적용 여부는 사람이 검토 후 결정합니다. 공식 FAQ에서 “Does Codex Security auto-apply patches? No.”라고 명확히 답합니다. (출처: developers.openai.com/codex/security/faq)

Q2. 어떤 프로그래밍 언어를 지원하나요?

공식 FAQ에서는 “언어 비특정적(language-agnostic)”이라고 답합니다. 실제 성능은 해당 언어와 프레임워크에 대한 모델의 추론 능력에 따라 달라집니다. 특정 언어에서 성능 보장이 명시돼 있지는 않습니다. (출처: developers.openai.com/codex/security/faq)

Q3. 내 코드가 OpenAI 학습에 쓰이지 않나요?

분석은 임시(ephemeral) 격리 컨테이너에서 실행되고, 작업 완료 후 컨테이너가 삭제됩니다. 학습 데이터 사용 여부에 대해 Codex Security 문서에서 별도 이유를 밝히지 않았습니다. Enterprise·Business 고객은 OpenAI의 Enterprise 데이터 보호 약관이 적용됩니다.

Q4. 처음 스캔은 얼마나 걸리나요?

공식 FAQ 기준으로 “리포지터리 규모에 따라 수 시간, 대형 리포지터리는 며칠”이 걸릴 수 있습니다. 이후 증분(incremental) 스캔은 새 커밋에만 집중해서 빠릅니다. 처음 연결하고 바로 결과를 기대하면 기다림이 생깁니다. (출처: developers.openai.com/codex/security/faq)

Q5. 리서치 프리뷰 이후 유료 전환 시 가격은 어떻게 되나요?

1개월 무료 이후 요금 체계에 대해 OpenAI가 공식 답변을 내놓지 않은 부분입니다. 리서치 프리뷰 단계에서는 별도 가격 정책이 공개되지 않았습니다. 무료 기간 종료 전에 공식 발표를 확인하는 게 좋습니다.

▲ 목차로 돌아가기

마치며

Codex Security는 “취약점을 찾으면 패치까지 제안”하는 방향성 자체는 맞습니다. 베타 기간에 GnuTLS, GnuPG, GOGS에서 실제 CVE를 발굴했다는 점도 인상적입니다. 그런데 솔직히 말하면, 지금 단계에서는 “써보세요” 권유보다 “조건 먼저 확인하세요”가 더 정직한 말입니다.

Pro 이상 플랜, GitHub Cloud 전제, 초기 스캔 며칠 대기, 미검증 findings 판단 부담—이걸 다 수용할 수 있는 환경이라면 1개월 무료 기간 동안 실제로 써볼 가치가 있습니다. SAST를 이미 쓰고 있는 팀이라면 대체보다는 레이어 추가로 접근하는 게 공식 입장에도 맞습니다.

리서치 프리뷰라는 단어를 가볍게 보면 안 됩니다. OpenAI 스스로도 “신호 대 잡음비는 계속 개선 중”이라고 했습니다. 지금 보이는 수치는 완성형이 아니라 진행형입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

OpenAI 공식 블로그 — Codex Security: now in research preview (2026.03.06)
https://openai.com/index/codex-security-now-in-research-preview/
OpenAI Developers — Codex Security FAQ
https://developers.openai.com/codex/security/faq/
OpenAI Help Center — Codex Security (2026.03.07)
https://help.openai.com/en/articles/20001107-codex-security
The Hacker News — OpenAI Codex Security Scanned 1.2 Million Commits (2026.03.07)
https://thehackernews.com/2026/03/openai-codex-security-scanned-12.html
Checkmarx / LinkedIn — What the OpenAI Codex Security and Claude Code Announcements Mean (2026.03.18)
https://www.linkedin.com/pulse/what-openai-codex-security-claude-code-announcements-mean-future-ecope

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. Codex Security는 리서치 프리뷰 단계로, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 최신 정보는 openai.com 공식 페이지에서 확인하시기 바랍니다.

Codex Security, 수치 3개로 직접 따져봤습니다

Codex Security가 뭔지 30초 요약