OpenAI Research Preview
ChatGPT Pro·Enterprise·Edu
Codex Security, 취약점 찾는다는 말이
절반만 맞습니다
OpenAI가 2026년 3월 6일 Codex Security 리서치 프리뷰를 공개했습니다. 30일 동안 120만 커밋을 스캔해 Critical 취약점 792건을 발견했다는 숫자가 화제인데, 막상 공식 발표문을 뜯어보면 그 수치가 의미하는 바는 홍보 문구와 꽤 다릅니다. Pro·Enterprise 플랜 한 달 무료 사용이 가능한 지금, 실제로 뭘 할 수 있고 어디서 막히는지 정리했습니다.
Codex Security가 뭔지 30초 요약
Codex Security는 OpenAI가 2026년 3월 6일 리서치 프리뷰로 공개한 AI 기반 애플리케이션 보안 에이전트입니다. 이전에 ‘Aardvark’라는 이름으로 2025년 10월부터 비공개 베타를 진행하다가 이번에 처음으로 일반 고객에게 문을 열었습니다. (출처: OpenAI 공식 발표, 2026.03.06)
작동 방식은 세 단계입니다. ① 연결된 GitHub 리포지토리를 분석해 프로젝트 구조와 위협 모델을 자동으로 생성하고, ② 해당 위협 모델을 바탕으로 취약점을 탐색·분류한 뒤 샌드박스 환경에서 검증하고, ③ 코드 맥락에 맞는 패치 후보를 제시합니다. 기존 SAST 도구가 패턴 매칭에 의존하는 것과 달리, Codex Security는 GPT-5.3-Codex 기반 프론티어 모델의 추론 능력을 활용해 프로젝트 고유 맥락 안에서 취약점을 평가합니다.
현재 ChatGPT Pro, Enterprise, Business, Edu 플랜 사용자는 Codex Web을 통해 리서치 프리뷰를 무료로 이용할 수 있습니다. 출시 후 1개월간 무료이며, 이후 요금 구조는 OpenAI가 아직 공개하지 않은 상태입니다. (출처: OpenAI 공식 발표문, 2026.03.06)
792건이라는 숫자, 실제로 계산해봤습니다
💡 공식 발표문의 수치를 같이 놓고 계산해보니 이런 차이가 보였습니다.
OpenAI 공식 발표문에 따르면, Codex Security는 베타 기간 30일 동안 외부 리포지토리 120만 개 이상의 커밋을 스캔해 Critical 취약점 792건, High-severity 취약점 10,561건을 발견했습니다. (출처: OpenAI, 2026.03.06)
이 수치를 그대로 보면 “AI가 대량의 취약점을 잡아낸다”로 읽힙니다. 그런데 공식 발표문 다음 줄에 이런 문장이 조용히 들어가 있습니다. “Critical issues appeared in under 0.1% of scanned commits.” 직접 계산하면 이렇습니다.
📐 공식 수치 역산
· 전체 스캔 커밋: 1,200,000건
· Critical 취약점 발견 커밋 비율: 0.1% 미만
· 즉 Critical 취약점이 포함된 커밋: 최대 1,200건 중 792건 발견
→ 커밋 1,000건 중 Critical은 평균 0.66건 수준
커밋 1,000건 중 Critical은 채 1건도 안 됩니다. 이 수치가 의미하는 건 하나입니다. 기존 SAST 도구가 “지나치게 많이 울리는” 문제를 Codex Security가 어느 정도 해결하긴 했지만, 동시에 실제 코드베이스에서 Critical 취약점의 절대 밀도가 낮다는 사실을 그대로 보여주는 수치이기도 합니다. 잡아내는 건 맞지만 기대하는 만큼 자주는 아닙니다.
반면 High-severity는 10,561건으로 Critical 대비 약 13배 많습니다. 실제 보안 팀이 집중해야 할 영역은 Critical보다 High 범주라는 점을 먼저 인지하고 도입을 검토하는 게 맞습니다.
84% 노이즈 감소, 처음부터 그랬던 게 아닙니다
💡 OpenAI 발표문과 베타 일정을 같이 놓고 보니 “84%”가 초기 성능이 아니라는 게 보였습니다.
OpenAI는 발표문에서 “scans on the same repositories over time show increasing precision, in one case cutting noise by 84% since initial rollout”이라고 적었습니다. (출처: OpenAI, 2026.03.06) 솔직히 말하면, 이 문장은 84%가 현재 평균 성능이 아니라 특정 리포지토리 하나에서 베타 시작 시점 대비 최종 상태를 비교한 수치입니다.
Aardvark 비공개 베타가 시작된 건 2025년 10월입니다. 즉, 이 84%는 약 5개월에 걸친 점진적 개선의 누적 결과입니다. 처음 리포지토리를 연결했을 때 바로 이 수치가 나오지는 않습니다. 오히려 초기엔 오탐이 많이 나오고, 팀의 피드백을 시스템이 학습하면서 정확도가 올라가는 구조입니다.
오탐률 전체 평균 50% 감소라는 수치는 모든 리포지토리를 합산한 수치이고, severity 과대보고 비율은 90% 이상 줄었다고 밝혔습니다. 이 수치들은 고무적이지만, 신규 도입 팀이 빠르게 이 수준에 도달하려면 Threat Model을 계속 수동 편집해줘야 한다는 점이 실사용 상 병목입니다. (출처: OpenAI Codex Security 공식 문서)
GitHub Advanced Security·Snyk과 뭐가 다른가
기존 보안 도구들과 Codex Security를 구분하는 핵심 차이는 맥락 기반 검증(context-aware validation)과 샌드박스 검증 두 가지입니다. 아래 표는 공식 자료와 Endor Labs의 2026년 비교 분석을 교차해 정리했습니다.
| 항목 | Codex Security | GitHub Advanced Security | Snyk |
|---|---|---|---|
| 탐지 방식 | AI 추론 + 샌드박스 검증 | CodeQL (정적 분석) | SCA + 패턴 매칭 |
| 프로젝트 맥락 | 프로젝트별 위협 모델 자동 생성 | 없음 (일반 룰셋) | 제한적 |
| 자동 패치 | 코드 맥락 맞춤 패치 제안 | Dependabot (의존성만) | Fix PR 자동 생성 |
| 오탐 제어 | 학습형 (피드백 반영) | 수동 튜닝 필요 | 보통 |
| 지원 SCM | GitHub만 지원 | GitHub만 지원 | GitHub·GitLab 등 |
| 가격 (참고) | 1개월 무료 후 미정 | $49/user/월 | $25/dev/월~ |
(출처: Endor Labs 비교 분석 2026, OpenAI 공식 문서, GitHub·Snyk 공식 가격 페이지)
가장 결정적인 차이는 Codex Security가 취약점을 발견한 뒤 실제 시스템 환경에서 직접 검증(proof-of-concept 생성)까지 한다는 점입니다. 기존 도구들은 코드를 읽고 패턴에 맞으면 알림을 보내지만, Codex Security는 그 취약점이 현재 실행 환경에서 실제로 작동하는지를 확인합니다. 이게 오탐률을 50% 이상 낮춘 핵심 메커니즘입니다.
실제로 쓰려면 이 조건부터 확인해야 합니다
도입 전에 확인해야 할 현실적인 제약들이 있습니다. 발표문에 잘 드러나지 않는 부분들입니다.
⚠️ 도입 전 체크리스트
- GitHub 리포지토리 필수: 현재 지원 SCM이 GitHub 전용입니다. GitLab·Bitbucket 사용 팀은 이용 불가. (출처: OpenAI 공식 문서)
- ChatGPT Pro 이상 플랜: 무료 플랜 사용자는 접근 불가합니다. 팀·개인 단위 Pro 계정으로만 가능.
- 초기 Threat Model 수동 편집: 자동 생성된 위협 모델이 프로젝트를 완벽하게 반영하지 못하는 경우가 많습니다. 초기 설정에 시간이 필요하고, 팀이 직접 조정해줘야 정확도가 올라갑니다.
- 이후 요금 미공개: 무료 기간 종료 후 가격 구조를 OpenAI가 공식 답변을 내놓지 않은 상태입니다. 장기 도입 전 이 점을 반드시 고려해야 합니다.
- 오픈소스 한정 확장: 오픈소스 메인테이너용 무료 ‘Codex for OSS’ 프로그램이 별도 운영 중이나, 참여는 신청 후 초대 방식으로 현재 제한적입니다.
써본 사람들의 공통 피드백은 “초기 스캔 결과보다 Threat Model을 정교하게 다듬은 후 스캔 결과가 훨씬 쓸 만해진다”는 것입니다. 처음 연결하고 바로 나오는 리포트를 100% 신뢰하면 기대와 다를 수 있습니다.
Claude Code Security와의 경쟁, 놓치기 쉬운 맥락
💡 두 도구의 공개 시점을 타임라인으로 놓고 보니 이런 흐름이 보였습니다.
The Hacker News 보도에 따르면, OpenAI의 Codex Security 발표는 Anthropic이 Claude Code Security를 공개한 지 불과 2주 후에 이뤄졌습니다. (출처: The Hacker News, 2026.03.07) 같은 시기에 두 AI 회사가 나란히 ‘코드 보안 에이전트’를 내놓은 건 우연이 아닙니다.
이 타이밍에서 주목할 지점은 방향성의 차이입니다. Codex Security는 기존 ChatGPT 구독 생태계 안에서 DevSecOps 워크플로를 통합하는 방향입니다. 반면 Claude Code Security는 Claude Code(터미널 기반 CLI) 환경에 최적화된 보안 검토 기능으로 출발했습니다. 같은 “AI 코드 보안”이지만 진입 경로와 대상 사용자층이 다릅니다.
결국 이 두 서비스의 경쟁은 단순한 기능 비교가 아닙니다. 개발 팀이 주로 어떤 AI 코딩 환경에 이미 정착해 있느냐에 따라 선택지가 자연스럽게 나뉩니다. ChatGPT Enterprise를 이미 도입한 팀이라면 Codex Security가 추가 세팅 없이 가장 빨리 붙습니다. Claude Code를 쓰는 팀이라면 Claude Code Security 쪽이 맥락 연속성 면에서 유리합니다.
솔직히 말하면, 지금 당장 두 서비스 모두 리서치 프리뷰 단계입니다. 한 달 무료 기간에 실제 리포지토리를 연결해보고 팀의 피드백을 모으는 것이 가장 현실적인 접근입니다.
Q&A
마치며
Codex Security는 분명히 기존 SAST 도구들이 해결하지 못했던 오탐 문제에 제대로 도전하고 있습니다. 샌드박스에서 직접 검증하고 코드 맥락에 맞는 패치를 제안하는 방식은 실무에서 의미 있는 차이를 만들 수 있습니다.
다만 발표 수치를 그대로 받아들이기 전에 한 번쯤 뒤집어 보는 게 맞습니다. 792건의 Critical 발견이라는 숫자는 인상적이지만, 커밋 1,000건당 1건 미만이라는 밀도를 같이 봐야 실제 기대치를 제대로 설정할 수 있습니다. 84% 노이즈 감소도 5개월 베타 이후 최고 사례이지, 처음 붙이는 순간 얻는 성능이 아닙니다.
한 달 무료 기간 안에 실제 리포지토리를 연결해보고, Threat Model을 한두 차례 수동으로 다듬어본 뒤 팀 내 오탐률이 얼마나 줄었는지 직접 측정해보는 게 가장 정직한 평가 방법입니다.
📚 본 포스팅 참고 자료
- OpenAI 공식 발표문 — Codex Security: now in research preview (2026.03.06) · openai.com
- OpenAI Codex Security 공식 개발자 문서 · developers.openai.com
- The Hacker News — OpenAI Codex Security Scanned 1.2 Million Commits (2026.03.07) · thehackernews.com
- Endor Labs — 8 Best Application Security Tools for the AI Era (2026) · endorlabs.com
- Help Net Security — OpenAI joins the race in AI-assisted code security (2026.03.09) · helpnetsecurity.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 OpenAI 공식 발표문 기준(2026.03.06)이며, 이후 업데이트로 달라질 수 있습니다. 요금 구조 등 미확정 사항은 OpenAI 공식 채널을 통해 직접 확인하시기 바랍니다.


댓글 남기기