GPT-5.3-Codex 기반
Research Preview
Codex Security, 직접 써봤습니다 — 되는 것과 안 되는 것
2026년 3월 6일, OpenAI가 Codex Security를 리서치 프리뷰로 공개했습니다. 30일 동안 120만 개 커밋을 스캔해서 792개의 치명적 취약점을 발견했다는 수치, 인상적이죠. 그런데 같은 Codex로 작성한 코드의 87%에서 취약점이 나왔다는 연구 결과도 있습니다. 이 두 숫자를 같이 놓고 봐야 이 도구가 어디까지 쓸 만한지 보입니다.
Codex Security가 뭔지 30초 요약
OpenAI가 2026년 3월 6일 공개한 Codex Security는 깃허브 저장소를 연결해 놓으면 커밋 단위로 취약점을 자동으로 찾고, 샌드박스에서 검증하고, 패치까지 제안해 주는 에이전트형 보안 도구입니다. 기존 Aardvark 프로젝트(2025년 10월 비공개 베타)에서 발전한 버전이고, 현재는 ChatGPT Pro·Enterprise·Business·Edu 고객 대상으로 한 달간 무료로 제공됩니다. (출처: OpenAI 공식 블로그, 2026.03.06)
기존 SAST(정적 분석) 도구가 패턴 매칭으로 알려진 취약점을 찾는 방식이라면, Codex Security는 저장소 전체를 읽어서 이 시스템이 뭘 하는 곳이고 어디가 공격면인지 모델을 먼저 만들고 그 맥락 위에서 탐색합니다. 단순히 위험 함수 호출 여부를 보는 게 아니라, 인증 로직이 WebSocket 핸들러에 연결됐는지까지 추적하는 방식이죠.
결론부터 말씀드리면, 수치 자체는 인상적입니다. 그런데 이 수치가 나오기까지의 과정을 보면 생각보다 복잡한 조건이 붙습니다.
3단계 작동 방식 — 직접 따라할 수 있는 구조로
공식 문서에 딱 이렇게 나옵니다. Codex Security의 스캔은 세 단계로 구성됩니다. (출처: OpenAI developers.openai.com/codex/security, 2026.03)
위협 모델 생성
저장소를 분석해서 “이 시스템이 무엇을 신뢰하고 어디가 가장 취약한가”를 담은 프로젝트별 위협 모델을 생성합니다. 이 모델은 수동으로 편집할 수 있어서 팀의 실제 아키텍처와 맞게 조정할 수 있습니다.
취약점 탐색 및 샌드박스 검증
위협 모델을 기반으로 취약점을 탐색하고, 발견한 이슈를 격리된 샌드박스 환경에서 직접 실행해 봅니다. 실제로 재현되는지 확인하는 과정이고, 이 단계 덕분에 오탐률이 줄어듭니다.
패치 제안
시스템 동작과 맞는 수정안을 제안합니다. 단순히 취약한 코드만 교체하는 게 아니라 주변 로직과의 일관성을 유지하도록 설계되어, 패치가 새로운 버그를 만들 가능성을 낮춥니다.
💡 공식 발표문과 실제 설정 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 위협 모델은 AI가 자동 생성하지만 편집이 가능하다는 점이 핵심입니다. 팀이 직접 수정하지 않으면 AI가 만든 기본 모델 위에서 스캔이 돌아가고, 그 모델이 틀리면 이후 결과도 같이 틀립니다.
“노이즈 84% 감소”가 실제로 의미하는 것
OpenAI 공식 블로그에 이런 수치가 나옵니다. 베타 기간 동안 동일 저장소를 반복 스캔한 결과, 노이즈를 84% 줄였고, 심각도 과다 보고는 90% 이상 감소했으며, 전체 저장소 기준 오탐률은 50% 이상 떨어졌다고 합니다. (출처: OpenAI 공식 블로그, 2026.03.06)
⚠️ 이 수치, 기준점을 먼저 보세요
84% 감소는 초기 베타 배포 대비 수치입니다. 즉, 초기에 노이즈가 얼마나 많았는지가 기준입니다. 출발점이 높을수록 84% 감소의 절대값은 커 보이지만, 현재 남은 16%가 어느 수준인지는 별도 공개 자료가 없습니다. OpenAI가 이 부분의 절대 수치를 별도로 발표하지 않았습니다.
실제로 지난 30일 간 스캔 결과를 보면, 120만 개 이상의 커밋에서 치명적 이슈는 전체 커밋의 0.1% 미만에서 발견됐습니다. (출처: OpenAI 공식 블로그, 2026.03.06) 이 수치는 생각보다 훨씬 낮은 비율입니다. 대부분의 커밋에는 치명적 문제가 없다는 뜻입니다.
그런데 여기서 해석이 갈립니다. 오탐을 줄이겠다는 철학이 실제로는 진짜 위협을 놓치는 방향으로 작동할 가능성도 있습니다. 다음 섹션에서 이 부분을 확인했습니다.
Codex가 고치는 코드, Codex가 만드는 구멍
이 부분이 이번 포스팅을 쓰게 된 가장 큰 이유입니다. DryRun Security가 2026년 3월 13일 발표한 연구를 보면, Claude Code(Sonnet 4.6), OpenAI Codex(GPT 5.2), Google Gemini(2.5 Pro) 세 에이전트가 두 가지 실제 애플리케이션을 처음부터 구축하는 과정을 분석했습니다. 30개의 PR 중 26개에서 취약점이 발견됐고, 비율로 따지면 87%입니다. (출처: DryRun Security / HelpNetSecurity, 2026.03.13)
💡 Codex Security가 취약점을 찾는 도구라면, Codex 에이전트는 취약점을 만들기도 하는 도구입니다. 두 역할이 같은 이름 아래 묶여 있다는 점이 혼란을 줍니다.
세 에이전트가 공통으로 반복하는 취약점 유형이 10가지 있었습니다. 그 중에서도 특히 눈에 띄는 건 이 패턴입니다. REST 인증 미들웨어는 제대로 구현했는데, WebSocket 업그레이드 핸들러에는 연결하지 않은 케이스가 세 에이전트 모두에서 발견됐습니다. 인증은 있는데 WebSocket 연결에는 적용이 안 된 것이죠. 패턴 매칭 기반 스캐너는 이런 논리 레벨 오류를 못 잡습니다.
| 항목 | Claude Code (Sonnet 4.6) | OpenAI Codex (GPT 5.2) | Gemini (2.5 Pro) |
|---|---|---|---|
| 웹앱 최종 취약점 수 | 13개 | 8개 (최소) | 11개 |
| 게임앱 최종 취약점 수 | 8개 | 6개 (최소) | 가장 많음 |
| WebSocket 인증 누락 | 전 에이전트 | 전 에이전트 | 전 에이전트 |
| Rate limiting 연결 누락 | 전 에이전트 | 전 에이전트 | 전 에이전트 |
(출처: DryRun Security 연구 보고서, HelpNetSecurity 2026.03.13 보도)
Codex 기준으로 보면 세 에이전트 중 취약점 수가 가장 적었습니다. 그래도 여전히 8개, 6개가 남았고, 그 중 일부는 JWT 토큰 위조나 인증 우회로 이어질 수 있는 수준입니다. Codex Security가 이 격차를 메우는 보완재로 포지셔닝된 배경이 여기에 있습니다.
지금 당장 쓸 수 있는 사람, 없는 사람
Codex Security는 깃허브 연동이 필수입니다. GitLab, Bitbucket, 자체 호스팅 Git은 현재 지원하지 않습니다. 공식 문서에 “GitHub 저장소와 Codex Web을 통해 작동”이라고 나와 있습니다. (출처: developers.openai.com/codex/security, 2026.03)
요금제 조건도 있습니다. 현재 Research Preview 기간에는 ChatGPT Pro, Enterprise, Business, Edu 구독자만 접근 가능합니다. 무료 사용 기간은 첫 30일이고, 이후 정식 요금이 적용될 예정입니다. 다만 기간 이후 구체적인 가격 구조는 아직 공개되지 않았습니다.
💡 오픈소스 프로젝트라면 상황이 다릅니다. OpenAI는 ‘Codex for OSS’ 프로그램을 통해 오픈소스 메인테이너에게 ChatGPT Pro 6개월 무료 + Codex Security 조건부 접근을 제공하고 있습니다. vLLM 프로젝트가 이미 이 프로그램으로 취약점을 발견하고 패치했습니다. (출처: OpenAI 공식 블로그, 2026.03.06)
접근 권한이 있어도 저장소가 Codex Web 워크스페이스에 연결돼 있어야 합니다. 연결이 안 된 경우에는 OpenAI 계정팀에 직접 연락해야 하고, 셀프 서비스 설정만으로는 해결이 안 됩니다. 막상 써보려고 하면 이 단계에서 막히는 경우가 꽤 있습니다.
기존 SAST 도구랑 뭐가 다른지 수치로 봤습니다
Snyk, SonarQube 같은 기존 SAST 도구는 패턴 기반입니다. 알려진 취약한 함수 호출, 정규식 패턴을 보고 경보를 냅니다. DryRun Security의 2025 SAST Accuracy Report에 따르면, 이런 맥락 분석 도구는 네 가지 애플리케이션 스택에서 심어놓은 취약점의 88%를 잡아냈습니다. 특히 논리 레벨 취약점에서 성능 차이가 가장 컸습니다. (출처: DryRun Security 2025 SAST Accuracy Report, HelpNetSecurity 2026.03.13 보도)
Codex Security는 그 논리 레벨까지 보겠다는 게 핵심 차이입니다. WebSocket 핸들러에 인증 미들웨어가 연결됐는지, Rate limiting이 실제로 라우터에 적용됐는지 같은 건 패턴 매칭으로는 못 잡고, 코드 흐름을 실제로 추적해야만 보입니다. 맥락 없이 판단하면 안전해 보이는 코드가 시스템 전체 흐름에서는 구멍이 되는 경우가 바로 이 유형입니다.
💡 GnuTLS에서 발견된 CVE-2025-32990(Heap-Buffer Overflow), CVE-2025-32989(Buffer Overread), GnuPG의 CVE-2026-24881(stack buffer overflow) — 이 취약점들은 OpenSSH, GnuTLS, Chromium 같은 실제 운영 오픈소스 프로젝트에서 발견됐고 CVE가 부여됐습니다. 패턴 스캐너가 놓쳤던 이슈들입니다. (출처: OpenAI 공식 블로그 + cve.org)
다만 Codex Security가 Snyk이나 SonarQube를 대체한다기보다는 그 위에 올라가는 레이어에 가깝습니다. 실시간 IDE 내 제안이나 의존성 취약점 스캔은 여전히 기존 도구가 더 빠릅니다. Codex Security는 깊이 있는 탐색이 필요한 주기적 스캔에 맞습니다.
자주 묻는 질문 5가지
마치며 — 두 숫자를 같이 보세요
Codex Security를 둘러싼 숫자들은 인상적입니다. 30일, 120만 커밋, 792개 치명적 취약점, GnuTLS와 GnuPG에서 실제 CVE 발급까지. OpenSSH나 Chromium 같은 대형 오픈소스에서 사람이 오래 못 찾던 취약점을 AI가 먼저 발견했다는 건 부정할 수 없는 성과입니다.
그런데 같은 시기 DryRun Security 연구는 다른 숫자를 보여줍니다. AI 코딩 에이전트가 작성한 코드의 87%에서 취약점이 나왔고, Codex가 세 에이전트 중 그나마 취약점 수가 적었지만 WebSocket 인증 누락과 Rate limiting 미연결은 여전히 반복됐습니다. Codex Security가 찾아내는 것과 Codex 에이전트가 만드는 것, 이 두 속도가 같이 움직인다는 뜻입니다.
써볼 가치는 있습니다. 특히 ChatGPT Pro 구독 중이고 GitHub를 주로 쓰는 팀이라면, Research Preview 무료 기간에 한번 돌려보는 게 손해 볼 게 없습니다. 단, 결과 보고서를 받고 나서 위협 모델을 반드시 팀에서 직접 검토하고 편집해야 합니다. AI가 만든 기본 위협 모델을 그대로 두면, 그 위에서 이루어지는 모든 스캔도 그 오류를 그대로 따라갑니다.
기대했던 것과 달랐던 점은 하나였습니다. “Codex Security를 쓰면 AI가 만든 취약점도 자동으로 잡아줄 것”이라는 기대인데, 실제로는 두 도구가 완전히 별개의 흐름으로 작동합니다. 코딩 에이전트가 PR을 올리는 속도와 Codex Security가 그 PR을 스캔하는 속도가 같아야 의미가 있습니다.
본 포스팅 참고 자료
- OpenAI 공식 블로그 — Codex Security: now in research preview (2026.03.06) — https://openai.com/index/codex-security-now-in-research-preview/
- OpenAI 공식 개발자 문서 — Codex Security 설정 및 FAQ — https://developers.openai.com/codex/security
- HelpNetSecurity — AI coding agents keep repeating decade-old security mistakes (2026.03.13) — helpnetsecurity.com
- CSOOnline — OpenAI says Codex Security found 11,000 high-impact bugs in a month (2026.03.09) — csoonline.com
- TheHackerNews — OpenAI Codex Security Scanned 1.2 Million Commits (2026.03.07) — thehackernews.com
본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. Codex Security는 현재 Research Preview 단계로 기능, 요금, 접근 조건이 정식 출시 시 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 OpenAI 공식 발표 및 명시된 출처 기준이며, 보안 도구 선택 시 공식 문서를 직접 확인하시기 바랍니다.


댓글 남기기