Codex Security, 버그 더 많이 찾는 게 목표가 아닙니다

Published on

2026년 3월 22일

2026.03.06 기준
Research Preview
OpenAI Codex Security

Codex Security, 버그 더 많이 찾는 게 목표가 아닙니다

보안 도구는 버그를 많이 잡아낼수록 좋다고 생각했습니다. 막상 OpenAI Codex Security의 공식 설계 문서를 읽어보니, 정반대였습니다. 이 도구가 의도적으로 SAST를 시작점으로 쓰지 않는 이유, 그리고 120만 커밋을 스캔해서 단 792개의 크리티컬 취약점만 올린 것이 왜 “좋은 숫자”인지, 직접 정리했습니다.

84%

노이즈 감소율

120만+

30일 스캔 커밋 수

14개

신규 CVE 발급

0.1%

크리티컬 검출 비율

Codex Security가 뭔지, 한 줄로 정리하면

OpenAI가 2026년 3월 6일 리서치 프리뷰로 공개한 Codex Security는 AI 기반 애플리케이션 보안 에이전트입니다. 코드베이스를 분석해 취약점을 찾고, 샌드박스에서 검증한 뒤, 패치까지 제안하는 3단계 흐름으로 움직입니다. (출처: OpenAI 공식 발표, 2026.03.06)

이 도구는 사실 새로운 게 아닙니다. 2025년 10월 “Aardvark”라는 이름으로 비공개 베타를 시작한 뒤, 이번에 공식 명칭을 바꾸고 더 넓은 고객에게 개방한 겁니다. 처음부터 “버그 탐지기”보다 “보안 연구원”을 목표로 설계됐습니다.

💡 공식 발표문과 베타 초기 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — Aardvark 시절 내부적으로 OpenAI 자체 코드베이스에서 SSRF 취약점과 크로스 테넌트 인증 우회를 먼저 발견·패치했고, 그 실전 검증이 쌓인 뒤에야 외부 공개가 이뤄졌습니다. 벤치마크가 아니라 실제 내부 코드로 먼저 검증된 도구입니다.

▲ 목차로 돌아가기

120만 커밋 중 792개만 올린 게 왜 성과인가

베타 기간 30일 동안 외부 오픈소스 저장소에서 총 120만 개 이상의 커밋을 스캔했습니다. 그 결과 크리티컬 취약점 792개, 하이 심각도 10,561개를 올렸습니다. (출처: OpenAI 공식 발표, 2026.03.06)

여기서 중요한 수치가 있습니다. 크리티컬 취약점이 전체 커밋의 0.1% 미만에서만 검출됐다는 점입니다. 기존 보안 스캐너라면 이 수치가 훨씬 높게 나옵니다 — 경보 피로(alert fatigue)가 생기는 도구들은 수천 개의 잠재적 위험을 올리고 사람이 직접 걸러냅니다.

💡 이 맥락에서 공식 수치를 다시 보면 의미가 달라집니다 — 노이즈 84% 감소, 과다 보고 심각도 90% 감소, 오탐률 50% 감소. 모두 “초기 출시 이후 반복 스캔을 거치면서” 개선된 수치입니다. 첫 날부터 이랬던 게 아니라, 같은 저장소를 반복 스캔하며 누적 학습한 결과라는 게 공식 설명입니다. (출처: OpenAI 공식 발표, 2026.03.06)

지표	베타 초기	현재(2026.03 기준)
전체 노이즈	기준치	84% 감소
과다 보고 심각도	기준치	90% 초과 감소
오탐률(False Positive)	기준치	50% 초과 감소
크리티컬 취약점 검출	—	792건(30일)

출처: OpenAI 공식 발표 (openai.com/index/codex-security-now-in-research-preview/, 2026.03.06)

▲ 목차로 돌아가기

SAST를 처음부터 안 쓰는 이유가 공식 문서에 나옵니다

보안 도구를 만들 때 SAST(정적 분석 도구)를 시작점으로 삼는 건 업계 관행이었습니다. 그런데 OpenAI는 Codex Security를 설계하면서 SAST 결과물을 시작점으로 삼지 않겠다고 공식적으로 밝혔습니다. (출처: OpenAI 공식 블로그 “Why Codex Security Doesn’t Include a SAST Report”, 2026.03.17)

공식 문서에서 제시하는 이유는 세 가지입니다. 첫째, 기존 SAST가 이미 본 곳만 다시 보게 만드는 편향을 낳습니다. 도구가 가진 세계관 밖의 취약점 유형은 아예 탐색 대상에 들어오지 않습니다. 둘째, SAST 결과물에는 정제·검증 전 가정이 내포되어 있어서, 에이전트가 “조사”를 해야 할 자리에 “확인·기각”만 하게 됩니다. 셋째, 에이전트 자체 추론 성능을 측정하기가 어려워집니다.

대신 Codex Security가 시작하는 지점은 저장소 자체입니다. 아키텍처, 신뢰 경계, 시스템이 의도한 동작을 먼저 파악하고 편집 가능한 위협 모델을 생성합니다. 이 위협 모델을 렌즈로 삼아 취약점을 탐색합니다. SAST가 “데이터가 어디로 흘렀는가”를 추적한다면, Codex Security는 “그 데이터를 막아야 하는 검증 로직이 실제로 작동하는가”를 물어봅니다.

💡 공식 문서에서 직접 든 예시가 있습니다 — Express 프레임워크의 오픈 리다이렉트 취약점 CVE-2024-29041입니다. 데이터 흐름 자체는 SAST로 추적이 가능했지만, 실제 취약점 여부는 “리다이렉트 URL이 정규식 검사를 거친 후 URL 디코딩 처리를 통과하면서 검증이 무력화됐는지”를 확인해야 결론이 납니다. 코드가 검사기를 호출했다는 사실과 그 검사기가 이후 변환까지 포함해 실제로 동작했는지는 다른 문제입니다.

▲ 목차로 돌아가기

실제로 찾아낸 취약점들 — CVE 목록 직접 확인했습니다

베타 기간에 Codex Security가 직접 발굴·보고해서 CVE 번호가 부여된 취약점은 총 14개입니다. 오픈소스 생태계의 핵심 프로젝트들에 걸쳐 있습니다. (출처: OpenAI 공식 발표, 2026.03.06)

프로젝트	취약점 유형	CVE
GnuTLS	힙 버퍼 오버플로, Double-Free	CVE-2025-32988 ~ 32990
GOGS	2FA 우회, 인증 없이 우회	CVE-2025-64175, CVE-2026-25242
Thorium	패스 트래버설, LDAP 인젝션, DoS 등	CVE-2025-35430 ~ 35436
GnuPG	gpg-agent 스택 버퍼 오버플로	CVE-2026-24881, 24882

출처: OpenAI 공식 발표 및 CVE 데이터베이스 (cve.org)

GnuTLS는 TLS/SSL 연결에 광범위하게 쓰이는 라이브러리이고, GnuPG는 암호화 서명에서 거의 표준처럼 쓰입니다. 여기서 힙 오버플로나 스택 버퍼 오버플로가 발견됐다는 건, 이미 수백만 개 시스템에 배포된 코드에 구멍이 있었다는 뜻입니다.

▲ 목차로 돌아가기

Claude Code Security와 같이 나온 타이밍, 우연이 아닙니다

Anthropic이 Claude Code Security를 내놓은 건 2026년 2월 말이었고, OpenAI Codex Security는 2026년 3월 6일 나왔습니다. 두 도구가 2주 간격으로 출시됐습니다. (출처: The Hacker News, 2026.03.07)

두 도구의 공통점과 차이점은 명확합니다. 둘 다 LLM 기반 추론으로 기존 SAST가 못 잡는 취약점을 목표로 합니다. 그런데 방향이 다릅니다 — Claude Code Security는 개발자 워크플로에 직접 붙는 CLI 중심 접근인 반면, Codex Security는 저장소 전체를 에이전트가 독립적으로 스캔하는 구조입니다. 협업 형태 vs. 자율 실행 형태의 차이입니다.

💡 이 타이밍을 오픈소스 생태계 관점에서 보면 다른 게 보입니다 — OpenAI는 Codex Security 출시와 동시에 “Codex for OSS” 프로그램을 발표하며 오픈소스 메인테이너에게 ChatGPT Pro 6개월을 무료로 제공합니다. 단순 PR이 아닌, “오픈소스 프로젝트에 직접 CVE를 발굴해주는 공급자”로 포지셔닝하겠다는 신호입니다. 인프라 프로젝트 메인테이너의 신뢰를 얻는 건, 엔터프라이즈 판매보다 더 느리지만 훨씬 깊게 파고드는 전략입니다.

▲ 목차로 돌아가기

지금 당장 쓸 수 있는 조건과 안 되는 조건

2026년 3월 기준, Codex Security는 ChatGPT Pro, Enterprise, Business, Edu 플랜 사용자에게 Codex 웹 인터페이스를 통해 제공됩니다. 첫 1개월은 무료입니다. (출처: OpenAI 공식 발표, 2026.03.06)

솔직히 제한 사항도 있습니다. 리서치 프리뷰 단계라서, 초기 위협 모델 품질이 저장소 구조화 수준에 크게 의존합니다. 프로젝트별 환경을 직접 구성해줘야 더 깊은 검증(샌드박스 실행·PoC 생성)이 활성화됩니다. 작은 팀이나 전담 보안 담당자가 없는 경우엔 초기 세팅 비용이 생깁니다.

오픈소스 메인테이너라면 별도 경로가 있습니다. “Codex for OSS” 프로그램에 신청하면 ChatGPT Pro 6개월 + API 크레딧 + Codex Security 접근이 제공됩니다. 공개 저장소 메인테이너라면 openai.com/form/codex-for-oss에서 신청 가능합니다.

⚠️ ChatGPT Free, Go 플랜은 현재 Codex Security에 접근할 수 없습니다. 일반 Codex 에이전트(코딩 보조)는 무료·Go 플랜에서도 제한적으로 사용 가능하지만, 보안 전용 에이전트인 Codex Security는 별개입니다. 가입 전에 반드시 구분해야 합니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Codex Security는 Codex CLI나 일반 Codex 에이전트와 같은 건가요?

다릅니다. 일반 Codex(또는 Codex CLI)는 코드 작성·수정 작업을 도와주는 코딩 에이전트입니다. Codex Security는 보안 취약점 탐지·검증·패치를 전담하는 별도 에이전트입니다. 같은 Codex 웹 인터페이스 안에서 제공되지만 목적과 동작 방식이 다릅니다.

Q2. SAST 도구를 현재 쓰고 있다면, Codex Security로 교체해야 할까요?

OpenAI 공식 입장은 “교체”가 아닌 “보완”입니다. SAST는 알려진 버그 패턴을 빠르게 잡는 데 여전히 유효하고, Codex Security는 SAST가 놓치는 “시스템 의도 맥락” 기반 취약점을 찾는 데 강점이 있습니다. 공식 문서에서도 “SAST, 퍼징, 런타임 가드, 에이전틱 워크플로가 모두 각자의 역할을 가질 것”이라고 명시했습니다.

Q3. 편집 가능한 위협 모델이란 구체적으로 어떤 건가요?

Codex Security가 저장소를 분석하면 “이 시스템이 무엇을 신뢰하고, 어디가 가장 취약한 지점인지”를 정리한 위협 모델 문서가 자동 생성됩니다. 이 문서는 팀이 직접 수정할 수 있어서, 에이전트가 자신들의 실제 리스크 기준에 맞게 작동하도록 조정할 수 있습니다. 피드백이 쌓이면 이후 스캔에서 정밀도가 점점 올라갑니다.

Q4. Codex Security가 제안하는 패치는 직접 배포해도 안전한가요?

에이전트가 제안하는 패치는 시스템 의도와 주변 코드 동작을 반영해서 작성됩니다. 그러나 현재는 리서치 프리뷰 단계이므로, 패치 적용 전에 팀이 직접 검토하는 절차가 필요합니다. NETGEAR 보안팀 사례에서도 “전문 연구원이 옆에서 작업하는 느낌”이었다고 했지만, 최종 판단은 팀 몫이었습니다.

Q5. Aardvark와 Codex Security는 어떻게 다른가요?

Aardvark는 2025년 10월에 비공개 베타로 출발한 내부 명칭이고, Codex Security는 그 연장선에 있는 공개 버전입니다. 기능 구조는 같고, 베타 기간 동안 OpenAI 내부 코드베이스에 먼저 적용해서 SSRF·크로스 테넌트 인증 우회를 실제로 발견·패치한 뒤 외부에 공개된 겁니다. 이름만 바뀐 게 아니라 그 사이 정밀도가 상당히 올라왔습니다.

▲ 목차로 돌아가기

마치며

Codex Security를 처음 봤을 때 “또 AI 보안 스캐너 나왔구나”라고 생각했습니다. 근데 SAST를 안 쓰는 이유를 설명한 공식 문서를 읽고 나니 다르게 보였습니다. 기존 도구들이 “더 많이 잡자”는 방향으로 달려왔다면, 이 도구는 처음부터 “덜 잡되 확실히 잡자”는 방향으로 설계됐습니다.

아직 리서치 프리뷰 단계라서 초기 세팅 비용이 있고, Pro 이상 플랜이 필요합니다. 개인 개발자보다는 팀 단위 혹은 오픈소스 메인테이너에게 먼저 실용성이 있어 보입니다. 오픈소스 메인테이너라면 Codex for OSS 프로그램 신청이 꽤 매력적인 선택지입니다.

Claude Code Security와 2주 간격으로 나온 것, Aardvark부터 쌓아온 실전 데이터, 오픈소스 생태계로 파고드는 전략 — 이 흐름이 계속된다면 보안 스캐너 시장의 지형이 꽤 빠르게 바뀔 것 같습니다. 6개월 뒤에 다시 확인해보겠습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

OpenAI 공식 발표 — Codex Security: now in research preview (2026.03.06)
openai.com/index/codex-security-now-in-research-preview/
OpenAI 공식 블로그 — Why Codex Security Doesn’t Include a SAST Report (2026.03.17)
openai.com/index/why-codex-security-doesnt-include-sast/
The Hacker News — OpenAI Codex Security Scanned 1.2 Million Commits (2026.03.07)
thehackernews.com/2026/03/openai-codex-security-scanned-12.html
OpenAI Developers — Codex Security 공식 문서
developers.openai.com/codex/security
CVE 데이터베이스 — CVE-2025-32988, CVE-2026-24881 등
cve.org

※ 본 포스팅은 2026년 3월 22일 기준으로 작성됐습니다. Codex Security는 현재 리서치 프리뷰 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금제가 변경될 수 있습니다. 최신 정보는 OpenAI 공식 페이지에서 직접 확인하시기 바랍니다.

Aardvark OpenAI, AI 보안, AppSec, Codex Security, 취약점 탐지

Codex Security, 버그 더 많이 찾는 게 목표가 아닙니다

Codex Security, 버그 더 많이 찾는 게 목표가 아닙니다

Codex Security가 뭔지, 한 줄로 정리하면

120만 커밋 중 792개만 올린 게 왜 성과인가

SAST를 처음부터 안 쓰는 이유가 공식 문서에 나옵니다

실제로 찾아낸 취약점들 — CVE 목록 직접 확인했습니다

Claude Code Security와 같이 나온 타이밍, 우연이 아닙니다

지금 당장 쓸 수 있는 조건과 안 되는 조건

Q&A 5가지

마치며

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Codex Security, 버그 더 많이 찾는 게 목표가 아닙니다

Codex Security가 뭔지, 한 줄로 정리하면

120만 커밋 중 792개만 올린 게 왜 성과인가

SAST를 처음부터 안 쓰는 이유가 공식 문서에 나옵니다

실제로 찾아낸 취약점들 — CVE 목록 직접 확인했습니다

Claude Code Security와 같이 나온 타이밍, 우연이 아닙니다

지금 당장 쓸 수 있는 조건과 안 되는 조건

Q&A 5가지

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기