2026.03.06 기준
Research Preview
IT/AI

Codex Security, 120만 커밋 스캔 결과가 놀랍습니다

OpenAI가 2026년 3월 6일 공개한 AI 보안 에이전트, Codex Security. 숫자만 보면 엄청난 것 같은데— 실제로 들여다보면 생각보다 복잡한 부분이 있습니다.

1.2M

30일간 스캔한 커밋 수

792개

치명적(Critical) 취약점

87%

AI가 쓴 PR의 보안 결함률

84%

노이즈 감소율

결론부터 말씀드리면, Codex Security는 취약점을 많이 찾아주는 도구가 아닙니다. ‘잘 걸러주는’ 도구입니다. 기존 SAST 툴이 너무 많은 경고를 쏟아내 오히려 팀을 마비시켰다면, Codex Security는 그 반대 방향을 택했습니다. 그런데 여기서 반전이 있습니다. AI 에이전트가 짠 코드 PR의 87%엔 보안 취약점이 들어 있다는 독립 연구가 같은 달에 나왔거든요. AI로 코드를 빠르게 만들고, 또 AI로 그 구멍을 막는 구조— 어딘가 좀 아이러니하지 않나요?

Codex Security가 뭔지, 30초로 정리합니다

OpenAI가 2026년 3월 6일 공개한 Codex Security는, 코드베이스의 보안 취약점을 찾아 검증하고 패치까지 제안해주는 AI 에이전트입니다. (출처: OpenAI 공식 블로그, openai.com, 2026.03.06)

작동 방식은 세 단계로 나뉩니다. 먼저 연결된 GitHub 레포지터리 전체를 분석해서 위협 모델(Threat Model)을 만들고, 그다음에 커밋 단위로 취약점을 스캔합니다. 마지막으로 격리된 샌드박스 환경에서 실제로 취약점이 재현되는지 검증한 뒤 패치 초안을 제안합니다. 자동으로 패치를 올리지는 않고, 개발자가 검토 후 직접 PR을 여는 방식입니다. (출처: OpenAI Codex Security 공식 문서, developers.openai.com)

중요한 점은, 이건 기존 SAST(정적 분석 툴)를 대체하는 게 아닙니다. OpenAI가 공식 FAQ에 직접 “No. Codex Security complements SAST”라고 못 박았습니다. 기존 툴 대신 쓰라는 게 아니라, 기존 툴이 놓친 맥락 기반의 취약점을 추가로 잡아주는 역할입니다.

💡 공식 발표문과 FAQ를 같이 보니 이런 구조가 보였습니다 — Codex Security의 핵심은 “더 많이 찾기”가 아니라 “더 정확히 골라내기”입니다. 패치까지 제안하지만 자동 적용은 안 하는 구조도 의도된 설계입니다.

▲ 목차로 돌아가기

120만 커밋 스캔, 숫자의 진짜 의미

OpenAI 발표에 따르면, 베타 기간 30일 동안 Codex Security는 외부 레포지터리 120만 커밋 이상을 스캔해 792개의 치명적(Critical) 취약점과 10,561개의 고위험(High) 취약점을 발견했습니다. (출처: OpenAI 공식 블로그, 2026.03.06) 이 숫자가 처음엔 인상적으로 보이는데— 사실 다르게 읽어야 합니다.

항목	수치	의미
스캔 커밋 수	약 120만 건	30일 기준
Critical 발견	792건	전체의 약 0.066%
High 발견	10,561건	전체의 약 0.88%
CVE 발급	14건	GnuTLS, GOGS, Thorium 등

OpenAI 공식 발표문에는 “0.1% 미만의 커밋에서 치명적 문제를 발견하는 것이 목표”라는 문장이 나옵니다. 실제 수치는 Critical 기준 0.066%입니다. 이게 의미하는 건 하나입니다 — 99.9%의 커밋에선 경보를 울리지 않겠다는 것입니다. 기존 보안 툴이 너무 많은 경고로 팀을 지치게 만들었던 것과 정반대 전략입니다.

실제로 GnuTLS의 힙 버퍼 오버플로우(CVE-2025-32990), GOGS의 2FA 우회(CVE-2025-64175), GnuPG의 스택 버퍼 오버플로우(CVE-2026-24881) 등 실제 CVE로 등재된 취약점들이 이 스캔에서 나왔습니다. (출처: The Hacker News, 2026.03.07) 오픈소스 핵심 프로젝트에서 새 CVE 14건이 한꺼번에 나온 건 결코 작은 숫자가 아닙니다.

💡 120만 커밋 중 Critical 792건은 0.066%입니다. 99.9%는 그냥 통과시켰다는 뜻입니다. 기존 보안 툴처럼 모든 걸 걸러내는 게 아니라, 정말 중요한 것만 올리겠다는 철학이 수치로 나온 셈입니다.

▲ 목차로 돌아가기

노이즈 84% 줄었다는 말이 왜 중요한가

SOCFortress가 Codex Security 베타 결과를 분석한 자료를 보면, 세 가지 수치가 나옵니다. (출처: SOCFortress Medium, 2026.03.11)

84%

전체 노이즈 감소

90%

심각도 과대보고 감소

50%

전체 거짓 양성(FP) 감소

여기서 “심각도 과대보고 90% 감소”가 사실 가장 실용적인 숫자입니다. 기존 SAST 툴은 실제로 별로 위험하지 않은 취약점도 Critical로 분류해서 보안 팀을 지치게 만드는 게 고질적인 문제였습니다. 이를 업계에서는 “triage fatigue(분류 피로)”라고 부릅니다. Codex Security는 LLM 기반으로 “이 취약점이 실제 시스템에서 얼마나 위험한가”를 맥락 기반으로 판단합니다.

단계적으로 보면 — ① 위협 모델 생성 ② 취약점 발견 ③ 샌드박스에서 재현 시도 ④ 패치 제안 — 이 흐름에서 핵심은 3단계, 즉 실제로 재현이 되는지 직접 확인하는 부분입니다. 재현이 안 되면 미검증(Unvalidated) 상태로 표시되고, 로그는 남기지만 전면 경보는 울리지 않습니다. (출처: OpenAI 공식 FAQ, developers.openai.com)

NETGEAR 보안팀장 Chandan Nandakumaraiah는 “노련한 제품 보안 연구자가 옆에서 같이 작업하는 느낌”이라고 평가했습니다. (출처: SOCFortress Medium, 2026.03.11) 실무에서 이 정도 피드백이 나온다는 건, 단순한 자동화 툴 이상의 맥락 파악이 이뤄진다는 신호입니다.

▲ 목차로 돌아가기

AI가 만든 코드는 AI가 지켜야 하는 이유

Codex Security 출시와 거의 같은 시기에, DryRun Security가 불편한 연구 결과를 발표했습니다. (출처: Help Net Security, 2026.03.13) Claude Code(Sonnet 4.6), OpenAI Codex(GPT-5.2), Google Gemini(2.5 Pro) 세 에이전트를 시켜서 두 가지 앱을 처음부터 만들게 했더니 — 30개의 PR 중 26개, 즉 87%에 보안 취약점이 포함돼 있었습니다.

⚠️ AI 코딩 에이전트 보안 이슈 패턴 (DryRun Security, 2026.03)

접근 제어 미적용 — 세 에이전트 모두, 두 앱 모두 발생
WebSocket 인증 누락 — 최종 코드 기준 전 에이전트에서 발생
JWT 시크릿 하드코딩 — 게임 앱에서 모든 에이전트 해당
Rate Limiting 미연결 — 미들웨어 정의는 했는데 앱에 연결 안 함
OAuth 상태 파라미터 누락 — 소셜 로그인 구현 전 에이전트 해당

특이한 건 Codex가 최종 결과에서 가장 취약점이 적었다는 점입니다. 웹앱에서 8개, 게임앱에서 6개로 세 에이전트 중 가장 낮은 수치였습니다. Claude는 웹앱 13개, 게임앱 8개였고 Gemini가 전반적으로 가장 많은 취약점을 남겼습니다. 수치 자체가 어느 에이전트가 “안전한 코드”를 짜는지 직접 비교하게 해줍니다.

이 구조가 만들어내는 아이러니는 이렇습니다 — 코드는 AI가 빠르게 짜고, 그 안의 보안 구멍은 또 다른 AI가 찾아냅니다. 사람이 개입하는 지점은 최종 패치를 검토하고 PR을 올리는 단계로 압축되는 것입니다. 이게 좋은 방향인지, 리스크를 하나 더 쌓는 건지는 팀의 검토 역량에 달려 있습니다.

💡 AI가 만든 코드의 보안 결함을, AI 에이전트가 잡아주는 흐름이 이미 현실이 됐습니다. 단 두 숫자로 정리하면: AI 코드 PR의 87%엔 구멍이 있고, Codex Security의 false positive는 50% 줄었습니다.

▲ 목차로 돌아가기

Codex Security, 지금 당장 못 쓰는 조건

흥미롭고 성능도 좋아 보이지만, 막상 쓰려다 막히는 케이스가 제법 있습니다. 공식 문서에서 직접 확인한 내용입니다. (출처: OpenAI Codex Security 공식 문서, developers.openai.com, 2026.03.06)

제한 1

GitHub 레포만 연결 가능

GitLab, Bitbucket 등은 현재 미지원. GitHub 레포지터리가 없으면 시작 자체가 안 됩니다.

제한 2

Pro 이상 플랜만 해당

ChatGPT Free, Plus 사용자는 접근 불가. ChatGPT Pro($200/월), Enterprise, Business, Edu만 이용 가능합니다.

제한 3

초기 스캔은 며칠 걸릴 수 있음

대용량 레포의 경우 첫 스캔에 며칠이 소요될 수 있습니다. 이후 스캔은 증분 방식으로 훨씬 빠릅니다. (공식 FAQ 직접 발췌)

제한 4

레포 가시성 권한은 OpenAI 어카운트 팀이 관리

연결하려는 레포가 안 보이면 직접 설정할 수 없고 OpenAI 어카운트 팀에 연락해야 합니다. 이유는 공식 문서에서 별도로 밝히지 않았습니다.

Research Preview

아직 Research Preview 단계

정식 출시 이전이라 기능·정책이 바뀔 수 있습니다. 지금의 무료 체험 기간도 언제까지 유지될지 아직 공개된 바 없습니다.

오픈소스 프로젝트 기여자라면 별도 신청 경로도 있습니다. OpenAI 공식 블로그에서 오픈소스 참여 양식 링크를 제공하고 있습니다. (출처: openai.com, 2026.03.06)

▲ 목차로 돌아가기

Claude Code Security와 나란히 놓고 보면

Codex Security 출시 약 2주 전인 2026년 2월, Anthropic도 Claude Code Security를 출시했습니다. (출처: The Hacker News, 2026.03.07) 두 툴이 같은 시기에 나온 건 우연이 아닙니다. “AI가 코드를 이렇게 빠르게 양산하는데, 보안은 어떻게 담보하지?”라는 시장의 압박이 동시에 두 회사를 밀어붙인 결과입니다.

비교 항목	Codex Security	Claude Code Security
출시일	2026.03.06	2026.02월 (추정)
단계	Research Preview	미공개
레포 연동	GitHub만	미공개
패치 자동 적용	❌ 수동 검토 후 PR	미공개
베타 실적	CVE 14건 발급	미공개

DryRun Security 연구에서 코드 생성 에이전트로서의 최종 취약점 수는 Codex가 가장 적었습니다. 그렇다고 Codex Security(취약점 탐지 도구)가 자동으로 더 뛰어나다는 뜻은 아닙니다. 코드 생성 능력과 보안 탐지 능력은 별개의 영역입니다.

솔직히 말하면, 두 툴 모두 아직 Research Preview 또는 초기 단계입니다. Claude Code Security 쪽은 공식 수치가 충분히 공개되지 않아서 직접 비교는 어렵습니다. Anthropic이 공식 답변을 내놓지 않은 부분이 아직 많습니다. 시간이 쌓이면서 데이터가 나와야 의미 있는 비교가 가능합니다.

💡 두 툴이 거의 같은 시기에 나온 걸 같이 보면 — AI 코드 생성 속도와 보안 검증 속도 사이의 격차가 업계 전체의 실제 문제임을 확인하게 됩니다. Codex Security와 Claude Code Security는 경쟁 제품이기도 하지만, 같은 문제를 풀려는 시도입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Codex Security는 SAST를 대체하나요?
＋

아닙니다. OpenAI가 공식 FAQ에 “SAST를 대체하지 않는다”고 직접 명시했습니다. SAST는 넓은 범위를 결정론적으로 커버하고, Codex Security는 그 위에서 LLM 기반의 맥락 추론과 샌드박스 검증을 추가합니다. 두 가지를 같이 쓰는 게 목적입니다.

Q2. ChatGPT Plus 사용자도 쓸 수 있나요?
＋

현재는 안 됩니다. ChatGPT Pro($200/월), Enterprise, Business, Edu 플랜만 Codex Web을 통해 접근 가능합니다. Plus 플랜($20/월)은 해당되지 않습니다. (2026.03.06 기준)

Q3. 패치를 자동으로 적용해 주나요?
＋

자동 적용은 하지 않습니다. Codex Security는 패치 초안(diff)을 제안하고, 개발자가 직접 검토한 뒤 GitHub PR을 올리는 방식입니다. “코드를 자동으로 바꿔도 되는가”에 대한 판단은 사람에게 남겨두는 구조입니다.

Q4. 어떤 프로그래밍 언어를 지원하나요?
＋

공식 문서 기준으로 “언어 비특정(language-agnostic)”입니다. 다만 성능은 해당 언어와 프레임워크에 대한 모델의 추론 능력에 따라 달라집니다. 별도의 지원 언어 목록은 공식 문서에 나와 있지 않습니다.

Q5. 코드가 OpenAI 학습에 사용되나요?
＋

각 분석과 검증 작업은 에피머럴(Ephemeral) 격리 컨테이너에서 실행되고 작업 완료 후 삭제됩니다. 그러나 학습 데이터 사용 여부에 대해 OpenAI가 명확한 공식 발표를 내놓지 않은 부분이 있습니다. Enterprise 계약이라면 데이터 처리 조항을 별도로 확인하는 게 좋습니다.

▲ 목차로 돌아가기

마치며 — 보안 에이전트 시대의 진짜 숙제

Codex Security는 분명히 잘 만든 툴입니다. 84% 노이즈 감소, GnuTLS·OpenSSH 같은 핵심 오픈소스에서 실제 CVE 발굴, 샌드박스 자동 검증까지 — 기술적으로는 기존 SAST가 못 했던 걸 해냅니다.

그런데 같은 시점에 나온 DryRun Security 연구가 찝찝한 걸 남깁니다. AI 에이전트가 PR을 열면 87%에 보안 취약점이 들어 있다는 건 — Codex Security가 아무리 잘 잡아줘도 그 전에 이미 쌓이는 빚이 있다는 뜻입니다. 특히 JWT 시크릿 하드코딩, WebSocket 인증 누락처럼 패턴이 반복되는 이슈는 AI가 “보안을 의도하지 않고 코드를 작성한다”는 구조적 문제를 가리킵니다.

결국 Codex Security가 해결해주는 건 “발견과 패치 제안”이지, “보안을 고려한 설계”는 아직 사람의 몫입니다. AI가 코드를 짜는 속도가 빨라질수록, AI가 그 코드를 검수하는 속도도 빨라져야 하는 상황 — 이 사이클이 얼마나 빠르게 맞물리냐가 앞으로 몇 년의 핵심 질문이 될 것 같습니다.

지금 당장 쓸 수 있는 상황이라면 — Pro 이상 플랜에서 1개월 무료 체험이 가능하니, 실제 레포를 하나 연결해보는 게 가장 빠른 판단 방법입니다.

본 포스팅 참고 자료

본 포스팅은 2026년 3월 26일 기준으로 작성됐습니다. Codex Security는 현재 Research Preview 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금제가 변경될 수 있습니다. 최신 정보는 OpenAI 공식 채널에서 확인하세요.

Codex Security, 120만 커밋 스캔 결과가 놀랍습니다

Codex Security가 뭔지, 30초로 정리합니다

120만 커밋 스캔, 숫자의 진짜 의미

노이즈 84% 줄었다는 말이 왜 중요한가

AI가 만든 코드는 AI가 지켜야 하는 이유

Codex Security, 지금 당장 못 쓰는 조건

Claude Code Security와 나란히 놓고 보면

Q&A 5가지

마치며 — 보안 에이전트 시대의 진짜 숙제

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Codex Security, 120만 커밋 스캔 결과가 놀랍습니다

Codex Security가 뭔지, 30초로 정리합니다

120만 커밋 스캔, 숫자의 진짜 의미

노이즈 84% 줄었다는 말이 왜 중요한가

AI가 만든 코드는 AI가 지켜야 하는 이유

Codex Security, 지금 당장 못 쓰는 조건

Claude Code Security와 나란히 놓고 보면

Q&A 5가지

마치며 — 보안 에이전트 시대의 진짜 숙제

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기