2026.03.06 공개
Research Preview
Codex Security v1.0 기준

Codex Security, 진짜 취약점만 잡는다는 게 맞을까요?

OpenAI가 3월 6일 공개한 보안 에이전트입니다. 120만 커밋에서 792개 크리티컬을 찾아냈다고 했는데, 막상 들여다보면 숫자 뒤에 조건이 있습니다.

Codex Security가 뭔지, 결론부터

Codex Security는 OpenAI가 2026년 3월 6일 리서치 프리뷰로 공개한 AI 기반 애플리케이션 보안 에이전트입니다. (출처: OpenAI 공식 블로그, 2026.03.06) 코드 저장소 전체를 읽고 취약점을 찾아내는 건 기존 보안 도구도 하는 일인데, 차이는 접근 방식에 있습니다. 기존 SAST(정적 분석 도구)는 패턴 매칭에 의존합니다. “이런 코드 패턴은 위험하다”는 규칙 목록을 갖고 있고, 거기 해당하면 경보를 냅니다. Codex Security는 그 방식을 쓰지 않습니다.

작동 순서는 크게 세 단계입니다. 저장소를 읽어 프로젝트 전용 위협 모델을 먼저 만듭니다. 이 시스템이 뭘 하고, 어디를 신뢰하며, 어디가 가장 노출돼 있는지를 스스로 정리하는 거죠. 그다음 그 위협 모델을 기준으로 취약점을 찾고, 마지막으로 샌드박스 환경에서 실제로 그 취약점이 유효한지 검증한 뒤 패치까지 제안합니다.

내부 코드명은 ‘Aardvark’였고, 2025년부터 GPT-5 기반으로 일부 고객과 비공개 베타를 진행하다 이번에 공개된 겁니다. 첫 내부 배포 때 크리티컬 SSRF 취약점과 크로스테넌트 인증 취약점이 발견됐고 몇 시간 내에 패치됐다고 OpenAI가 밝혔습니다.

▲ 목차로 돌아가기

120만 커밋, 792개 크리티컬 — 숫자 뒤의 조건

OpenAI 공식 발표에 담긴 수치입니다. 리서치 프리뷰 베타 기간 30일 동안 외부 저장소에서 120만 건 이상의 커밋을 스캔했고, 크리티컬 취약점 792개와 하이 시버리티 취약점 1만 561개를 찾아냈습니다. (출처: openai.com/index/codex-security-now-in-research-preview/, 2026.03.06) 크리티컬 이슈는 스캔된 커밋의 0.1% 미만에서 발견됐습니다. 이 수치가 의미하는 건, 알림이 떠도 대부분은 크게 위험한 수준이 아니라는 뜻입니다.

💡 공식 발표문의 숫자를 그대로 보면 화려하지만, 실제 크리티컬 비율은 0.1% 미만입니다.

베타 기간 개선 수치도 주목할 만합니다. 같은 저장소를 반복 스캔하면서 노이즈를 84% 줄였고, 심각도 과다 보고 비율을 90% 넘게 낮췄으며, 오탐률은 전체 저장소 기준 50% 이상 감소했습니다. 출발점이 얼마나 많은 오탐을 냈는지는 공개하지 않았습니다.

오픈소스 저장소에서 확인된 취약점 14개는 CVE가 부여됐습니다. GnuTLS에서 힙 버퍼 오버플로우(CVE-2025-32990), GOGS에서 2FA 우회(CVE-2025-64175), gpg-agent에서 스택 버퍼 오버플로우(CVE-2026-24881) 등입니다. 이 중 일부는 전문가의 코드 리뷰와 수년간의 퍼징(fuzzing) 테스트를 통과한 코드베이스에서 발견됐습니다.

Reddit에서는 공개 발표 직후 “false positive 비율을 왜 정확히 안 밝히냐”는 지적이 나왔습니다. (출처: reddit.com/r/agenticQAtesting, 2026.03) 50% 줄였다는 건 개선폭이지, 현재 오탐률이 얼마인지는 공개된 수치가 없습니다.

▲ 목차로 돌아가기

왜 SAST를 쓰지 않는지가 핵심입니다

OpenAI는 3월 16일 별도 글에서 “왜 Codex Security에 SAST 리포트가 없느냐”를 직접 설명했습니다. (출처: openai.com/ko-KR/index/why-codex-security-doesnt-include-sast/, 2026.03.16) SAST의 구조적 한계를 정면으로 짚은 글인데, 핵심 논지는 이렇습니다. 패턴 매칭은 알려진 취약점 패턴을 찾아내는 데 설계됐습니다. 코드에 `sanitize_html()`이 빠져 있으면 XSS라고 표시하는 식이죠. 하지만 실제 취약점은 그렇게 단순하지 않습니다.

예를 들어 JSON에서 `redirect_url`을 받아 사용하는 코드가 있다고 하면, SAST는 “URL 검증이 없다”고 경보를 냅니다. 근데 실제로는 그 위에서 이미 검증 로직이 돌고 있을 수 있죠. 반대로 검증 코드가 있어 보이지만 특정 조건에서만 우회되는 경우는 패턴 매칭이 잡지 못합니다. Codex Security는 코드 전체 흐름을 추론하고, 그 논리적 경로에서 제약 조건이 실제로 성립하는지 따집니다.

💡 SAST가 수십 년 쌓아온 규칙 목록이 아니라, LLM이 코드의 맥락 자체를 읽는 방식입니다.

VentureBeat는 이 점을 “패턴 매칭 SAST는 전 세대의 문제를 풀도록 설계됐다”고 정리했습니다. 멀티파일 로직, 상태 전이, 개발자 의도가 얽힌 현대 버그는 SAST의 탐지 상한선 위에 있다는 거죠. (출처: venturebeat.com, 2026.03.10)

그렇다고 SAST가 쓸모없는 건 아닙니다. Snyk 측은 “취약점을 찾는 게 어려운 게 아니라, 수백 개 저장소에서 아무것도 안 깨고 고치는 게 병목”이라고 반박했습니다. AI가 만든 코드는 오히려 2.74배 더 취약하다는 수치도 함께 나왔는데, 이 부분은 아래에서 따로 다루겠습니다.

▲ 목차로 돌아가기

Claude Code Security와 14일 차이, 뭐가 다른가요

Anthropic은 2026년 2월 5일, Claude Opus 4.6 출시와 함께 Claude Code Security를 공개했습니다. OpenAI의 Codex Security보다 정확히 14일 먼저입니다. (출처: VentureBeat, 2026.03.10) 두 회사가 거의 동시에 동일한 방향의 제품을 냈다는 게 흥미롭습니다. 패턴 매칭을 버리고 LLM 추론으로 취약점을 잡겠다는 결론이 같습니다.

Anthropic에 따르면 Claude Opus 4.6은 프로덕션 오픈소스 코드베이스에서 기존에 알려지지 않은 하이 시버리티 취약점 500개 이상을 발견했습니다. 수십 년간 전문가 리뷰와 수백만 시간의 퍼징을 통과한 코드에서 나온 수치입니다. CGIF 라이브러리에서는 100% 코드 커버리지 퍼징으로도 잡히지 않는 LZW 압축 알고리즘 힙 버퍼 오버플로우를 논리 추론으로 찾아냈습니다. 커버리지 기반 테스트가 코드를 다 지나가도 의미를 읽지 못하면 취약점을 놓친다는 뜻입니다.

💡 서로 다른 아키텍처, 다른 코드베이스를 스캔했는데 같은 결론이 나왔습니다.

Checkmarx Zero의 검증에서 Claude Code Security는 8개 취약점을 찾았지만 실제 참 양성은 2개였습니다. 즉 오탐이 6개였죠. 중간 복잡도의 난독화된 코드에서 탐지 한계가 있다는 점이 드러났습니다. (출처: VentureBeat, 2026.03.10) Codex Security도 독립 감사를 거치지 않았습니다. 양쪽 모두 “지표적 수치”로 봐야 하고, 검증된 수치로 보면 안 된다는 게 보안 전문가들의 공통 의견입니다.

설계 철학은 다릅니다. Codex Security는 스캔 전에 위협 모델을 먼저 만들고 거기 맞춰 취약점을 찾습니다. Claude Code Security는 코드를 읽으면서 데이터 흐름을 추론하고 다단계 자체 검증을 거칩니다. 같은 저장소에 두 도구를 모두 돌리면 서로 다른 취약점을 잡는다는 게 VentureBeat 인터뷰에 나온 여러 CISO의 공통된 경험입니다. “둘을 동시에 쓰는 게 중복이 아니라 추론 시스템의 다양성을 통한 방어”라는 표현이 나올 만합니다.

▲ 목차로 돌아가기

AI가 쓴 코드가 더 취약하다는 수치, 이게 문제입니다

Snyk이 인용한 Veracode의 2025년 GenAI Code Security 리포트에는 이런 수치가 나옵니다. AI가 생성한 코드는 사람이 작성한 코드보다 2.74배 더 많은 보안 취약점을 포함할 가능성이 있습니다. (출처: Veracode 2025 GenAI Code Security Report, Snyk via VentureBeat 2026.03.10) 취약점을 찾아내는 도구와 취약점을 만들어내는 도구가 같은 회사 제품군 안에 있다는 뜻입니다. Codex가 코드를 짜고, Codex Security가 그 코드의 구멍을 찾는 구도입니다.

⚠️ AI 생성 코드 보안 취약점 위험도 2.74배 (Veracode, 2025)

이 수치를 뒤집어 읽으면 이렇습니다. AI 코딩 에이전트 도입이 빨라질수록 보안 스캐너 수요도 같이 커집니다. OpenAI 입장에서는 코딩 도구와 보안 도구를 세트로 판매하는 구조가 만들어지는 셈입니다. Codex Security가 “무료 오픈 베타”로 시작하는 이유 중 하나를 여기서 볼 수 있습니다.

Snyk 측은 “취약점 찾기보다 대규모 패치가 병목”이라는 현실을 지적했습니다. 792개 크리티컬을 찾아냈다는 발표가 화려하게 들리지만, 그걸 실제로 배포 파이프라인 안에서 아무것도 안 깨고 고치는 건 전혀 다른 문제입니다. AI 생성 코드의 취약점이 늘어나는 속도가 패치 속도를 앞서면 오히려 보안 부채가 쌓입니다.

더 불편한 수치도 있습니다. AISLE이라는 AI 보안 스타트업이 OpenSSL의 2026년 1월 보안 패치에 포함된 12개 제로데이 취약점을 전부 독립적으로 사전 발견했습니다. (출처: aisle.com, VentureBeat 2026.03.10) 퍼저가 수년간 돌아도 못 찾은 취약점들입니다. OpenAI나 Anthropic이 찾을 수 있다면, 같은 모델에 API 접근 권한을 가진 공격자도 찾을 수 있습니다. OpenAI가 공개적으로 취약점을 발표하는 창구가 열린다는 건, 패치 전에 그 정보가 새어나갈 창구도 열린다는 뜻입니다.

▲ 목차로 돌아가기

지금 쓸 수 있는 조건 — Pro냐 Enterprise냐

현재 Codex Security는 ChatGPT Pro, Enterprise, Business, Edu 가입자에게 Codex 웹 앱을 통해 접근 가능합니다. (출처: openai.com/ko-KR/index/codex-security-now-in-research-preview/, 2026.03.06) 리서치 프리뷰 기간 중 한 달은 무료로 사용할 수 있다고 명시됐습니다. ChatGPT Plus($20/월) 가입자는 Codex 웹 접근은 되지만 Codex Security는 별도입니다. Codex 자체가 Plus에 포함되지만, Security 기능은 현재 Pro($200/월) 이상 플랜에서 활성화됩니다.

플랜	Codex 웹	Codex Security	월 요금
Free	❌	❌	$0
Plus	✅	❌	약 $20
Pro	✅	✅ (프리뷰)	약 $200
Enterprise / Business	✅	✅ (프리뷰)	문의

※ 요금은 2026.03.25 기준 공개 정보 기준 / 변경 가능

여기서 생각해볼 점이 있습니다. Pro가 월 $200이고 리서치 프리뷰 한 달 무료라면, 무료 기간 이후 정식 요금이 어떻게 책정될지는 아직 공개되지 않았습니다. vLLM 같은 오픈소스 프로젝트는 Codex for OSS 프로그램을 통해 무료로 쓰고 있는데, 상업 사용자에겐 별도 요금제가 생길 가능성이 높습니다.

▲ 목차로 돌아가기

오픈소스 무료 지원, 근데 조건이 있습니다

OpenAI는 Codex for OSS 프로그램을 운영하면서 오픈소스 유지보수자에게 ChatGPT Pro·Plus 계정과 Codex Security 무료 접근을 제공하고 있습니다. vLLM이 이미 이 프로그램으로 취약점을 찾고 패치했다고 밝혔습니다. 표면적으로는 OpenAI가 오픈소스 생태계 보안을 강화한다는 선의 있는 이야기입니다.

💡 “보고서가 너무 많아서 문제”라는 유지보수자들의 말에서 설계 방향이 달라졌습니다.

OpenAI가 오픈소스 유지보수자들과 대화하면서 공통 피드백이 나왔습니다. “취약점 보고가 부족한 게 아니라 낮은 품질의 보고가 너무 많은 게 문제”라는 겁니다. Codex Security의 설계가 오탐 최소화에 집착하는 이유가 여기 있습니다. 노이즈를 줄이지 않으면 유지보수자들이 아예 무시한다는 걸 베타 기간에 직접 확인한 겁니다.

하지만 이 무료 프로그램에 참여하면 소스 코드가 OpenAI 시스템으로 전송됩니다. VentureBeat 인터뷰에서 전직 AWS 부CSO였던 Merritt Baer는 “코드를 새로운 데이터 처리자처럼 취급해야 한다”고 강조했습니다. 데이터 처리 계약, 학습 제외 조항, 데이터 보존 기간, 서브프로세서 사용 정책을 확인하지 않고 저장소를 연결하면 안 된다는 뜻입니다. (출처: VentureBeat, 2026.03.10)

VentureBeat가 40명 이상의 CISO를 인터뷰한 결과, 추론 기반 스캐닝 도구에 대한 공식 거버넌스 프레임워크가 아직 거의 존재하지 않는다고 했습니다. “파생 IP” 문제, 즉 모델이 코드 추론 흔적(reasoning trace)을 보존하는지, 그게 지식재산으로 취급되는지가 아직 정의되지 않은 영역입니다. 큰 기업일수록 이 부분을 먼저 확인하는 것이 맞습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q. ChatGPT Plus 가입자도 Codex Security를 쓸 수 있나요?

현재 리서치 프리뷰 기준으로는 Pro($200/월), Enterprise, Business, Edu 가입자에게만 개방돼 있습니다. Plus 가입자는 Codex 웹은 쓸 수 있지만 Security 기능은 포함되지 않습니다. 요금 구조는 프리뷰 종료 이후 변경될 수 있습니다.

Q. SAST 도구와 함께 써야 하나요, 아니면 대체가 되나요?

대체는 안 됩니다. Codex Security는 코드 추론 레이어에서 작동합니다. 소프트웨어 구성 분석(SCA), 컨테이너 스캐닝, IaC 스캔, DAST, 런타임 탐지는 기존 도구가 담당합니다. 기존 SAST 벤더의 가격 협상력은 약해지겠지만, 플랫폼 전체가 대체되는 건 아닙니다.

Q. 오픈소스 유지보수자라면 무료로 쓸 수 있나요?

Codex for OSS 프로그램을 통해 신청할 수 있습니다. OpenAI 공식 폼(openai.com/form/codex-for-oss)에서 접수 가능합니다. 다만 저장소를 OpenAI 시스템에 연결하기 전에 데이터 처리 정책과 학습 제외 조항을 반드시 확인해야 합니다.

Q. Codex Security와 Claude Code Security 중 어느 게 낫나요?

현재로서는 “둘 다” 쓰는 게 가장 안전합니다. 같은 저장소에서도 서로 다른 취약점을 잡는 경우가 보고됩니다. Codex Security는 위협 모델 기반 스캔, Claude Code Security는 데이터 흐름 추론 기반으로 설계가 다릅니다. 두 도구 모두 독립 감사를 거치지 않았으므로 발표 수치를 그대로 신뢰하기보다는 직접 파일럿을 돌려보는 게 맞습니다.

Q. 베타 기간 오탐률 50% 감소는 실제로 어느 수준인가요?

50% 개선된 거지, 현재 오탐률이 얼마인지는 OpenAI가 공개하지 않았습니다. 처음 시작이 20%였으면 지금은 10%고, 처음이 60%였으면 지금은 30%입니다. 절대 수치가 공개되지 않은 상태에서 개선폭만으로 평가하는 건 무리가 있습니다.

마치며 — 쓸 만한 도구인지, 어떻게 판단할까요

Codex Security는 실제로 새로운 종류의 취약점을 찾아냈습니다. CVE가 14개 부여됐고 GnuTLS, GOGS, gpg-agent 같은 오래된 오픈소스에서 나왔다는 게 인상적입니다. LLM 추론 기반 보안 스캔이 패턴 매칭이 놓치는 걸 잡을 수 있다는 건 이제 실증됐습니다.

그런데 솔직히 말하면 아직 쓰기 애매한 부분이 있습니다. 현재 오탐률이 얼마인지 모릅니다. 독립 감사가 없습니다. 리서치 프리뷰 무료 기간이 끝나면 요금이 어떻게 될지 모릅니다. 코드 전송에 따른 지식재산 문제도 기업마다 다르게 해석할 수 있습니다.

지금 Pro 가입자라면 한 달 무료 기간에 대표 저장소 하나에 파일럿을 돌려보는 게 실용적인 접근입니다. 그 결과를 기존 SAST 결과와 비교해서, 겹치지 않는 취약점이 얼마나 나오는지 직접 확인하는 것이 가장 확실합니다.

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 요금·플랜·수치는 2026.03.25 기준이며, OpenAI의 업데이트에 따라 달라질 수 있습니다. 투자·구매 결정 전 반드시 공식 문서를 직접 확인하세요.

Codex Security, 진짜 취약점만 잡는다는 게 맞을까요?

Codex Security가 뭔지, 결론부터

120만 커밋, 792개 크리티컬 — 숫자 뒤의 조건

왜 SAST를 쓰지 않는지가 핵심입니다

Claude Code Security와 14일 차이, 뭐가 다른가요

AI가 쓴 코드가 더 취약하다는 수치, 이게 문제입니다

지금 쓸 수 있는 조건 — Pro냐 Enterprise냐

오픈소스 무료 지원, 근데 조건이 있습니다

자주 묻는 질문

마치며 — 쓸 만한 도구인지, 어떻게 판단할까요

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Codex Security, 진짜 취약점만 잡는다는 게 맞을까요?

Codex Security, 진짜 취약점만 잡는다는 게 맞을까요?

Codex Security가 뭔지, 결론부터

120만 커밋, 792개 크리티컬 — 숫자 뒤의 조건

왜 SAST를 쓰지 않는지가 핵심입니다

Claude Code Security와 14일 차이, 뭐가 다른가요

AI가 쓴 코드가 더 취약하다는 수치, 이게 문제입니다

지금 쓸 수 있는 조건 — Pro냐 Enterprise냐

오픈소스 무료 지원, 근데 조건이 있습니다

자주 묻는 질문

마치며 — 쓸 만한 도구인지, 어떻게 판단할까요

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기