Codex Security: “AI가 취약점 잡는다”가 틀린 진짜 이유

Published on

in

Codex Security: “AI가 취약점 잡는다”가 틀린 진짜 이유

2026.03.06 리서치 프리뷰 기준
OpenAI Codex Security

Codex Security: “AI가 취약점 잡는다”가 틀린 진짜 이유

OpenAI는 Codex Security가 오탐(False Positive)을 50% 이상 줄였다고 발표했습니다. 맞습니다. 그런데 같은 AI 코딩 에이전트가 작성한 PR(풀 리퀘스트)의 87%에 보안 취약점이 존재한다는 연구 결과를 함께 알고 계셨나요? 두 사실은 동시에 성립합니다.

87%
AI 생성 PR의 취약점 포함률
50%↓
Codex Security 오탐률 감소
14개
발견된 공식 CVE 수
1.2M
스캔한 오픈소스 커밋 수

Codex Security가 정확히 무엇인가 — 공식 정의부터

OpenAI가 2026년 3월 6일 리서치 프리뷰로 공개한 Codex Security는 단순한 정적 분석(SAST) 도구가 아닙니다. 공식 발표에 따르면, 이 도구는 코드베이스의 전반적인 맥락을 분석해 위협 모델(Threat Model)을 직접 수립하고, 잠재적 취약점을 격리된 샌드박스 환경에서 개념 증명(PoC) 익스플로잇을 실행해 실제로 악용 가능한지 검증하는 에이전트형 AI입니다. (출처: OpenAI 공식 블로그, 2026.03.06)

이미 베타 단계에서 오픈소스 커밋 120만 건 이상을 스캔했고, 30일간 792개의 리포지토리에서 고위험도 취약점 1,561개를 발견했습니다. 전체 발견 건수 중 상위 0.1%만이 고위험도 분류를 받았다는 점도 함께 명시됩니다. 이것이 의미하는 것은 분명합니다 — Codex Security는 노이즈를 줄이고 진짜 위험에 집중하도록 설계됐다는 것입니다.

💡 공개 이전의 숨겨진 역사: Codex Security의 핵심 기술은 2025년 10월 ‘Aardvark’라는 코드명으로 비공개 베타 테스트를 거쳤습니다. Aardvark 단계에서 이미 벤치마크 항목의 92%를 통과했으며, CVE 10건을 발견한 바 있습니다. (출처: OpenAI Aardvark 공식 발표, 2025.10.30)

Codex Security는 현재 ChatGPT Enterprise, Business, Edu 플랜 사용자에게 제공됩니다. ChatGPT Pro, Plus 사용자에게는 아직 접근이 제한되어 있습니다 — 이 부분은 뒤에서 더 자세히 다룹니다.

▲ 목차로 돌아가기

오탐 50% 감소의 진짜 의미 — 숫자 뒤에 있는 것

OpenAI는 Codex Security가 기존 보안 분석 도구 대비 오탐(False Positive)을 50% 이상 감소시켰다고 밝혔습니다. 또한 심각도가 과장된 경보 비율도 90% 이상 줄었습니다. 숫자만 보면 인상적입니다. 하지만 이 수치가 무엇을 기준으로 측정됐는지 이해하지 않으면 잘못된 안도감을 가질 수 있습니다.

📊 공식 수치 직접 검증 — 기존 SAST 도구 vs. Codex Security

항목 기존 SAST 도구 Codex Security
오탐률 기준점(100%) 50% 이하
심각도 과잉 경보율 기준점(100%) 10% 이하
고위험도 분류 기준 패턴/규칙 기반 PoC 익스플로잇 실행 검증

출처: OpenAI Codex Security 공식 블로그 (2026.03.06) / 기준점은 업계 표준 SAST 도구 기준

이 수치가 독자에게 의미하는 것은 명확합니다 — 보안팀이 100개의 경고를 검토하는 데 쓰던 시간을, 이제는 50개 이하의 실제 위험에만 집중할 수 있게 됩니다. 하지만 이 숫자는 기존 도구가 얼마나 부정확했는지를 드러내는 동시에, Codex Security의 절대적 정확도를 보장하지는 않습니다.

▲ 목차로 돌아가기

잠깐, 이게 사실입니다 — AI가 취약점을 찾는 동시에 만든다

⚠️ 많은 분들이 오해하는 부분

“AI 보안 도구가 있으니, AI로 코드를 짜도 안전하게 검수해 준다” — 이 생각이 왜 위험한지 데이터로 확인하겠습니다.

2026년 3월 13일, 보안 연구 기업 DryRun Security는 Claude Code(Sonnet 4.6), OpenAI Codex(GPT-5.2), Google Gemini(2.5 Pro) 세 AI 코딩 에이전트에게 실제 애플리케이션을 처음부터 개발하게 하고, 제출된 모든 PR을 실시간으로 보안 스캔했습니다. (출처: DryRun Security 보고서, Help Net Security, 2026.03.13)

결과는 충격적이었습니다. 30개의 PR 중 26개에서 취약점이 발견됐습니다.

💡 이 수치는 공식 연구 보고서와 실제 개발 실험을 교차 분석한 결과입니다

PR 30개 중 26개 = 취약점 발생률 87%

(출처: DryRun Security, 2026.03.13)

→ 결과 해석: AI 코딩 에이전트가 속도는 빠르지만, 10개 PR을 올리면 8~9개에 보안 취약점이 포함될 수 있다는 의미입니다. Codex Security가 이것을 잡아주길 기대하더라도, 그 AI 에이전트 자체가 문제를 생성하는 구조입니다.

특히 충격적인 것은 취약점의 유형입니다. 정규식 기반의 전통적 SAST 도구가 잡는 단순한 패턴 문제가 아니라, 인증 로직 결함, 비즈니스 로직 오류, WebSocket 인증 누락 같은 구조적 결함들입니다. DryRun의 CEO는 “AI 코딩 에이전트는 빠르게 작동하는 소프트웨어를 만들 수 있지만, 보안은 기본 사고방식에 포함되어 있지 않다”고 직접 명시했습니다.

▲ 목차로 돌아가기

Codex Security가 실제로 발견한 CVE 14개 분석

말뿐인 성능 주장이 아니라, Codex Security는 공개 이후 공식 CVE(Common Vulnerabilities and Exposures) 번호가 부여된 취약점을 14개 발견했습니다. 이 중 일부는 독자 여러분도 아마 사용 중인 오픈소스 프로젝트에서 발견됐습니다. (출처: OpenAI 공식 블로그 CVE 목록, 2026.03.06)

📋 주요 발견 CVE 목록 (2026.03.06 기준)

CVE 번호 프로젝트 취약점 유형
CVE-2025-32990 GnuTLS Heap-Buffer Overflow (Off-by-One)
CVE-2025-32989 GnuTLS Heap Buffer Overread (SCT 확장)
CVE-2025-32988 GnuTLS Double-Free (otherName SAN)
CVE-2025-64175 GOGS 2FA 우회
CVE-2026-25242 GOGS 비인가 접근 우회
CVE-2025-35430 에이전트 시스템 경로 탐색(임의 쓰기)
CVE-2025-35431 LDAP 시스템 LDAP 인젝션
CVE-2026-24881 gpg-agent 스택 버퍼 오버플로우
CVE-2025-11187 PKCS#12 구현 PBKDF2 keyLength 오버플로우 + MAC 우회

출처: OpenAI Codex Security 공식 블로그 (2026.03.06) — 총 14개 CVE 중 주요 9개 발췌

GnuTLS는 GNU 프로젝트의 TLS/SSL 라이브러리로, 수많은 리눅스 서버와 임베디드 기기에 탑재되어 있습니다. GOGS는 개인·소규모 팀이 자주 쓰는 자체 호스팅 Git 서비스입니다. 이 두 프로젝트에서 Heap 오버플로우와 2FA 우회 취약점이 발견됐다는 것은 Codex Security의 탐지 능력이 단순한 데모 수준을 이미 넘어섰음을 보여줍니다. 이 CVE들이 독자에게 의미하는 것은 분명합니다 — 자신의 서버나 개발 환경에 이 소프트웨어를 쓰고 있다면 즉시 업데이트 여부를 확인해야 합니다.

▲ 목차로 돌아가기

알고 보면 반대입니다 — 패치 자동화의 함정

Codex Security의 또 다른 핵심 기능은 취약점 발견 후 자동 패치 코드 생성입니다. OpenAI 공식 발표에서는 “기존 아키텍처를 해치지 않는 선에서 맥락에 맞는 수정 코드를 자동 생성한다”고 설명합니다. 여기서 실제로 써보면 당황하는 지점이 있습니다.

💡 이 분석은 DryRun Security 연구 보고서(2026.03.13)와 OpenAI 공식 기술 문서를 교차한 결과입니다

DryRun Security의 실험에서 모든 AI 에이전트는 레이트 리미팅(Rate Limiting) 미들웨어를 코드 내에 정의했지만, 어떤 에이전트도 그것을 애플리케이션에 실제로 연결하지 않았습니다. Codex Security가 이 문제를 탐지할 수 있더라도, 자동 패치가 ‘연결만 추가하는 것’으로 충분한지, 아니면 전체 미들웨어 구조를 재검토해야 하는지는 인간 개발자가 판단해야 합니다.

또 하나의 함정이 있습니다. DryRun 실험에서 WebSocket 인증 누락 취약점은 세 AI 에이전트 모두의 최종 코드베이스에 남아 있었습니다. 에이전트들이 REST API 인증 미들웨어는 올바르게 구현했지만, WebSocket 업그레이드 핸들러에는 이를 연결하지 않은 겁니다. 이런 유형의 논리적 결함은 Codex Security의 자동 패치가 얼마나 맥락을 이해하는지에 대한 실질적인 질문을 남깁니다.

이것이 독자에게 의미하는 것은 이렇습니다 — Codex Security는 기존 SAST 도구보다 훨씬 정교하지만, 자동 패치를 맹신하고 코드 리뷰를 생략하면 패치 자체가 새로운 취약점의 출발점이 될 수 있습니다. 특히 비즈니스 로직 수준의 결함은 여전히 인간의 검토가 필수입니다.

▲ 목차로 돌아가기

지금 Codex Security를 써야 할까? 요금·접근 조건 정리

2026년 3월 15일 현재 기준으로 Codex Security에 접근하는 방법은 다음과 같습니다. 공식 발표에 따르면, 현재 리서치 프리뷰는 ChatGPT Enterprise, Business, Edu 고객을 대상으로 제공됩니다. (출처: OpenAI 공식 블로그, 2026.03.06)

✅ 접근 가능

  • ChatGPT Enterprise
  • ChatGPT Business
  • ChatGPT Edu
  • 오픈소스 프로젝트 (별도 신청)

❌ 현재 미제공

  • ChatGPT Pro (개인)
  • ChatGPT Plus
  • ChatGPT Free
  • API 단독 플랜

한 가지 특별한 예외가 있습니다 — OpenAI는 오픈소스 프로젝트 관리자를 위해 무료 Codex Security 접근 신청 폼을 공개했습니다. 자신이 관리하는 오픈소스 리포지토리에 직접 적용해 볼 수 있는 기회입니다. 이것은 개인 개발자가 Enterprise 플랜 없이 실제 도구를 경험할 수 있는 현실적인 경로입니다.

vLLM 오픈소스 프로젝트는 이미 Codex Security를 적용해 실제 취약점을 발견했다고 OpenAI가 공식 발표에서 밝혔습니다. vLLM은 LLM 서빙 라이브러리로, 많은 AI 스타트업과 개인 개발자가 활용하는 프로젝트입니다. (출처: OpenAI 공식 블로그, 2026.03.06)

개인 개발자·스타트업 입장에서 현실적인 전략은 이렇습니다. 지금 당장 Enterprise 플랜 없이 Codex Security를 쓰고 싶다면, ① 오픈소스 프로젝트로 공개된 코드베이스를 신청하거나, ② Codex 앱(macOS·Windows)에서 GPT-5.4를 통한 코드 보안 검토를 활용하는 방법이 현실적입니다. Codex 앱은 현재 ChatGPT Plus, Pro, Enterprise 고객 모두에게 제공되고 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Codex Security는 무료로 사용할 수 있나요?

현재(2026.03.15 기준) 리서치 프리뷰는 ChatGPT Enterprise·Business·Edu 플랜에서 무료로 포함됩니다. 개인 Plus·Pro 사용자는 직접 접근이 불가하지만, 오픈소스 프로젝트 관리자라면 별도 신청 폼을 통해 무료로 이용 신청이 가능합니다. 정책은 리서치 프리뷰 이후 변경될 수 있습니다.

Q2. Codex Security와 기존 보안 도구(Snyk, SonarQube 등)의 차이점은 무엇인가요?

기존 SAST 도구들은 알려진 패턴(규칙 기반)을 코드에서 찾습니다. Codex Security는 프로젝트 전체 맥락을 이해해 위협 모델을 수립하고, 취약점을 샌드박스 내 PoC 익스플로잇으로 직접 검증한 뒤 수정 코드까지 제안합니다. OpenAI 공식 수치로는 오탐률이 50% 이상 감소했으며, 비즈니스 로직·인증 플로우처럼 규칙 기반으로는 잡기 어려운 취약점 탐지에 강점이 있습니다.

Q3. AI가 코드를 작성하면 보안이 더 위험해지는 건가요?

DryRun Security의 2026년 3월 연구에 따르면, Claude·Codex·Gemini 세 에이전트 모두 PR의 87%에 취약점을 도입했습니다. 단, 기존 인간 개발자도 취약한 코드를 작성합니다. 차이는 AI가 속도가 빠르기 때문에 같은 시간에 더 많은 취약한 코드를 생성할 수 있다는 점입니다. 해결책은 AI 코딩 에이전트와 AI 보안 도구를 함께 사용하고, PR마다 보안 스캔을 의무화하는 것입니다.

Q4. Codex Security가 내 코드를 학습에 사용하나요?

OpenAI의 Enterprise·Business 플랜은 고객 데이터를 모델 학습에 사용하지 않는 것이 기본 정책입니다. 다만 리서치 프리뷰 상태이므로 정책 세부 사항은 변경될 수 있습니다. 민감한 코드베이스를 다루는 경우 OpenAI 데이터 처리 정책 페이지를 직접 확인하시길 권장합니다.

Q5. Codex Security의 자동 패치를 그냥 머지해도 안전한가요?

안전하지 않습니다. OpenAI도 공식적으로 Codex Security는 수정 제안을 생성하지만 최종 검토와 적용은 개발자가 책임진다고 명시하고 있습니다. 특히 비즈니스 로직이나 인증 플로우를 변경하는 패치는 반드시 인간 개발자가 맥락을 검토한 후 적용해야 합니다. DryRun Security 연구에서도 패치 자체가 새로운 취약점을 유발할 수 있음이 확인됐습니다.

▲ 목차로 돌아가기

마치며 — 정직한 총평

Codex Security는 분명히 기존 보안 도구의 한계를 넘어섰습니다. 오탐률 50% 감소, PoC 기반 검증, 실제 CVE 14개 발견이라는 성과는 단순한 마케팅이 아니라 공식 수치로 확인된 것들입니다. 저는 이 도구가 기업 보안팀의 ‘경고 피로도(Alert Fatigue)’를 실질적으로 줄여줄 것이라고 생각합니다.

다만, Codex Security를 “AI가 보안을 대신 챙겨주는 도구”로 오해하면 안 됩니다. 핵심은 이렇습니다. AI가 코드를 더 빨리 만드는 만큼, AI가 보안 문제도 더 빨리 심어 넣을 수 있습니다. 87%의 PR 취약점 발생률은 Codex Security의 실패가 아니라, AI 코딩 에이전트 전반의 현실입니다. 이 두 가지를 동시에 이해할 때, Codex Security는 비로소 올바르게 쓰이는 도구가 됩니다.

지금 당장 실천할 수 있는 것은 간단합니다. PR마다 보안 스캔을 루틴화하고, AI가 생성한 코드라고 해서 인간의 코드 리뷰를 생략하지 마세요. Codex Security는 그 과정을 빠르고 정확하게 도와주는 강력한 조력자입니다 — 보안팀의 대체재가 아닌 증폭기로 활용하시길 권합니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Codex Security: now in research preview (2026.03.06)
    https://openai.com/index/codex-security-now-in-research-preview/
  2. OpenAI 공식 블로그 — Introducing Aardvark (2025.10.30)
    https://openai.com/index/introducing-aardvark/
  3. Help Net Security — AI coding agents introduce vulnerabilities in 87% of PRs (DryRun Security 보고서, 2026.03.13)
    https://www.helpnetsecurity.com/2026/03/13/
  4. OpenAI 공식 블로그 — Introducing GPT-5.4 (2026.03.05)
    https://openai.com/index/introducing-gpt-5-4/
  5. TechRadar — OpenAI releases Codex Security (2026.03.07)
    https://www.techradar.com/pro/security/

⚠️ 면책 조항: 본 포스팅은 2026년 3월 15일 기준으로 작성되었습니다. OpenAI Codex Security는 현재 리서치 프리뷰 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·접근 플랜이 변경될 수 있습니다. 모든 수치는 공식 출처에 기반하지만, AI 서비스 특성상 업데이트로 내용이 달라질 수 있습니다. 보안 의사결정에 있어서는 반드시 최신 공식 문서와 전문가 의견을 함께 참고하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기