Codex Security, 무료지만 이 조건이면 못 씁니다

Published on

in

Codex Security, 무료지만 이 조건이면 못 씁니다

2026.03.06 출시 기준
Codex Security Research Preview

Codex Security, 무료지만
이 조건이면 못 씁니다

OpenAI Codex Security는 2026년 3월 6일 리서치 프리뷰로 공개된 AI 기반 애플리케이션 보안 에이전트입니다. 출시 한 달도 안 돼 120만 커밋을 스캔하고 고위험 취약점 1만 1,000건 이상을 발견했다는 수치가 화제가 됐습니다. 무료라고 알려졌지만 막상 써보려면 막히는 조건이 있고, 기존 보안 도구와 어떻게 다른지도 정확히 알기 어렵습니다. 공식 문서와 OpenAI 발표를 직접 확인해서 정리했습니다.

1.2M
스캔 커밋 수 (30일)
11,353
고위험 이상 취약점
14
CVE 공식 배정
−50%↑
베타 기간 오탐률 감소

Codex Security가 뭔지, 30초 요약

OpenAI Codex Security는 코드 저장소를 스캔해서 취약점을 찾고, 샌드박스에서 실제 재현이 가능한지 검증한 뒤, 패치 제안까지 자동으로 만들어주는 보안 에이전트입니다. (출처: OpenAI 공식 블로그, 2026.03.06) 이름에 “Codex”가 붙어 있어서 코딩 에이전트인 OpenAI Codex와 혼동하기 쉽지만, 완전히 다른 서비스입니다. Codex가 코드를 작성하는 쪽이라면, Codex Security는 이미 작성된 코드의 보안 구멍을 찾는 쪽입니다.

내부적으로는 “Aardvark”라는 이름으로 2025년 말부터 비공개 베타를 운영했던 프로젝트입니다. (출처: OpenAI Aardvark 발표, 2025.10.30) 베타 참여사에서 SSRF, 크로스테넌트 인증 취약점 등이 실제로 발견됐고, 보안팀이 수시간 내로 패치했다는 사례가 공식 블로그에 나와 있습니다.

핵심 작동 방식은 세 단계입니다. 먼저 저장소의 아키텍처와 신뢰 경계를 분석해서 프로젝트 맞춤 위협 모델을 만들고, 여기서 찾은 의심 패턴을 격리된 샌드박스에서 재현 가능한지 검증한 다음, 최종적으로 패치 diff를 제안합니다. 개발자가 직접 PR에 올려야 하고, Codex Security가 자동으로 코드를 바꾸는 일은 없습니다.

▲ 목차로 돌아가기

쓸 수 있는 조건, 못 쓰는 조건

“무료”라는 표현이 반만 맞습니다. Codex Security는 ChatGPT Pro, Enterprise, Business, Edu 구독자에게 리서치 프리뷰 기간 동안 한 달간 무료로 제공됩니다. (출처: OpenAI 공식 블로그, 2026.03.06) 즉, ChatGPT Free 플랜이나 Plus 구독자는 지금 당장 쓸 수 없습니다. 한 달 무료 이후에 요금이 어떻게 책정될지는 아직 공식 발표가 없습니다.

구독 플랜 현재 접근 무료 기간
ChatGPT Free ❌ 불가
ChatGPT Plus (월 $20) ❌ 불가
ChatGPT Pro (월 $200) ✅ 가능 30일
ChatGPT Business / Enterprise ✅ 가능 30일
오픈소스 메인테이너 (신청 필요) ✅ 가능 별도 지원

(출처: OpenAI 공식 블로그, 2026.03.06 / Codex 개발자 문서)

오픈소스 메인테이너라면 별도 신청 경로(openai.com/form/codex-for-oss)를 통해 무료 지원을 받을 수 있습니다. vLLM이 이미 이 경로로 베타에 참여해 취약점을 찾고 패치했다는 사례가 공식 블로그에 나옵니다. 개인 개발자나 스타트업 팀이라면 지금 당장 Pro($200/월) 없이는 접근 자체가 막혀 있습니다.

▲ 목차로 돌아가기

SAST가 없는 이유가 생각보다 깊습니다

Codex Security에 기존 정적 분석(SAST) 보고서가 없는 이유를 두고 “기능이 부족한 것”으로 오해하기 쉬운데, 공식 기술 블로그에서 이를 의도적 설계 결정으로 직접 설명합니다. (출처: OpenAI 공식 기술 블로그 “Why Codex Security Doesn’t Include a SAST Report”, 2026.03.16) 이 부분이 기존 AI 보안 도구 리뷰에서 잘 다루지 않는 지점입니다.

💡 공식 발표문과 실제 작동 방식을 같이 놓고 보니 이런 차이가 보였습니다

SAST는 “소스에서 싱크까지” 데이터 흐름을 추적하는 방식으로 작동합니다. 잘 정의된 패턴에는 강하지만, “sanitize_html()을 호출했는지”와 “해당 렌더링 컨텍스트에서 실제로 안전한지”는 전혀 다른 질문입니다. Codex Security는 SAST 결과물을 출발점으로 삼으면 에이전트가 “조사”가 아닌 “확인”이나 “기각” 모드에 빠져 SAST가 보지 못한 취약점 클래스를 통째로 놓친다고 봅니다. OpenAI가 공식 문서에서 밝히지 않은 이유를 여기서 풀어서 설명한 것입니다.

실제 예시로 CVE-2024-29041이 나옵니다. Express 프레임워크의 오픈 리다이렉트 취약점인데, 데이터 흐름 자체는 단순합니다. 문제는 입력값 검증 로직이 URL 디코딩 이전에 실행되느냐, 이후에 실행되느냐였습니다. (출처: OpenAI 기술 블로그, 2026.03.16) SAST는 “sanitize가 호출됐다”는 사실을 확인할 수 있지만, “디코딩 이후에도 그 sanitize가 보장을 유지하는가”는 판단하지 못합니다. 변환 체인 전체를 추론해야 비로소 버그가 보입니다.

Codex Security 내부에서는 z3-solver(충족 가능성 검증 도구)에 에이전트가 직접 접근하여 정수 오버플로나 입력 제약 문제를 공식화해서 검증합니다. 이런 접근은 SAST 리포트를 시작점으로 삼는 방식으로는 구현하기 어렵습니다.

단, Codex Security 공식 FAQ에도 나와 있듯이 “SAST를 대체하는 것이 아니라 보완하는 관계”입니다. (출처: OpenAI 개발자 문서 FAQ) 기존 SAST를 걷어내고 Codex Security 하나로 전환하는 방식은 권장되지 않습니다.

▲ 목차로 돌아가기

30일 120만 커밋, 수치의 진짜 의미

베타 30일 동안 Codex Security가 외부 저장소 120만 커밋 이상을 스캔해서 위험(critical) 취약점 792건, 고위험(high) 취약점 1만 561건을 발견했다는 수치가 공식 블로그에 나와 있습니다. (출처: OpenAI 공식 블로그, 2026.03.06) 숫자가 크게 보이는데, 여기서 짚어야 할 부분이 있습니다.

💡 OpenAI 수치와 실제 Checkmarx 검증 결과를 함께 놓고 보면 간과하기 쉬운 부분이 드러납니다

클리티컬 취약점이 전체 스캔 커밋의 0.1% 미만에서 발견됐다는 건, 노이즈 없이 핵심만 걸러냈다는 뜻입니다. 다만 VentureBeat 보도(2026.03.10)에 따르면 Checkmarx Zero의 독립 검증에서 비슷한 LLM 기반 보안 도구(Claude Code Security)가 실제 프로덕션 코드를 전체 스캔했을 때 8건을 발견했고, 그 중 실제 취약점(true positive)은 2건이었습니다. OpenAI도 Anthropic도 자사 검출 수치에 대한 독립 감사를 받은 사례가 아직 없습니다.

GnuTLS, GOGS, libssh, Chromium 등 오픈소스 프로젝트에서 발견된 14개 CVE는 실제로 공식 CVE 데이터베이스(cve.org)에 등록돼 있습니다. 특히 GnuTLS 관련 CVE-2025-32988~CVE-2025-32990 세 건은 Heap Buffer 오버플로, 더블 프리 등 메모리 안전성 문제로, 수년간 존재했지만 기존 퍼저(fuzzer)가 잡지 못한 사례입니다. AI 에이전트가 알고리즘 수준의 추론으로 발견한 것이어서 실제 가치가 있습니다.

반면, Snyk와 Veracode가 지적한 문제도 있습니다. Veracode의 2025 GenAI 코드 보안 보고서에 따르면 AI가 작성한 코드는 인간이 작성한 코드 대비 취약점을 2.74배 더 많이 도입합니다. (출처: Veracode 2025 GenAI Code Security Report) Codex Security가 찾는 버그 중 상당수는 사실 AI 코딩 도구가 만들어낸 버그입니다. AI가 취약점을 찾는 속도와 AI가 취약점을 만드는 속도가 동시에 빨라지고 있습니다.

▲ 목차로 돌아가기

Claude Code Security와 14일 차이가 만든 것

Anthropic은 2026년 2월 20일 Claude Code Security를 리서치 프리뷰로 공개했고, OpenAI는 14일 뒤인 3월 6일 Codex Security를 출시했습니다. (출처: VentureBeat, 2026.03.10) 두 회사가 서로 다른 아키텍처로 LLM 기반 취약점 탐지에 동시에 뛰어들었다는 게 핵심입니다.

항목 Claude Code Security OpenAI Codex Security
출시일 2026.02.20 2026.03.06
기반 모델 Claude Opus 4.6 GPT-5.4 (Codex)
접근 조건 Enterprise / Team Pro · Enterprise · Business · Edu
샌드박스 검증 지원 지원
위협 모델 미공개 프로젝트별 생성 + 수동 편집
독립 감사 미실시 미실시

(출처: OpenAI·Anthropic 공식 발표 종합, 2026.03 기준)

두 도구가 14일 간격으로 나왔다는 건, 어느 쪽이 먼저 누락된 취약점 클래스를 찾아내면 그게 바로 상대방의 다음 업데이트 목표가 된다는 뜻입니다. Merritt Baer(전 AWS 부CISO)는 VentureBeat 인터뷰에서 “두 도구를 동시에 돌리는 것이 단순 중복이 아니라, 추론 시스템 다양성을 통한 방어”라고 표현했습니다. (출처: VentureBeat, 2026.03.10) 두 모델이 서로 다른 방식으로 추론하기 때문에, 어느 하나가 놓치는 버그를 다른 하나가 잡을 가능성이 있다는 얘기입니다.

▲ 목차로 돌아가기

실제로 써보면 막히는 부분들

공식 FAQ에 따르면 저장소 초기 스캔 시간은 저장소 크기와 빌드 시간에 따라 “몇 시간에서 며칠”까지 걸릴 수 있습니다. (출처: OpenAI Codex Security FAQ) 이후 증분 스캔은 빠르지만, 대형 레포를 처음 붙일 때의 대기 시간이 생각보다 깁니다.

지원 언어도 공식적으로는 “언어 무관(language-agnostic)”이라고 표현하지만, 실제 성능은 모델의 해당 언어와 프레임워크에 대한 추론 능력에 달려 있습니다. 한국 스타트업에서 많이 쓰는 Spring Boot나 Django 같은 프레임워크에서의 성능에 대해 OpenAI가 별도 데이터를 공개하지 않은 상태입니다.

💡 “무료 30일” 안에 의미 있는 결과를 얻으려면 초기 설정이 결정적입니다

Codex Security의 탐지 품질은 위협 모델의 정확도에 크게 달려 있습니다. 위협 모델은 자동 생성되지만 수동으로 편집할 수 있고, 팀의 아키텍처와 신뢰 경계를 얼마나 잘 반영하느냐에 따라 결과 품질이 달라집니다. 무료 기간 시작부터 위협 모델을 손보지 않으면 30일을 날릴 수 있습니다.

패치 제안은 diff 형태로 나오고, 직접 PR로 올려야 합니다. Codex Security가 자동으로 코드를 변경하는 경우는 없습니다. 패치 검증 없이 무조건 머지하면 안 되는 이유도 여기 있습니다. 공식 FAQ에서도 “Codex Security는 수동 보안 리뷰를 대체하지 않습니다”라고 명시합니다. (출처: OpenAI Codex Security FAQ)

Snyk는 “취약점을 찾는 것이 어려운 게 아니라, 수백 개 저장소에 걸쳐 아무것도 망가뜨리지 않고 고치는 것이 병목”이라는 입장입니다. (출처: VentureBeat, 2026.03.10) 탐지 단계는 AI가 빠르게 따라잡고 있지만, 수정의 안전성과 조직 전체 거버넌스는 여전히 사람이 개입해야 하는 영역입니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. ChatGPT Plus 구독자인데 Codex Security 쓸 수 있나요?
현재(2026.03 기준) ChatGPT Plus 구독자는 Codex Security를 사용할 수 없습니다. Pro(월 $200), Business, Enterprise, Edu 구독자에게만 리서치 프리뷰가 열려 있습니다. 오픈소스 프로젝트 메인테이너라면 openai.com/form/codex-for-oss 신청 경로를 통해 별도 지원이 가능합니다. 리서치 프리뷰 이후 요금 구조는 아직 공개되지 않았습니다.
Q2. 기존에 쓰던 SAST 도구를 Codex Security로 교체해도 되나요?
권장하지 않습니다. OpenAI 공식 FAQ에서 “SAST를 대체하는 것이 아니라 보완하는 관계”라고 직접 밝힙니다. Codex Security는 SAST가 구조적으로 탐지하기 어려운 추론·맥락 기반 취약점을 커버합니다. 기존 SAST가 제공하는 광범위한 패턴 매칭, 소프트웨어 구성 분석(SCA), 컨테이너 스캔, 인프라 코드(IaC) 검사 같은 영역은 Codex Security의 범위 바깥입니다.
Q3. 내 코드가 OpenAI 모델 훈련에 쓰이는 건 아닌가요?
공식 FAQ에 따르면 분석은 임시 격리 컨테이너에서 실행되고, 작업 완료 후 컨테이너가 삭제됩니다. 그러나 VentureBeat 보도에서 보안 전문가들은 모델 제공사가 임베딩이나 추론 흔적(reasoning trace)을 보유하는지 여부, 그리고 그것이 IP에 해당하는지에 대한 공식 답변이 아직 명확하지 않다고 지적합니다. Enterprise·Business 고객이라면 data-processing agreement(DPA)를 먼저 확인하는 것이 권장됩니다.
Q4. 패치 제안을 자동으로 PR에 반영해 주나요?
자동 적용은 없습니다. Codex Security는 패치 diff를 제안하고, 사용자가 GitHub에서 검토한 뒤 직접 PR을 올리는 방식입니다. “Codex Security가 저장소에 자동으로 변경을 가하지 않는다”는 것이 공식 설계 원칙입니다. 이 부분은 오탐이 있을 경우를 대비한 안전장치이기도 합니다.
Q5. 초기 스캔이 오래 걸린다는데, 얼마나 기다려야 하나요?
공식 FAQ에서 “저장소 규모와 빌드 시간에 따라 몇 시간에서 며칠”이라고 밝힙니다. 초기 스캔 이후 증분 스캔은 새 커밋과 변경 사항 위주로 빠르게 처리됩니다. 무료 기간(30일)을 효과적으로 활용하려면 첫 스캔 전에 위협 모델을 팀 아키텍처에 맞게 먼저 설정하는 것이 중요합니다.

▲ 목차로 돌아가기

마치며

Codex Security는 확실히 흥미로운 도구입니다. AI가 보안 연구자처럼 코드를 읽고 추론해서 기존 SAST가 놓쳐온 취약점 클래스를 잡아냈다는 건 실제 CVE로 입증됐습니다. 다만 써보기까지의 접근 조건이 생각보다 제한적이고, 무료 30일을 제대로 활용하려면 위협 모델 설정부터 신경 써야 합니다.

제가 가장 주목하는 부분은 Anthropic과 OpenAI가 14일 간격으로 같은 방향의 제품을 내놨다는 점입니다. 두 회사가 경쟁하면서 탐지 품질이 빠르게 올라가고 있고, 그 과정에서 오픈소스 생태계의 보안도 덩달아 나아지고 있습니다. 반대로, 같은 모델이 취약점을 찾는 데 쓰이면 공격자도 같은 수준의 도구를 API로 쓸 수 있다는 뜻이기도 합니다. 방어 속도가 항상 공격보다 빠르다는 보장은 어디에도 없습니다.

개인 개발자나 소규모 팀이라면 지금 당장 직접 쓸 수 있는 상황은 아닙니다. Pro 이상 구독이 있거나, 오픈소스 메인테이너라면 무료 기간 동안 한번 실험해볼 만합니다. 리서치 프리뷰인 만큼 앞으로 접근 범위가 넓어질 가능성이 있고, 그 시점에 이 도구가 실제로 어느 정도 신뢰할 수 있는지에 대한 데이터가 더 쌓일 것입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Codex Security Research Preview (https://openai.com/index/codex-security-now-in-research-preview/)
  2. OpenAI 기술 블로그 — Why Codex Security Doesn’t Include a SAST Report (https://openai.com/index/why-codex-security-doesnt-include-sast/)
  3. OpenAI 개발자 문서 — Codex Security FAQ (https://developers.openai.com/codex/security/faq/)
  4. VentureBeat — Anthropic and OpenAI just exposed SAST’s structural blind spot (2026.03.10)
  5. CSO Online — OpenAI says Codex Security found 11,000 high-impact bugs in a month (2026.03.09)
  6. Veracode — 2025 GenAI Code Security Report

본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. OpenAI Codex Security는 현재 리서치 프리뷰 단계이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 보안 관련 판단은 반드시 공식 문서와 전문가 검토를 통해 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기