2026.03.06 공식 출시 기준
리서치 프리뷰
TECH

Codex Security, 무료 한 달이라는 말의 조건

OpenAI가 2026년 3월 6일 보안 에이전트 OpenAI Codex Security를 리서치 프리뷰로 공개했습니다. “한 달 무료”라는 문구가 먼저 눈에 띄지만, 막상 들어가 보면 접근 가능한 요금제 조건이 따로 있습니다. 숫자도 꽤 크게 나왔습니다 — 30일간 120만 커밋 스캔, 792건 Critical, 10,561건 High. 근데 그 숫자가 진짜 의미하는 게 뭔지, 실제 진양성률은 얼마인지, 공식 문서와 외부 벤치마크를 교차해서 직접 확인했습니다.

1.2M

베타 30일 스캔 커밋 수

10,561

High-Severity 발견 건수

18%

외부 벤치마크 실제 TP율

Codex Security란 — Aardvark의 공개 버전

Codex Security는 OpenAI가 2025년 10월에 비공개 베타로 운영하던 보안 에이전트 ‘Aardvark’를 정식 제품명으로 바꿔 공개한 도구입니다. (출처: OpenAI 공식 발표, 2026.03.06) 단순히 코드를 훑는 스캐너가 아니라, 프로젝트 전체 구조를 이해한 뒤 위협 모델을 먼저 만들고, 그 위협 모델을 기반으로 취약점을 찾아 직접 PoC(개념 증명) 익스플로잇을 샌드박스에서 실행해 검증까지 끝낸 뒤에야 개발자에게 결과를 전달하는 방식입니다.

작동 순서는 세 단계입니다. 첫째, 저장소 전체를 읽어 편집 가능한 위협 모델을 생성합니다. 둘째, 그 맥락 위에서 실제 영향도 기준으로 취약점을 분류합니다. 셋째, 격리된 환경에서 찾아낸 이슈를 직접 압박 테스트해 오탐을 걸러낸 뒤 수정 제안을 붙여 전달합니다. 이 세 번의 필터를 거쳐야 개발자 화면에 나타납니다.

비공개 베타 시절 이름 Aardvark가 알려진 건 2025년 10월이고, Codex Security라는 이름으로 공식화된 건 2026년 3월 6일입니다. 코드명보다 정확히 5개월 뒤 공개된 셈입니다. (출처: OpenAI Aardvark 공식 소개, 2025.10.30)

▲ 목차로 돌아가기

무료 한 달 사용, 조건이 있습니다

“한 달간 추가 비용 없이 사용 가능”이라는 문구가 인상적이지만, 접근 자체가 가능한 요금제가 제한돼 있습니다. OpenAI 공식 발표 기준, Codex Security 리서치 프리뷰에 접근할 수 있는 플랜은 ChatGPT Pro, Enterprise, Business, Edu 네 가지입니다. (출처: OpenAI 공식 발표, 2026.03.06) 월 $20짜리 ChatGPT Plus 사용자는 이 목록에 없습니다. 가장 보편적인 유료 구독자가 제외된 구조입니다.

💡 공식 발표문과 실제 접근 흐름을 같이 놓고 보니 이런 차이가 보였습니다

ChatGPT Pro는 월 $200, Enterprise는 기업 계약 기반 별도 금액입니다. 한 달 무료 사용의 실질적인 진입 비용은 최소 월 $200입니다. 리서치 프리뷰 종료 이후 가격은 OpenAI가 아직 공개하지 않은 부분입니다.

오픈소스 유지 관리자에게는 별도 프로그램이 있습니다. “Codex for OSS” 프로그램을 통해 무료로 신청 가능하며, OpenAI 공식 신청 폼(openai.com/form/codex-for-oss)에서 접수할 수 있습니다. 개인 사이드 프로젝트나 일반 스타트업 코드베이스는 해당하지 않고, 공인된 오픈소스 프로젝트 관리자 자격으로 신청해야 합니다.

API 접근도 열려 있습니다. developers.openai.com/codex/security에서 Codex API를 통해 직접 통합하는 방식인데, 이 경우에도 접근 계층과 과금 정책은 리서치 프리뷰 종료 이후 별도 안내 예정입니다.

▲ 목차로 돌아가기

120만 커밋 스캔이라는 숫자의 실제 무게

OpenAI가 공개한 베타 30일 성과 수치는 이렇습니다 — 120만 커밋 이상 스캔, 792건 Critical, 10,561건 High-Severity 발견, 14개 CVE 신규 등록. (출처: The Hacker News, 2026.03.07) 숫자만 보면 상당히 인상적입니다. 근데 여기서 하나 짚어야 할 게 있습니다.

OpenAI는 “오탐률 0.1% 미만”이라고 발표했습니다. (출처: OpenAI 공식 발표, 2026.03.06) 같은 저장소를 반복 스캔할 때 오탐이 50% 이상 줄었고, 심각도 과보고도 90% 감소했다고 밝혔습니다. 오탐이 거의 없다는 뜻처럼 읽히지만, 이 수치는 자체 선별한 저장소 기준 베타 데이터입니다. 실제 알려지지 않은 코드베이스에서도 같은 비율이 유지되는지는 별개 문제입니다.

▲ Codex Security 베타 30일 공식 수치 (출처: OpenAI 공식 발표, 2026.03.06)
항목	수치	비고
스캔 커밋 수	약 120만 건	외부 오픈소스 저장소 대상
Critical 발견	792건	OpenSSH, GnuTLS 등 포함
High-Severity 발견	10,561건	Chromium, PHP, libssh 등
신규 CVE 등록	14개	GnuPG, GOGS, Thorium 등
오탐률 개선	50% 감소	기존 대비, 베타 데이터 기준

10,561건 High는 인상적이지만, 이게 곧 “10,561가지 즉시 수정해야 할 버그”를 뜻하지는 않습니다. 이 수치는 OpenAI가 선별한 유명 오픈소스 프로젝트들을 대상으로 한 것이고, 개별 기업의 독자 코드베이스에 동일한 결과가 나온다는 보장은 없습니다.

▲ 목차로 돌아가기

진양성률 18%, 공식 발표와 얼마나 다른가

OpenAI가 오탐률 0.1% 미만을 발표했을 때, 동시에 주목해야 할 숫자가 있었습니다. Semgrep이 2025년 9월에 Django, Flask, FastAPI 기반 실제 Python 웹 앱 11개에 대해 Codex(v0.2.0, GPT-4o mini 기준)를 테스트한 결과, 전체 진양성률(True Positive Rate)은 18%였습니다. 모든 발견 건수 중 실제 취약점은 5개 중 1개도 안 된다는 뜻입니다.

💡 오탐률 0.1%와 진양성률 18%는 측정 방법이 다릅니다

오탐률은 “알려진 취약점을 잘못 분류한 비율”이고, 진양성률은 “발견한 것 중 실제 취약점인 비율”입니다. 두 수치는 같은 현실을 다른 각도에서 봅니다. 18%라는 수치는 낮아 보이지만, 기존 SAST 도구 대비 성능 차이보다는 발견하는 취약점의 유형에서 차이가 납니다.

취약점 유형별로 차이가 큽니다. 경로 탐색(Path Traversal)에서는 47%로 가장 높았지만, IDOR·SQL Injection·XSS에서는 진양성률이 0%였습니다. XSS 탐지에서 0%가 나온 이유는 Semgrep 연구진이 “프로시저 간 오염 흐름 추적의 어려움”으로 설명했습니다. 즉, 여러 파일을 가로지르는 XSS 패턴은 현재 Codex가 잘 잡지 못한다는 뜻입니다.

▲ Semgrep 벤치마크 결과 (2025.09, Python 웹앱 11개 대상, Codex v0.2.0 기준)
취약점 유형	Codex TP율	Claude Code TP율
경로 탐색 (Path Traversal)	47%	13%
SSRF	34%	12%
인증 우회 (Auth Bypass)	13%	10%
XSS	0%	16%
IDOR	0%	22%
SQL Injection	0%	5%

또 하나 눈여겨볼 부분이 있습니다. 같은 코드베이스를 세 번 연속으로 스캔했을 때 매번 다른 결과가 나왔습니다. 한 앱에서 3번 돌렸더니 3건, 6건, 11건으로 결과가 달라졌습니다. 취약점 관리 시스템에서 “사라진 발견 = 수정 완료”로 자동 처리할 경우, 이 비결정성 문제가 실제 운영 리스크로 이어질 수 있습니다.

▲ 목차로 돌아가기

SAST를 일부러 안 쓰는 이유

OpenAI가 2026년 3월 16일에 별도 문서로 공개한 내용이 있습니다 — “왜 Codex Security는 SAST 보고서를 시작점으로 쓰지 않는가”. (출처: OpenAI 공식 문서, 2026.03.16) SAST를 안 쓴다는 게 아니라, SAST 결과를 에이전트의 입력으로 쓰지 않겠다는 겁니다. 이유는 세 가지입니다.

첫째, SAST 결과를 시작점으로 쓰면 에이전트가 기존 툴이 이미 본 영역만 재검토하게 됩니다. 둘째, SAST 결과에 포함된 암묵적 가정들이 에이전트 추론을 왜곡합니다. 셋째, 에이전트가 독자 발견한 것과 SAST에서 물려받은 것이 섞이면 시스템 성능 개선이 불가능해집니다. OpenAI는 이걸 “조사”가 아니라 “확인”으로 전락한다고 표현했습니다.

SAST가 잘 잡는 건 따로 있습니다 — 소스에서 싱크까지 데이터 흐름이 명확한 패턴, 알려진 코딩 표준 위반 등입니다. Codex Security는 “실행 중인 시스템에서 그 보안 체크가 진짜 작동하는가”를 묻는 영역을 노립니다. 즉, 두 도구는 경쟁 관계가 아니라 커버리지가 다른 레이어입니다. OpenAI도 “SAST는 여전히 유효하다”고 명시했습니다.

▲ 목차로 돌아가기

Claude Code Security와 어디서 갈리나

Anthropic은 2026년 2월 20일 Claude Code Security를 먼저 공개했고, OpenAI가 2주 뒤 Codex Security를 내놨습니다. 2주 사이에 경쟁사 두 곳이 비슷한 카테고리 제품을 동시에 출시한 건, AI 보안 에이전트가 2026년 상반기 최대 경쟁 무대가 됐다는 신호입니다. (출처: TheCybertThrone, 2026.03.08)

가장 큰 기술적 차이는 검증 방식입니다. Codex Security는 샌드박스에서 PoC 익스플로잇을 직접 실행해 “이게 진짜 터지는지” 확인합니다. Claude Code Security는 모델이 자신의 추론 결과를 다시 공격자 입장에서 반박하는 자기 도전(adversarial self-review) 방식을 씁니다. 실행 증거가 있어야 안심이 된다면 Codex, 여러 파일에 걸친 복잡한 로직 버그를 잡아야 한다면 Claude Code 쪽이 유리합니다.

접근 가능 요금제도 다릅니다. Claude Code Security는 Enterprise/Team 프리뷰 전용이고, Codex Security는 Pro·Enterprise·Business·Edu 모두 포함됩니다. 개인 연구자나 소규모 팀 입장에서는 Codex Security 쪽 진입이 조금 더 넓습니다.

한 가지 주목할 만한 사실이 있습니다. Claude Code 자체가 두 번의 CVE를 받은 이력이 있습니다 — CVE-2025-59536(CVSS 8.7, 악성 디렉토리 초기화를 통한 코드 인젝션)과 CVE-2026-21852(CVSS 5.3, 악성 저장소로 인한 API 키 유출). 두 건 모두 패치됐습니다. 보안 도구 자체가 공격 표면이 된다는 점은 두 제품 모두에 해당하는 이야기입니다.

▲ 목차로 돌아가기

Q&A

Q1. ChatGPT Plus 사용자도 Codex Security를 쓸 수 있나요?

현재 리서치 프리뷰 기준으로는 접근이 안 됩니다. OpenAI가 명시한 접근 가능 요금제는 Pro, Enterprise, Business, Edu 네 가지입니다. Plus는 포함돼 있지 않고, 프리뷰 종료 후 확장 여부는 아직 공개되지 않았습니다.

Q2. 한 달 무료라는 게 정확히 어떤 의미인가요?

리서치 프리뷰 기간(2026년 3월 6일 기준 약 한 달) 동안은 해당 요금제 구독자에게 Codex Security 이용에 별도 추가 비용이 없다는 뜻입니다. 프리뷰가 끝난 뒤의 가격 정책은 아직 발표되지 않았습니다.

Q3. 취약점을 발견하면 자동으로 수정해 주나요?

자동 수정은 하지 않습니다. Codex Security는 취약점을 탐지하고 수정 제안까지는 해주지만, 실제 패치 적용은 사람이 승인해야 합니다. Claude Code Security도 동일합니다. OpenAI는 이 “사람 개입 원칙”을 공식적으로 유지하겠다고 밝혔습니다.

Q4. SAST 도구가 있으면 Codex Security는 필요 없지 않나요?

두 도구가 커버하는 영역이 다릅니다. SAST는 소스-싱크 데이터 흐름 패턴과 알려진 코딩 위반을 빠르게 잡는 데 강하고, Codex Security는 “보안 체크가 실제로 작동하는가”를 실행 맥락에서 검증하는 영역입니다. OpenAI도 공식적으로 SAST는 여전히 유효하다고 명시했습니다.

Q5. 오픈소스 프로젝트가 아닌 개인 저장소도 스캔 가능한가요?

Pro 이상 요금제라면 개인 저장소에도 사용할 수 있습니다. Codex for OSS는 오픈소스 관리자 대상 별도 무료 프로그램이고, 일반 개인 프로젝트 스캔은 요금제 내에서 처리됩니다. 언어·프레임워크 커버리지가 아직 완전하지 않다는 점은 공식 문서에서 직접 밝히고 있습니다.

▲ 목차로 돌아가기

마치며 — 이 도구를 써야 할 타이밍

OpenAI Codex Security는 “AI가 보안을 자동화한다”는 말이 실제로 어느 수준까지 왔는지를 보여주는 첫 번째 공개 사례입니다. 120만 커밋 스캔, 14개 신규 CVE 발굴이라는 숫자는 실제 임팩트가 있습니다. OpenSSH, GnuTLS, Chromium 같은 수십 년 된 코드베이스에서 몇 달 안에 CVE를 찾아냈다는 건 전통적인 보안 감사 방식과는 다른 속도입니다.

그러나 솔직히 말하면, 아직 모든 것을 대신하진 못합니다. XSS·IDOR·SQL Injection 탐지에서 0%가 나왔고, 같은 코드를 세 번 돌리면 결과가 달라집니다. 현재 단계에서 가장 합리적인 접근은 기존 SAST와 병행해서 Codex Security를 “SAST가 놓치는 로직 레이어”를 위한 보완 레이어로 쓰는 겁니다.

요금제 조건을 다시 한번 짚으면 — Plus는 안 되고, Pro 이상이어야 합니다. 리서치 프리뷰 종료 후 가격이 어떻게 책정될지에 따라 접근성이 크게 달라질 것입니다. 그 발표가 나오기 전에는 오픈소스 관리자 자격으로 무료 접근 프로그램을 먼저 써보는 게 현실적으로 가장 좋은 선택입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. OpenAI Codex Security는 현재 리서치 프리뷰 단계로, 요금제·접근 범위·기능 사양은 정식 출시 시 달라질 수 있습니다. 본문 수치는 명시된 출처 기준이며, 개별 환경에서의 결과는 다를 수 있습니다.

Codex Security, 무료 한 달이라는 말의 조건

Codex Security, 무료 한 달이라는 말의 조건

Codex Security란 — Aardvark의 공개 버전

무료 한 달 사용, 조건이 있습니다

120만 커밋 스캔이라는 숫자의 실제 무게

진양성률 18%, 공식 발표와 얼마나 다른가

SAST를 일부러 안 쓰는 이유

Claude Code Security와 어디서 갈리나

Q&A

마치며 — 이 도구를 써야 할 타이밍

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Codex Security, 무료 한 달이라는 말의 조건

Codex Security란 — Aardvark의 공개 버전

무료 한 달 사용, 조건이 있습니다

120만 커밋 스캔이라는 숫자의 실제 무게

진양성률 18%, 공식 발표와 얼마나 다른가

SAST를 일부러 안 쓰는 이유

Claude Code Security와 어디서 갈리나

Q&A

마치며 — 이 도구를 써야 할 타이밍

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기