📅 2026.03.16 기준 | OpenAI Codex Security Research Preview

Codex Security: “버그 많이 찾는 게 최선”이라 믿으면
0.1% 함정 그대로 맞는 이유

OpenAI가 2026년 3월 6일 공개한 AI 보안 에이전트 Codex Security는 기존 AI 보안 도구가 만들어온 ‘탐지 인플레이션’을 정면으로 뒤집습니다. 지난 30일간 120만 건의 커밋을 스캔했지만, Critical 취약점은 전체의 0.1% 미만에서만 발견됐습니다. 이 숫자가 왜 성공의 증거인지, 1개월 무료 이후 어떤 비용 함정이 기다리고 있는지, Claude Code Security와 무엇이 실질적으로 다른지를 공식 원문 기반으로 분석합니다.

🔍 120만+ 커밋 스캔 (30일)

🚨 792건 Critical 탐지

✅ 오탐율 50%↓ 감소

💰 1개월 무료 → 이후 비용 미공개

버그를 ‘덜’ 찾는 게 오히려 더 뛰어난 이유

— 탐지 인플레이션 시대, 숫자의 역설

💡 이 섹션은 OpenAI 공식 발표 원문과 베타 수치를 교차 분석해 도출한 내용입니다. (출처: openai.com/index/codex-security-now-in-research-preview/, 2026.03.06)

AI 보안 도구에 대한 가장 흔한 기대는 “많이 찾을수록 좋다”입니다. 그런데 OpenAI가 Codex Security를 통해 내세우는 핵심 성과 지표는 정반대입니다. 30일 동안 120만 건이 넘는 커밋을 스캔해 발견한 Critical 취약점은 고작 792건. 전체 커밋 대비 0.1% 미만입니다. 이게 왜 자랑거리가 될 수 있을까요?

기존 SAST(정적 분석) 도구들은 ‘탐지 인플레이션’으로 악명 높습니다. Semgrep, SonarQube 같은 도구들이 수십~수백 건의 경고를 쏟아내면, 보안 엔지니어들은 실제 위험 1건을 찾기 위해 수십 건의 오탐(False Positive)을 손으로 걸러내야 합니다. OpenAI는 이 현상을 직접 “security theater(보안 연극)”라고 표현했습니다. (출처: OpenAI 공식 블로그, 2026.03.06)

Codex Security의 베타 기간 데이터는 이 문제를 수치로 보여줍니다. 동일 저장소에 대한 반복 스캔에서 노이즈가 84% 감소했고, 심각도 과대 보고 비율은 90% 이상 감소, 오탐율은 50% 이상 감소했습니다. (출처: OpenAI 공식 발표, 2026.03.06) 이 수치가 의미하는 것은 단순합니다. 보안 엔지니어가 하루에 읽어야 할 경고 건수가 절반 이하로 줄어든다는 뜻입니다. 전략적 검토에 써야 할 시간이 잡무에서 해방된다는 뜻이기도 합니다.

지표	기존 AI 보안 도구	Codex Security (베타)
오탐율	높음 (정량 미공개)	50%↓ (모든 저장소 평균)
심각도 과대 보고율	빈번	90%↓ 감소
운영 방식	코드 스니펫 단위 분석	시스템 전체 맥락 기반

출처: OpenAI Codex Security 공식 발표, 2026.03.06

▲ 목차로 돌아가기

Codex Security가 작동하는 3단계 구조

— 스캐너가 아닌 에이전트가 다른 이유

기존 보안 도구와 Codex Security의 결정적 차이는 “코드를 어떻게 읽느냐”에 있습니다. 기존 SAST는 코드를 고립된 텍스트 조각으로 분석합니다. Codex Security는 전체 저장소를 인간 보안 연구자처럼 이해하려 합니다. 이 접근 방식은 3단계로 구성됩니다. (출처: OpenAI 공식 기술 문서, 2026.03.06)

STEP 1

시스템 맥락 구축 + 편집 가능한 위협 모델 생성

저장소를 분석해 “이 시스템이 무엇을 하고, 무엇을 신뢰하며, 어디가 가장 취약한지”를 파악한 위협 모델을 생성합니다. 이 모델은 팀이 직접 수정할 수 있어 에이전트를 프로젝트 실정에 맞게 조정할 수 있습니다.

STEP 2

취약점 우선순위화 + 샌드박스 검증

위협 모델을 기반으로 취약점을 찾고 실제 영향도 기준으로 분류합니다. 핵심은 여기서부터입니다. 격리된 샌드박스 환경에서 발견된 취약점을 직접 압박 테스트(pressure-testing)해 진짜 위협인지 검증합니다. 이 과정에서 작동하는 개념 증명(PoC) 익스플로잇까지 생성할 수 있습니다.

STEP 3

시스템 맥락 반영 패치 제안

단순히 취약한 코드 줄만 수정하는 것이 아니라 시스템 전체 동작 의도에 맞는 패치를 제안합니다. 주변 로직을 깨뜨리는 회귀(regression)를 최소화하도록 설계되어 있습니다.

💡 NETGEAR 제품 보안 팀장 Chandan Nandakumaraiah는 “Codex Security의 결과물은 경험 많은 제품 보안 연구자가 옆에서 함께 작업하는 느낌이었다”고 평가했습니다. (출처: SOCFortress Medium, 2026.03.12)

▲ 목차로 돌아가기

실제로 발견된 취약점들 — GnuTLS, GOGS, OpenSSH

— 공식 CVE 번호로 직접 검증 가능한 성과

Codex Security의 성과를 추상적 설명이 아닌 공식 CVE(공통 취약점 등록) 번호로 확인할 수 있다는 점은 중요합니다. OpenAI는 베타 기간 동안 오픈소스 생태계의 핵심 프로젝트들에서 14건의 CVE를 발굴해 해당 메인테이너에게 보고했습니다. (출처: OpenAI 공식 발표, 2026.03.06)

프로젝트	취약점 유형	CVE 번호
GnuTLS	힙 버퍼 오버플로우, Double-Free	CVE-2025-32988 / 32989 / 32990
GOGS	2FA 우회, 인증 우회	CVE-2025-64175 / CVE-2026-25242
GnuPG	스택 버퍼 오버플로우 (gpg-agent)	CVE-2026-24881 / 24882
Thorium	경로 순회, LDAP 인젝션, DoS	CVE-2025-35430~35436 (7건)

출처: OpenAI 공식 블로그 / cve.org / github.com/advisories, 2026.03.06

이 숫자들이 실제로 의미하는 바는 이렇습니다. GnuTLS와 GnuPG는 전 세계 수십억 개의 암호화 통신에 사용되는 라이브러리입니다. GOGS는 GitHub 대안으로 중소기업·개인 개발자들이 자체 호스팅하는 Git 서버입니다. 여기서 발견된 2FA 우회 취약점(CVE-2025-64175)은 소스 코드 저장소 전체가 인증 없이 노출될 수 있는 수준의 위협입니다.

중요한 것은 이 취약점들이 전통적 SAST로는 찾기 매우 어려운 복잡한 맥락 의존적 버그라는 점입니다. LDAP 인젝션이나 힙 오버플로우는 코드 한 줄만 보면 문제를 알 수 없고, 호출 관계·입력 경로·메모리 관리 패턴 전체를 이해해야 식별할 수 있습니다.

▲ 목차로 돌아가기

1개월 무료 이후, 비용은 얼마인가

— “공짜로 써봐라”는 말 뒤에 있는 비용 구조

💡 아래 비용 분석은 OpenAI 공식 요금 페이지와 ChatGPT 구독 구조를 교차 분석한 결과입니다. Codex Security 자체 가격은 공식 미공개 상태입니다. (2026.03.16 기준)

Codex Security는 현재 Research Preview 기간 동안 1개월 무료로 제공됩니다. (출처: OpenAI 공식 발표, 2026.03.06 / TechRadar, 2026.03.09) 그런데 중요한 것은 접근 조건입니다. 무료로 사용하려면 이미 ChatGPT Pro($200/월), Enterprise, Business($30/user/월), 또는 Edu 구독자여야 합니다. ChatGPT Free나 Plus($20/월) 사용자는 현재 이 기능에 접근할 수 없습니다.

이것이 실제로 의미하는 것은 이렇습니다. “1개월 무료”를 경험하려면 최소 월 $200짜리 ChatGPT Pro를 이미 구독하고 있어야 합니다. 개인 개발자라면 월 $200 = 약 29만 원을 이미 내고 있을 때만 “무료”가 적용됩니다.

⚠️ 1개월 이후 비용 미공개 — 지금 확인해야 할 것

OpenAI는 무료 기간 종료 이후 Codex Security가 별도 추가 비용을 부과할지, 기존 플랜에 포함될지를 공식 발표하지 않았습니다. TechRadar는 “가격 힌트가 전혀 없다(There were no hints on how much it might cost)”고 명시했습니다. (출처: TechRadar, 2026.03.09) 무료 기간 종료 시점(약 2026년 4월 초)까지 공식 발표를 주시해야 합니다.

ChatGPT 플랜	월 구독료	Codex Security 접근
Free / Go($8)	$0 / $8	❌ 불가
Plus	$20	❌ 불가
Pro	$200	✅ 1개월 무료
Business	$30/user	✅ 1개월 무료
Enterprise / Edu	별도 협의	✅ 1개월 무료

출처: OpenAI 공식 발표(2026.03.06), UIBakery Codex Pricing 분석(2026.03.07), ChatGPT 요금제 페이지

▲ 목차로 돌아가기

Claude Code Security와의 실질적 차이

— 2주 차이로 나온 두 AI 보안 에이전트의 철학 차이

💡 이 비교는 Anthropic(2026.02.20)과 OpenAI(2026.03.06) 공식 발표 원문을 교차 분석했습니다. 국내 어떤 블로그에도 아직 다뤄지지 않은 시차 분석입니다.

Anthropic은 Codex Security보다 약 2주 앞선 2026년 2월 20일에 Claude Code Security를 발표했습니다. (출처: The Hacker News, 2026.02.21) 두 제품은 표면적으로 유사해 보이지만, 작동 방식의 철학에서 분명한 차이가 있습니다.

Claude Code Security는 취약점을 스캔하고 패치를 “제안”한 뒤, 실제 적용은 반드시 인간 검토를 거치도록 설계됐습니다. 개발자가 패치 제안을 보고 “수락/거부”를 판단합니다. (출처: PCMag, 2026.02.21) 반면 Codex Security는 샌드박스에서 작동하는 PoC 익스플로잇을 직접 생성하는 단계까지 나아갑니다. 취약점이 실제로 악용 가능한지를 AI가 스스로 증명하는 것입니다.

항목	Claude Code Security	Codex Security
출시일	2026.02.20	2026.03.06
PoC 익스플로잇 생성	❌ 없음	✅ 샌드박스 내 생성
패치 적용 방식	인간 검토 필수	제안 + 수락 가능
위협 모델 편집	미공개	✅ 팀 편집 가능
접근 가능 플랜	Enterprise / Team	Pro / Enterprise / Business / Edu
오픈소스 지원	미공개	✅ Codex for OSS 프로그램

출처: Anthropic 공식 발표(2026.02.20), OpenAI 공식 발표(2026.03.06), PCMag(2026.02.21)

두 도구 모두 아직 Research Preview 단계입니다. 개인 관점으로는, Claude Code Security가 “더 조심스럽고 인간 중심”이라면 Codex Security는 “더 공격적이고 자율적”입니다. 사용하는 팀의 보안 성숙도에 따라 어느 쪽이 더 적합한지는 달라질 수 있습니다. 검증 없이 AI가 생성한 PoC 익스플로잇을 공유하면 그 자체로 무기화될 수 있다는 점도 잊지 말아야 합니다.

▲ 목차로 돌아가기

오픈소스 생태계에 가져오는 새로운 긴장

— “고마운 기여”인가, “관리 부담 전가”인가

💡 아래 내용은 오픈소스 메인테이너 인터뷰와 OpenAI 공식 발표를 교차 분석한 관점입니다. 국내에서 아직 다뤄지지 않은 구조적 긴장입니다.

OpenAI는 오픈소스 프로젝트 메인테이너들에게 Codex for OSS 프로그램을 통해 무료 ChatGPT Pro·Plus 계정과 Codex Security 접근권을 제공하기로 했습니다. 이미 vLLM 같은 프로젝트가 활용 중이라고 밝혔습니다. (출처: OpenAI 공식 발표, 2026.03.06) 표면적으로는 선의의 기여처럼 보입니다.

그런데 OpenAI가 메인테이너들과의 대화에서 직접 언급한 문제는 흥미롭습니다. “메인테이너들이 필요한 것은 더 많은 버그 리포트가 아니라, 적은 오탐과 실제 이슈를 지속가능한 방식으로 해결하는 것”이었다고 밝혔습니다. (출처: OpenAI 공식 발표 원문) 이 고백 자체가 기존 AI 보안 도구들이 오픈소스 생태계에 가져온 역효과를 인정하는 셈입니다.

한편으로는 구조적 질문도 남습니다. Codex Security가 오픈소스 저장소에서 취약점을 발견하면, 그 정보는 OpenAI의 서버에 남습니다. 공개 CVE로 등록되기 전까지 OpenAI가 이 정보를 어떻게 관리하는지는 아직 명확하지 않습니다. 소규모 오픈소스 프로젝트가 “좋은 의도로 연결된” AI 에이전트에게 코드베이스 전체를 열어준다는 것이 의미하는 위험을 메인테이너들이 충분히 인지하고 있는지도 살펴봐야 합니다.

▲ 목차로 돌아가기

Q&A

❓ Q1. ChatGPT Plus 구독자는 Codex Security를 쓸 수 없나요?

현재 Research Preview 기준으로 Plus($20/월)는 접근 불가입니다. Pro($200/월), Enterprise, Business($30/user/월), Edu 구독자만 이용할 수 있습니다. (출처: OpenAI 공식 발표, 2026.03.06) 이후 일반 출시 시 Plus 포함 여부는 미정입니다.

❓ Q2. Snyk이나 Semgrep 같은 기존 도구를 대체할 수 있나요?

아직 아닙니다. Codex Security는 Research Preview 단계이며, CI/CD 파이프라인 직접 통합은 지원하지 않습니다. Snyk, Semgrep, GitHub Advanced Security(CodeQL)는 PR 단계에서 자동 차단과 정책 강제 적용이 가능하지만 Codex Security는 현재 Codex 웹 인터페이스를 통한 수동 트리거가 필요합니다. 보완재로 활용하는 것이 현실적입니다. (참고: DryRun Security SAST 비교, 2026.02.13)

❓ Q3. 오탐율 50% 감소라는 수치는 어떻게 계산된 건가요?

OpenAI 공식 발표는 “모든 저장소에 걸쳐 오탐율이 50% 이상 감소했다(false positive rates on detections have fallen by more than 50% across all repositories)”고 명시했습니다. (출처: openai.com/index/codex-security-now-in-research-preview/) 비교 기준은 Codex Security 베타 초기 스캔 결과 대비 최근 스캔 결과입니다. 외부 독립 기관의 검증은 아직 없습니다.

❓ Q4. PoC 익스플로잇을 AI가 자동 생성한다는 게 안전한가요?

OpenAI는 PoC 생성이 격리된 샌드박스 환경에서만 이루어진다고 밝혔습니다. 단, 생성된 PoC 코드가 외부로 유출되면 그 자체로 악용 가능한 공격 도구가 됩니다. 현재 Codex Security는 Enterprise·Business급 고객을 대상으로 제한적으로 제공되고 있지만, 향후 더 넓은 배포가 이뤄질 경우 이 부분에 대한 정책과 감사 로그 요건이 중요해질 것입니다.

❓ Q5. Codex Security는 모든 언어를 지원하나요?

공식 발표에서 지원 언어 목록을 별도로 명시하지 않았습니다. 발견된 CVE 목록을 보면 C, C++, PHP, Python 코드베이스가 포함되어 있어 주요 시스템 언어는 지원하는 것으로 파악됩니다. 공식 문서(developers.openai.com/codex/security)에서 최신 지원 언어를 확인하는 것을 권장합니다.

▲ 목차로 돌아가기

마치며

Codex Security가 던진 메시지의 핵심은 이것입니다. 보안 도구의 성공 지표가 “얼마나 많은 버그를 찾느냐”에서 “얼마나 정확히, 얼마나 빠르게 수정 가능한 버그를 찾느냐”로 바뀌었다는 것입니다. 120만 커밋 중 0.1% 미만에서만 Critical을 발견했다는 수치는 실패가 아닙니다. 나머지 99.9%의 커밋에 대해 불필요한 경고를 보내지 않았다는 증거입니다.

단, 지금 당장 Codex Security를 사용하기로 결정했다면 세 가지를 확인해야 합니다. 첫째, ChatGPT Pro 이상 구독자인지. 둘째, 1개월 무료 이후 비용 발표를 모니터링할 것. 셋째, 오픈소스 프로젝트라면 Codex for OSS 신청 폼을 통해 무료 접근을 신청하는 것이 현재로서는 가장 합리적인 경로입니다.

Claude Code Security가 2주 먼저 나왔고 Codex Security가 뒤를 이었습니다. AI 보안 에이전트 경쟁은 이제 시작입니다. 어느 쪽이 최종 승자가 되든, 개발자와 보안 팀이 처리해야 할 경고 건수는 줄어들 것입니다. 그 자리를 채우는 것이 전략적 판단인지 새로운 형태의 의존성인지는 앞으로 지켜볼 일입니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

⚠️ 본 포스팅은 2026년 3월 16일 기준 공개된 정보를 바탕으로 작성됐습니다. Codex Security는 현재 Research Preview 단계로, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금 구조가 변경될 수 있습니다. 실제 이용 전 OpenAI 공식 페이지의 최신 안내를 반드시 확인하시기 바랍니다.

Codex Security: “버그 많이 찾는 게 최선”이라 믿으면
0.1% 함정 그대로 맞는 이유

버그를 ‘덜’ 찾는 게 오히려 더 뛰어난 이유