Codex Security, 정말 취약점이 다 잡힐까요?

Published on

in

Codex Security, 정말 취약점이 다 잡힐까요?

2026.03.06 기준
Research Preview
ChatGPT Enterprise/Pro/Plus/Edu

Codex Security, 정말 취약점이 다 잡힐까요?

OpenAI가 2026년 3월 6일 공개한 Codex Security는 “AI가 취약점을 찾아 직접 패치까지 제안한다”는 강렬한 한 줄 요약으로 화제를 모았습니다. 실제로 베타 기간 동안 120만 커밋을 스캔해 792개 치명적 취약점을 발굴했다는 수치는 인상적입니다. 하지만 막상 써보면 이걸 그대로 믿어도 되는지 의문이 생깁니다. 무료 기간 조건, SAST와의 차이, 오탐 감소 주장의 실체까지 공식 문서에서 직접 확인한 내용을 정리했습니다.

792개
치명적 취약점 발굴
50% 이상
오탐률 감소 (베타)
1개월
무료 사용 기간

Codex Security가 뭔지 먼저 짚고 가겠습니다

Codex Security는 OpenAI가 2026년 3월 6일 리서치 프리뷰로 공개한 AI 기반 애플리케이션 보안 에이전트입니다. GitHub 저장소를 연결하면 커밋 단위로 코드를 스캔하고, 취약점을 발굴한 뒤 샌드박스에서 직접 재현해 검증하고, 패치 초안까지 제안해 줍니다. 단순히 정적 분석 결과를 뱉는 게 아니라, 발견한 취약점이 실제로 재현되는지 격리 환경에서 압력 테스트를 거친다는 점이 핵심입니다.

이 서비스는 OpenAI 내부 도구였던 Aardvark에서 출발했습니다. 2025년 10월 프라이빗 베타로 시작했고, 베타 기간 동안 120만 커밋 이상을 스캔하며 실전 데이터를 쌓은 뒤 이번에 외부 공개됐습니다. 출처: OpenAI 공식 블로그, 2026.03.06

작동 방식은 세 단계입니다. 먼저 저장소 구조를 분석해 위협 모델(Threat Model)을 만들고, 그 모델을 기반으로 취약점을 탐지하며, 탐지된 항목을 샌드박스에서 재현 시도합니다. 재현에 성공하면 “검증됨(Validated)” 상태로 표시되고, 재현 실패 건은 미검증 상태로 따로 구분됩니다. 이 구분이 오탐을 줄이는 핵심 메커니즘입니다.

▲ 목차로 돌아가기

120만 커밋 스캔 수치, 그냥 믿어도 될까요?

💡 공식 발표문과 실제 검증 프로세스를 나란히 놓고 보니 숫자 이면의 맥락이 보였습니다. 치명적 취약점 792개라는 수치가 어떤 조건에서 나온 건지, 그 숫자를 그대로 받아들이기 전에 확인해야 할 게 있습니다.

OpenAI 공식 발표에 따르면 베타 기간 동안 외부 저장소 120만 커밋 이상을 스캔해 792개 치명적(Critical) 취약점10,561개 고위험(High) 취약점을 발굴했습니다. OpenSSH, GnuTLS, GOGS, Chromium 등 주요 오픈소스 프로젝트에서 14개의 CVE가 배정됐습니다. (출처: OpenAI 공식, 2026.03.06)

이 수치는 인상적이지만 맥락이 중요합니다. 792개는 전부 검증 완료된 건이 아닙니다. OpenAI는 “오탐률이 베타 전 대비 50% 이상 감소했다”고 밝혔는데, 이 말을 뒤집으면 여전히 일정 비율의 오탐이 존재한다는 뜻이기도 합니다. 오탐이 50% 줄었다는 건, 이전 기준이 얼마나 높았느냐에 따라 절대적 수치가 크게 달라집니다. The Hacker News 보도에 따르면 같은 저장소를 반복 스캔할수록 정밀도가 높아지는 패턴이 확인됐습니다. (출처: The Hacker News, 2026.03.07)

GnuTLS에서 발견된 취약점 중 하나인 CVE-2025-32990(힙 버퍼 오버플로우)의 경우, 해당 코드베이스는 수년간 전문가 리뷰와 퍼징 도구를 거쳐왔습니다. 퍼징이 100% 코드 커버리지를 달성해도 잡지 못한 결함을 LLM 추론이 잡아냈다는 사실은, “알려진 패턴 외 취약점”에서 이 도구가 실질적 가치를 갖는다는 근거가 됩니다. 단순히 발굴 수가 많다는 게 아니라, 기존 도구의 구조적 맹점을 건드린다는 점에서 의미가 있습니다.

▲ 목차로 돌아가기

기존 SAST와 어떻게 다른 건가요?

SAST(정적 애플리케이션 보안 테스트) 도구는 알려진 패턴을 코드에서 찾는 방식으로 작동합니다. 특정 함수 조합이나 입력 처리 패턴이 데이터베이스에 등록된 취약점과 일치하면 플래그를 세우는 구조입니다. 반면 Codex Security는 코드의 의미와 실행 흐름을 추론합니다. 멀티파일 로직, 상태 전환, 개발자 의도를 따라가면서 SAST가 원천적으로 볼 수 없는 취약점 클래스를 탐지합니다.

구분 기존 SAST Codex Security
탐지 방식 패턴 매칭 LLM 추론 + 문맥 분석
오탐 검증 수동 검토 필요 샌드박스 자동 재현 시도
패치 제안 없음 (또는 일반 가이드) 코드 diff 형태로 제안
자동 적용 해당 없음 ❌ 사람이 리뷰 후 PR
멀티파일 추론 제한적 가능 (프로젝트 위협 모델 기반)
SAST 대체 여부 ❌ 보완 관계 (대체 아님)

OpenAI 공식 FAQ는 “Codex Security는 SAST를 대체하지 않는다”고 명시합니다. 소프트웨어 컴포지션 분석, 컨테이너 스캔, 런타임 탐지는 기존 스택이 여전히 처리해야 합니다. 즉, 추가 도구이지 기존 보안 파이프라인을 없애는 도구가 아닙니다. (출처: OpenAI Codex Security FAQ)

▲ 목차로 돌아가기

지금 써보려면 이 조건이 맞아야 합니다

Codex Security는 현재 ChatGPT Pro, Plus, Enterprise, Business, Edu 구독자에게 무료 1개월 사용 기간이 제공됩니다. 무료 버전(Free) 사용자는 접근이 안 됩니다. 접근 경로는 ChatGPT 내 Codex Web이며, GitHub 저장소 연결이 필수입니다. (출처: OpenAI 공식, 2026.03.06)

저장소가 Codex Web 워크스페이스에 표시되지 않거나 접근 권한이 없을 경우, OpenAI 계정팀에 문의해야 합니다. Enterprise 고객의 경우 관리자가 별도 설정을 완료해야 팀원들이 사용할 수 있습니다. 오픈소스 프로젝트 유지관리자라면 신청 양식을 통해 무료 우선 접근을 요청할 수도 있습니다.

초기 스캔 시간은 저장소 크기에 따라 달라지는데, 이 부분이 실제 사용에서 걸리는 지점입니다. 공식 FAQ에 따르면 규모가 큰 저장소는 스캔에 며칠이 걸릴 수 있습니다. 처음 스캔 이후 증분(incremental) 방식으로 전환되어 이후 스캔은 빠르지만, 첫 스캔을 기다리는 시간은 프로젝트마다 크게 차이가 납니다. 결론부터 말하면, “연결하자마자 바로 결과 나온다”는 기대는 큰 저장소에선 맞지 않습니다.

💡 공식 문서가 스캔 시간을 “several hours ~ multiple days”로 표기한 부분은 대부분의 소개 글에서 그냥 넘어가는 내용입니다. 규모가 큰 모노레포를 운영하는 팀이라면 첫 스캔 계획을 별도로 세워야 합니다. (출처: Codex Security FAQ)

▲ 목차로 돌아가기

공식 문서가 인정한 한계가 있습니다

Codex Security를 쓸 때 가장 명심해야 할 건 “패치를 자동으로 적용하지 않는다”는 점입니다. 공식 FAQ는 명확하게 “No. The proposed patch is a recommended remediation”이라고 명시합니다. AI가 diff를 만들어 줄 뿐, 저장소에 직접 적용하는 일은 없습니다. 사람이 검토하고 PR을 열어야 합니다. 이게 당연해 보이지만, “AI가 다 알아서 고쳐준다”는 기대와 실제 워크플로우 사이의 간극은 생각보다 큽니다.

샌드박스 검증이 실패한 경우, 해당 취약점은 “미검증(Unvalidated)” 상태로 남습니다. 미검증이라고 해서 취약점이 없다는 의미가 아닙니다. 재현 시도가 실패했을 뿐, 실제 코드에는 문제가 있을 수 있습니다. 즉, 미검증 항목을 무시하면 진짜 취약점을 놓칠 수 있습니다.

⚠️ 주의: VentureBeat 보도에 따르면 Checkmarx Zero 연구팀이 Claude Code Security(Anthropic)를 대상으로 실험했을 때, 완전한 프로덕션 코드베이스 스캔에서 8개 취약점 중 실제 양성은 2개뿐이었습니다. OpenAI와 Anthropic 모두 독립 제3자 감사를 받은 수치가 아직 없습니다. 공식 발표 수치는 참고치로만 봐야 합니다. (출처: VentureBeat, 2026.03.09)

또한 Veracode의 2025 GenAI Code Security Report 데이터에 따르면, AI가 생성한 코드는 사람이 작성한 코드보다 보안 취약점을 2.74배 더 많이 포함합니다. 이는 Codex Security를 만든 동일한 AI가 코딩에도 쓰이고 있다는 맥락과 붙여 읽어야 합니다. AI 취약점 탐지 도구를 도입하는 동시에, AI 생성 코드에 대한 별도 검증 프로세스도 함께 강화해야 한다는 뜻입니다. 단순히 “스캐너를 더 쓴다”는 접근만으로는 AI 코딩이 늘어나는 속도를 따라잡기 어렵습니다.

▲ 목차로 돌아가기

Anthropic과 14일 차이로 동시 출시된 이유

💡 출시 타임라인을 공식 발표문들과 나란히 놓고 보면 단순한 우연이 아닌 패턴이 보입니다. 두 회사가 서로 다른 아키텍처로 같은 결론에 도달한 시점이 단 2주 차이라는 건 업계 방향성에 대해 시사하는 바가 있습니다.

Anthropic은 2026년 2월 5일 Claude Opus 4.6 출시와 함께 Claude Code Security를 발표하고, 2월 20일 엔터프라이즈·팀 고객 대상 리서치 프리뷰로 공개했습니다. OpenAI는 14일 뒤인 3월 6일에 Codex Security를 공개했습니다. 두 회사는 서로 다른 아키텍처를 사용했는데도 동일한 결론 — “패턴 매칭 SAST에는 구조적 맹점이 있다” — 에 독립적으로 도달했습니다. (출처: VentureBeat, 2026.03.09)

이 타이밍에는 경제적 맥락이 있습니다. 두 회사 모두 IPO를 앞두고 있으며, 엔터프라이즈 보안 시장에서의 존재감이 성장 내러티브에 직접 영향을 줍니다. 현재 두 도구 모두 엔터프라이즈 고객에게 사실상 무료로 제공되고 있는데, VentureBeat는 이로 인해 기존 SAST 라이선스 시장이 하룻밤 사이에 가격 경쟁력을 잃을 수 있다고 분석합니다. “정적 코드 스캐닝이 하루아침에 상품화된다(commoditizes overnight)”는 표현이 현재 보안 시장에서 실제로 일어나고 있는 일입니다.

이 경쟁 구도는 탐지 품질 개선 속도도 끌어올립니다. 한쪽이 놓친 취약점 클래스는 곧 다른 쪽의 개선 항목이 됩니다. 두 도구가 같은 코드베이스를 스캔했을 때 서로 다른 결과를 내면 그 차이 자체가 기업의 보안 맹점 지도가 됩니다. 전문가들이 현시점에서 두 도구를 동시에 써볼 것을 권고하는 이유입니다.

▲ 목차로 돌아가기

자주 묻는 것들

Codex Security는 완전 무료인가요?
현재 리서치 프리뷰 기간 동안 ChatGPT Pro, Plus, Enterprise, Business, Edu 구독자에게 1개월 무료로 제공됩니다. 무료(Free) 계정은 해당되지 않습니다. 1개월 이후 별도 유료 요금이 적용될지 여부는 2026년 3월 기준 아직 공식 발표가 없습니다. (출처: OpenAI 공식 블로그, 2026.03.06)
패치를 AI가 자동으로 배포하나요?
아닙니다. Codex Security는 패치 초안(diff)을 제안할 뿐, 저장소에 자동 적용하지 않습니다. 사람이 제안 내용을 검토하고 직접 PR을 열어 적용해야 합니다. 이는 공식 FAQ에 명시된 설계 원칙입니다. (출처: OpenAI Codex Security FAQ)
어떤 프로그래밍 언어를 지원하나요?
공식 문서는 “언어 무관(language-agnostic)”이라고 명시합니다. 단, 실제 탐지 성능은 해당 언어와 프레임워크에 대한 모델의 추론 능력에 따라 달라집니다. 특수하거나 레거시 언어는 성능 편차가 클 수 있습니다. (출처: OpenAI Codex Security FAQ)
내 코드가 OpenAI 학습에 사용되나요?
공식 문서에 따르면 스캔은 격리된 임시(ephemeral) 컨테이너에서 수행되며 작업 완료 후 삭제됩니다. 다만 코드가 OpenAI 모델 학습에 사용되는지 여부는 별도 데이터 처리 계약(DPA) 조건에 따라 달라집니다. Enterprise 고객은 반드시 계약서 내 학습 제외 조항을 확인해야 합니다. 이 부분은 현재 보안 커뮤니티에서 거버넌스 공백으로 지목되는 항목입니다.
기존 SAST 도구를 없애도 되나요?
아닙니다. OpenAI 공식 FAQ는 “Codex Security는 SAST를 대체하지 않는다”고 명확히 명시합니다. 컨테이너 스캔, 소프트웨어 컴포지션 분석, 런타임 탐지 등은 여전히 기존 스택의 영역입니다. Codex Security는 기존 도구가 구조적으로 탐지하지 못하는 영역을 보완하는 역할입니다.

▲ 목차로 돌아가기

마치며 — 써볼 가치는 있지만, 기대치는 조정해야 합니다

Codex Security가 실제로 수십 년간 전문가들이 놓친 취약점을 잡아냈다는 건 사실입니다. CVE가 14개 배정됐고 베타 수치가 있습니다. 이 부분은 과소평가하면 안 됩니다. 반면 “AI가 알아서 다 고쳐준다”는 기대치는 과하게 높습니다. 아직 리서치 프리뷰 단계고, 패치는 제안이지 자동 적용이 아니며, 독립 감사 수치도 없습니다.

개인적으로 가장 흥미로운 지점은 도구 자체보다 시장 구도입니다. Anthropic과 OpenAI가 14일 간격으로 무료 보안 스캐너를 동시 출시하는 상황은 기존 SAST 유료 라이선스 시장에 상당한 압력이 될 겁니다. 이 경쟁이 탐지 품질 개선 속도를 높이는 건 사용자 입장에서 좋은 일입니다. 단, 같은 모델이 코드를 작성하면서 취약점도 2.74배 더 많이 만들고 있다는 데이터를 함께 기억해야 합니다. 스캐너 도입과 AI 코드 생성 검증 프로세스는 함께 강화해야 하는 짝입니다.

지금 바로 해볼 수 있는 가장 현실적인 행동은 하나입니다. 유료 ChatGPT 구독이 있다면 대표 저장소 하나를 연결해서 기존 SAST 결과와 차이를 비교해 보는 것입니다. 그 차이가 조직의 보안 맹점 지도가 됩니다. 무료 기간이 끝나기 전에 데이터를 직접 확인하는 게 최선입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. OpenAI 공식 블로그 — Codex Security: now in research preview (2026.03.06)
  2. OpenAI Developers — Codex Security FAQ 공식 문서
  3. The Hacker News — OpenAI Codex Security Scanned 1.2 Million Commits (2026.03.07)
  4. VentureBeat — Anthropic and OpenAI just exposed SAST’s structural blind spot (2026.03.09)

본 포스팅은 2026년 3월 18일 공개된 공식 정보를 기반으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Codex Security는 현재 리서치 프리뷰 단계로, 정식 출시 시 접근 조건·요금·기능이 달라질 수 있습니다. 중요한 보안 의사결정은 반드시 공식 최신 문서를 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기