2026.03.28 기준
IT/AI

바이브코딩 보안, 직접 수치로 따져봤습니다

“완성됐어, 배포할게.” — 이 한 마디가 얼마나 위험한지, 연구자들이 수치로 증명했습니다. 기능 테스트를 통과한 코드의 82.8%가 보안 취약하다는 CMU 논문이 나온 게 불과 몇 달 전입니다.

2.74×

AI 코드 보안 취약점

10.5%

보안 통과율(실측)

2,000+

실배포 앱 취약점 수

기능이 돌아간다고 안전한 게 아닙니다

바이브코딩 보안 문제가 본격적으로 수면 위로 올라온 건 2026년 3월입니다. 카네기멜론대(CMU)·콜롬비아대 공동 연구팀이 arXiv에 올린 논문 SusVibes는 실제 오픈소스 프로젝트 108개에서 200개 작업을 추출해 최신 AI 코딩 에이전트를 테스트했습니다.

결과가 충격적입니다. Claude 4 Sonnet 기반 SWE-Agent는 기능 테스트 61%를 통과했지만, 보안 테스트까지 모두 통과한 비율은 10.5%에 불과했습니다. (출처: arXiv:2512.03262, CMU·Columbia University, 2025.12) 즉, AI가 “동작하는 코드”를 만들어도 10개 중 9개는 어딘가에 구멍이 뚫려 있다는 뜻입니다.

💡 공식 논문과 실제 배포 현황을 같이 놓고 보면, “돌아가면 됐지”라는 전제 자체가 틀렸습니다. 기능 통과는 보안 통과와 전혀 별개입니다.

바이브코딩이라는 용어는 2025년 2월 AI 연구자 안드레이 카르파티가 처음 쓴 말입니다. 자연어로 원하는 것을 묘사하면 AI가 코드를 쓰는 방식을 가리킵니다. Collins Dictionary는 이를 2025년 올해의 단어로 선정했고, MIT가 선정한 2026년 10대 혁신 기술 목록에도 들어갔습니다. 인기만큼이나 빠르게 퍼졌고, 그만큼 빠르게 구멍도 커지고 있습니다.

▲ 목차로 돌아가기

공개 앱 5,600개를 스캔해 보니

실험실 숫자만 있는 게 아닙니다. 보안 스타트업 Escape.tech는 실제 인터넷에 공개 배포된 바이브코딩 앱 5,600개를 직접 스캔했습니다. 나온 결과는 취약점 2,000개 이상, 그리고 API 키·인증 정보 등 노출된 시크릿 400개 이상이었습니다. (출처: Forbes, 2026.03.20, Escape.tech 연구 인용)

연구 출처	대상	핵심 수치
CMU·Columbia SusVibes	실 프로젝트 200개 작업	보안 통과율 10.5%
Escape.tech 스캔	배포 앱 5,600개	취약점 2,000+개
CodeRabbit 분석	오픈소스 PR 470개	보안 취약점 2.74배 ↑
Veracode 연구	다수 AI 생성 코드베이스	약 절반이 알려진 취약점 포함

CodeRabbit이 2025년 12월 470개 오픈소스 GitHub 풀리퀘스트를 분석한 결과, AI가 작성한 코드의 보안 취약점은 사람이 작성한 코드보다 2.74배 더 많았고, 논리·정확성 문제는 75% 더 자주 나타났습니다. (출처: Forbes, 2026.03.20) 프로덕션 코드가 이 상태로 실제 사용자에게 배포되고 있다는 게 핵심입니다.

▲ 목차로 돌아가기

보안 경고를 주면 오히려 기능이 망가집니다

“보안에 주의해” 한 마디만 프롬프트에 넣으면 해결되지 않을까요? SusVibes 논문은 이 가정을 직접 실험으로 뒤집었습니다. 연구팀이 세 가지 보안 힌트 전략(일반 보안 안내, 취약점 유형 자기 선택, 정답 CWE 제공)을 테스트한 결과, 보안 점수는 소폭 올랐지만 기능 정확도가 약 77%포인트 급락했습니다. (출처: arXiv:2512.03262, 2025.12)

💡 공식 논문의 실험 수치와 실제 에이전트 동작 방식을 같이 살펴보니 이런 구조가 보입니다. AI 에이전트는 보안 체크에 집중하면 기능 구현 쪽 주의가 분산됩니다. 프롬프트 한 줄로 해결되는 문제가 아닙니다.

결론적으로 연구팀은 “보안과 기능을 동시에 잡을 수 있는 더 정교한 전략이 필요하다”고 밝혔습니다. AI 에이전트가 보안을 우선시하면 기능 구현에 덜 집중하는 경향이 있기 때문입니다. 현재 어떤 프론티어 모델도 이 문제를 완전히 해결하지 못했고, 이유는 아직 공개되지 않았습니다.

▲ 목차로 돌아가기

어떤 취약점이 가장 많이 나오나

SusVibes가 커버한 취약점 유형은 77개(CWE 기준)입니다. AI 코딩 에이전트가 가장 자주 놓치는 유형은 크게 네 가지로 압축됩니다. 첫 번째는 인젝션 취약점입니다. SQL 쿼리에 사용자 입력을 그대로 넣는 패턴이 반복되고, 파라미터화된 쿼리 대신 문자열 조합으로 처리합니다. 테스트 데이터로는 멀쩡히 동작하지만, 실제 악성 입력이 들어오는 순간 DB 전체가 노출됩니다.

두 번째는 인증·권한 오류입니다. 로그인 함수를 생성할 때 해싱은 하지만 알고리즘이 취약하거나, 세션 토큰의 HttpOnly·Secure 플래그를 빠뜨리는 경우가 잦습니다. 세 번째는 하드코딩된 시크릿입니다. Escape.tech 스캔에서 400개 이상의 API 키·인증 정보가 그대로 노출된 게 대표적 사례입니다. (출처: Forbes, 2026.03.20) 네 번째는 취약한 의존성입니다. AI가 라이브러리를 추천할 때 버전 고정이나 CVE 확인 없이 제안하는 경우가 많습니다.

Checkmarx는 한 가지를 더 경고합니다. AI 코딩 도구가 광범위한 권한을 요구하는 구조이기 때문에, 도구 자체가 침해되면 소스코드·인증 정보·민감한 자산이 함께 노출될 수 있다고 지적했습니다. (출처: Checkmarx Blog, 2026.03.17) 도구를 신뢰하는 것 자체가 리스크가 되는 상황입니다.

▲ 목차로 돌아가기

프롬프트 자체가 구멍을 만들 수 있습니다

바이브코딩 보안에서 기존 블로그가 잘 다루지 않는 지점이 있습니다. 취약점이 코드 생성 이후에 생기는 게 아니라, 프롬프트를 입력하는 순간부터 시작된다는 점입니다. Retool의 분석에 따르면, 프롬프트에 샘플 데이터·설정 정보·시스템 연결 방식을 그대로 넣으면, AI가 그 정보를 학습해 비안전한 구현을 생성할 가능성이 높아집니다. (출처: Retool Blog, 2026.03.03)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 보안 구멍이 “코드 검토 단계”에서 나타난다고 생각하기 쉽지만, 입력 프롬프트 안에 이미 들어가 있는 경우가 많습니다.

Wits 대학 IS 교수 Rennie Naidoo는 또 다른 문제를 지적합니다. AI 모델은 공개 레포지토리를 학습했기 때문에 과거의 나쁜 패턴도 함께 흡수했다는 점입니다. 실제로 AI 생성 C 함수에서 버퍼 오버플로 취약점이 발견됐고, Python에서는 멀티플레이어 데이터 교환에 보안상 위험한 pickle 모듈이 사용된 사례도 공개됐습니다. (출처: Wits University/CIO-SA, 2026.03.10)

솔직히 말하면, 자동화 편향(Automation Complacency)이 여기서 크게 작용합니다. AI가 계속 맞아왔으니까 이번에도 맞겠지 — 이 심리가 검토를 건너뛰게 만들고, 그게 취약점이 프로덕션에 도달하는 경로가 됩니다. 도구가 좋아질수록 이 편향은 오히려 강해지는 구조입니다.

▲ 목차로 돌아가기

그래도 쓰려면 이것만은 지켜야 합니다

GitHub Copilot은 현재 평균 개발자 코드의 46%를 AI가 생성합니다. (출처: Forbes, 2026.03.20) 완전히 안 쓰는 건 선택지가 아닙니다. 그렇다면 리스크를 줄이는 실제 방법은 무엇인지 연구 데이터에서 도출한 세 가지를 정리했습니다.

배포 전 자동 보안 스캔은 협상 불가

Snyk·Semgrep·CodeRabbit 같은 도구로 AI 코드를 반드시 스캔해야 합니다. 포브스 기사에서 소개된 실제 팀들은 “바이브코딩을 시작점으로 쓰고, 프로덕션 이전에 자동 스캔”을 표준 워크플로로 세웠습니다. (출처: Forbes, 2026.03.20)

인증·결제·개인정보 코드는 사람이 직접 봐야 합니다

Checkmarx와 Retool 모두 고위험 컴포넌트(인증, 결제, 인프라 스크립트)는 AI 사용을 제한하거나 반드시 전문가 리뷰를 통과시키라고 권고합니다. (출처: Checkmarx Blog, 2026.03.17; Retool Blog, 2026.03.03)

AI가 만든 코드의 소유자를 명확히 해야 합니다

아무도 AI 생성 코드를 “내 코드”로 여기지 않으면, 아무도 유지보수와 보안 패치를 책임지지 않습니다. Retool은 모든 AI 생성 앱에 담당자를 지정하고 PR 리뷰를 통과시키는 구조를 권장합니다. (출처: Retool Blog, 2026.03.03)

이 세 가지는 바이브코딩의 속도 이점을 포기하지 않으면서 리스크를 줄이는 데 실제로 효과가 있다고 보안 전문가들이 지목한 방법입니다. 완벽한 해법은 아직 없고, 더 정교한 보안 전략은 현재 연구 중입니다.

▲ 목차로 돌아가기

Q&A — 자주 묻는 것들

Q1. 바이브코딩으로 만든 모든 앱이 위험한가요?

모든 앱이 위험한 건 아닙니다. 실제 사용자 데이터를 다루지 않는 개인용 프로토타입이라면 리스크가 낮습니다. 문제는 동일한 마인드셋 — “돌아가니까 됐지” — 이 프로덕션까지 이어질 때입니다. CMU 연구에서 대상은 모두 실제 오픈소스 프로젝트였습니다.

Q2. 보안 프롬프트를 추가하면 효과가 없나요?

SusVibes 실험에서 보안 힌트를 추가했을 때 보안 점수는 소폭 올랐지만 기능 정확도가 약 77%포인트 떨어졌습니다. 프롬프트 수준의 보안 지시는 부분적인 효과만 있고, 근본 해법이 아닙니다. 자동화 도구 스캔과 인간 리뷰가 함께 필요합니다. (출처: arXiv:2512.03262)

Q3. Claude, GPT, Gemini 중 어떤 모델이 보안이 가장 나은가요?

SusVibes 기준으로 Gemini 2.5 Pro가 특정 취약점 유형 회피에서 상대적으로 나은 면을 보였고, Claude 4 Sonnet은 기능 통과율에서 앞섰습니다. 그러나 어떤 모델도 평균 보안 통과율이 12.5%를 넘지 못했습니다. 모델 선택보다 검토 프로세스가 훨씬 더 중요합니다. (출처: arXiv:2512.03262)

Q4. 개발자가 아닌 사람이 바이브코딩을 쓸 때 특히 주의할 점이 있나요?

가장 큰 문제는 취약점을 눈으로 봐도 식별하지 못한다는 점입니다. Checkmarx는 이를 “비개발자는 SQL 인젝션이나 인증 오류를 코드 레벨에서 잡지 못한다”고 명시했습니다. (출처: Checkmarx Blog, 2026.03.17) 외부 사용자 데이터를 다루거나, 결제·로그인 기능이 있다면 반드시 개발 경험이 있는 사람의 리뷰를 거치는 게 필수입니다.

Q5. 무료로 쓸 수 있는 보안 검사 도구가 있나요?

Snyk(snyk.io)은 오픈소스 프로젝트 기준 무료 플랜을 제공합니다. Semgrep도 무료 OSS 버전이 있고, GitHub Actions에 통합할 수 있습니다. CodeRabbit은 PR당 자동 리뷰를 제공하는데 공개 레포지토리는 무료입니다. 이 세 도구를 배포 파이프라인에 연결하는 것만으로도 가장 흔한 취약점 다수를 잡을 수 있습니다.

▲ 목차로 돌아가기

마치며

바이브코딩이 빠르다는 건 사실입니다. 단 몇 초 만에 앱을 뚝딱 만들어내는 경험은 실제입니다. 그런데 그 속도가 “검토를 건너뛰어도 된다”는 신호로 읽혀서는 안 됩니다. 공식 연구들이 공통적으로 가리키는 방향은 하나입니다. 바이브코딩은 시작점이지 끝점이 아닙니다.

기능이 통과해도 보안은 통과하지 못한다는 걸 수치로 확인한 이상, “한 번 돌려봤는데 됐다”는 판단은 충분한 근거가 되지 않습니다. 특히 실제 사용자 데이터가 연결되는 순간부터는, 속도의 이점보다 놓친 취약점의 비용이 훨씬 빠르게 불어납니다.

AI 도구가 더 좋아질수록 이 문제가 저절로 해결될 거라고 기대하기 어렵습니다. SusVibes 연구팀도 “더 정교한 보안 전략이 필요하다”고 마무리했습니다. 지금 당장 쓸 수 있는 현실적인 방법은, 속도는 AI에게 맡기고 검토는 사람과 자동화 도구가 함께 가져가는 구조입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

CMU·Columbia University, Is Vibe Coding Safe? Benchmarking Vulnerability of Agent-Generated Code — arxiv.org/html/2512.03262
Forbes / Jodie Cook, Vibe Coding Has A Massive Security Problem (2026.03.20) — forbes.com
Checkmarx, Security in Vibe Coding (2026.03.17) — checkmarx.com
Retool, The Risks of Vibe Coding (2026.03.03) — retool.com
Wits University / CIO-SA, Securing Vibe Coding: The Hidden Risks (2026.03.10) — wits.ac.za

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치와 연구 결과는 2026년 3월 28일 기준이며, 각 연구의 후속 업데이트에 따라 달라질 수 있습니다. 투자·법률·보안 의사결정은 반드시 전문가와 상의하시기 바랍니다.

바이브코딩 보안, 직접 수치로 따져봤습니다

바이브코딩 보안, 직접 수치로 따져봤습니다

기능이 돌아간다고 안전한 게 아닙니다

공개 앱 5,600개를 스캔해 보니

보안 경고를 주면 오히려 기능이 망가집니다

어떤 취약점이 가장 많이 나오나

프롬프트 자체가 구멍을 만들 수 있습니다