AI 에이전트 프롬프트 인젝션, 직접 겪고 나서야 보이는 것들

magister

Published on

2026년 3월 22일

IT/AI

2026.03.22 기준
OWASP LLM01:2025
OpenClaw CVE 기준

AI 에이전트 프롬프트 인젝션, 직접 겪고 나서야 보이는 것들

AI 에이전트를 쓰기 전에 알았으면 했던 보안 구멍들 — 공식 자료로 직접 따져봤습니다.

8개

OpenClaw CVE 누적

135,000+

공개 노출 인스턴스

OWASP LLM 위협 순위

결론부터 말씀드리면, AI 에이전트 프롬프트 인젝션은 “해커가 직접 입력창에 무언가를 치는” 공격이 아닙니다. 웹페이지 어딘가에 숨겨진 텍스트 한 줄이 에이전트를 조종할 수 있고, 이건 이미 실제 인터넷에서 관측된 사례입니다(Palo Alto Unit 42, 2026.03). OpenClaw 사태가 터지기 전까지 대부분의 글은 이 차이를 제대로 짚지 않았습니다. 이번엔 공식 자료만 놓고 따져봤습니다.

“직접 입력”해야만 당한다는 오해

AI 보안 글 대부분은 이런 식으로 설명합니다. “악의적인 사용자가 입력창에 ‘이전 지시를 무시하고…’를 입력하면 모델이 오작동한다.” 이게 직접 프롬프트 인젝션입니다. 그리고 솔직히 이건 막기 쉬운 편입니다. 시스템 프롬프트로 걸러낼 수 있고, 입력 검증도 적용됩니다.

문제는 간접 프롬프트 인젝션(Indirect Prompt Injection)입니다. 공격자가 직접 입력창에 접근할 필요가 없습니다. 에이전트가 방문하는 웹페이지, 처리하는 이메일, 요약하는 문서 안에 지시문을 숨겨두면 됩니다. 사용자는 아무것도 누르지 않아도 에이전트는 이미 명령을 받은 상태입니다.

💡 공식 발표문과 실제 공격 흐름을 같이 놓고 보니 이런 차이가 보였습니다
Microsoft MSRC 공식 블로그(2025.07.29)는 간접 인젝션이 “Microsoft에 보고된 AI 보안 취약점 중 가장 많이 사용되는 기법”이라고 밝혔습니다. 직접 인젝션보다 훨씬 광범위하게 쓰이고 있다는 뜻입니다. 같은 문서에서 이 기법이 OWASP Top 10 for LLM 2025 기준 1위(LLM01)라는 점도 확인됩니다.(출처: Microsoft MSRC Blog, 2025.07.29)

기존 블로그들이 직접 인젝션 예시만 다루는 동안, 실제 공격은 간접 경로로 빠르게 이동하고 있었습니다. OpenClaw 사태가 이걸 한 번에 가시화했습니다.

▲ 목차로 돌아가기

공식 분류: 간접 인젝션이 더 위험한 이유

공격자가 사용자 자리에 없어도 됩니다

Microsoft의 정의를 직접 옮기면 이렇습니다. 공격자는 피해자가 에이전트에게 읽어달라고 건넨 외부 텍스트(웹페이지, 이메일, 문서)에 명령을 심어둡니다. 에이전트는 그 텍스트를 정당한 데이터로 인식하고 처리하면서 숨겨진 명령도 함께 실행합니다. 사용자는 아무것도 하지 않았는데 에이전트가 이미 공격자 명령을 수행한 상태가 됩니다.(출처: Microsoft MSRC Blog, 2025.07.29)

실제 인터넷에서 관측된 7가지 피해 유형

Palo Alto Unit 42가 2026년 3월에 발표한 실측 보고서는 이 공격이 이론이 아니라는 걸 숫자로 보여줍니다.(출처: Palo Alto Unit 42, 2026.03.03) 실제 웹사이트에서 관측된 피해 의도는 다음과 같습니다.

심각도	공격 의도	실제 사례
Critical	데이터 삭제, 서비스 마비	DB 삭제 명령, fork bomb 삽입
High	무단 결제, AI 심사 우회	Stripe 결제 리디렉션, 광고 승인 조작
Medium	채용 심사 조작, 리뷰 조작	이력서 스크리닝 AI 속이기
Low	스크래핑 방해, 불필요 출력	봇 차단 텍스트, 리소스 낭비 유도

▲ 출처: Palo Alto Unit 42 실측 보고서(2026.03.03) 기반 재구성. 22개 공격 기법 분류 중 주요 항목.

특히 “AI 광고 심사 우회”는 2025년 12월 최초 보고된 건데, 광고 검토 AI가 숨겨진 텍스트를 읽고 사기 광고를 “승인됨”으로 처리한 사례입니다. 자동화된 AI 검수 시스템이 오히려 공격의 표적이 됩니다.

▲ 목차로 돌아가기

OpenClaw 사태로 드러난 숫자들

하루에 25,000 스타, 3주 만에 CVE 8개

2026년 1월 마지막 주, OpenClaw는 GitHub에서 하루 만에 별 25,000개를 받으며 역대 가장 빠르게 성장한 오픈소스 프로젝트 중 하나가 됐습니다. 2월 중순에는 이메일, 터미널, 파일 시스템 전부에 접근 권한을 가진 AI 에이전트가 135,000개 이상 공개 인터넷에 노출됐습니다.(출처: AdminByRequest, 2026.03.10)

그리고 2026년 3월 기준 누적 CVE는 8개, 보안 감사에서 확인된 총 취약점은 512개입니다. 가장 치명적인 CVE-2026-25253(CVSS 8.8)은 사용자가 특정 웹페이지만 방문해도 에이전트 전체를 외부에서 제어할 수 있는 원격 코드 실행(RCE) 취약점입니다. 프롬프트 인젝션과 취약한 기본 설정이 결합되면 어떤 결과가 나오는지 보여주는 사례입니다.(출처: AdminByRequest, 2026.03.10)

💡 기본 설치 상태 그대로 두는 것 자체가 공격 경로입니다
OpenClaw는 기본값으로 WebSocket 인증이 꺼져 있고, 어떤 사이트에서 오는 연결도 수락했습니다. 잘못된 설정이 아닙니다 — 이게 ‘기본값’이었습니다. SecurityScorecard가 확인한 135,000개 노출 인스턴스 중 50,000개 이상이 RCE에 취약한 상태였습니다.(출처: AdminByRequest, 2026.03.10) 절반에 가까운 인스턴스가 기본 설치 그대로 방치됩니다.

기업 환경에 몰래 들어온 에이전트

Token Security의 기업 고객 설문에서 22%가 직원들이 OpenClaw를 업무용 기기에서 무단 사용 중이라고 응답했습니다. Bitdefender 텔레메트리에서도 직원들이 단일 설치 명령어 하나로 터미널·디스크 전체 접근 권한을 가진 에이전트를 회사 PC에 올렸다는 게 확인됐습니다.(출처: AdminByRequest, 2026.03.10) 이런 경우 에이전트가 OAuth 토큰이나 SSH 키에 접근하면 피해는 개인 PC를 넘어서 프로덕션 서버까지 퍼집니다.

▲ 목차로 돌아가기

패치해도 막히지 않는 공격 경로

공급망 공격: 마켓플레이스 자체가 타깃이 됩니다

CVE를 패치해도 ClawHub(OpenClaw 스킬 마켓플레이스)를 통한 공급망 공격은 별도로 진행됩니다. Koi Security가 2,857개 스킬을 전수 감사한 결과 341개가 악성이었고, 이 중 335개가 단일 공격 조직의 소행으로 추정됩니다.(출처: AdminByRequest, 2026.03.10) 2026년 3월 1일 기준 악성 스킬은 1,184개로 늘었습니다. 패치가 나오는 속도보다 악성 스킬이 올라오는 속도가 빠릅니다.

macOS 사용자의 경우 해당 스킬을 설치하면 Atomic macOS Stealer가 실행되며 브라우저 자격증명, 키체인, SSH 키, 암호화폐 지갑 데이터가 공격자 서버로 전송됩니다. 에이전트 스킬은 에이전트와 같은 권한으로 실행되기 때문에, 터미널 접근 권한을 가진 에이전트에 악성 스킬이 설치되면 그 PC에서 할 수 있는 모든 작업을 공격자가 대리 수행하는 것과 같습니다.

숨기는 방법이 22가지입니다

Palo Alto Unit 42 보고서가 실제 인터넷에서 관측한 숨김 기법은 22종입니다. CSS로 폰트 크기를 0으로 설정하거나, 배경과 글자 색상을 동일하게 맞추거나(흰 배경에 흰 글씨), 화면 밖 좌표에 텍스트를 배치하는 방식이 대표적입니다.(출처: Palo Alto Unit 42, 2026.03.03) 여기서 중요한 지점이 있습니다.

⚠️ 사람 눈에는 안 보여도 AI는 읽습니다
사용자가 웹페이지를 봤을 때 아무 이상한 텍스트가 없어도, 에이전트가 그 페이지를 처리하면 숨겨진 명령을 수행할 수 있습니다. HTML을 그대로 파싱하는 AI 에이전트는 CSS 렌더링 결과가 아니라 원본 DOM을 읽기 때문입니다. Base64로 인코딩된 명령을 자바스크립트가 런타임에 해독해서 삽입하는 기법도 있어서, 정적 HTML만 검사하는 보안 도구로는 탐지가 어렵습니다.(출처: Palo Alto Unit 42, 2026.03.03)

한 가지 더 있습니다. RAG(검색 증강 생성) 파이프라인을 쓰는 경우, 공격자가 문서나 이메일 하나를 데이터 소스에 심어두면 그 데이터를 읽는 모든 사용자의 에이전트가 같은 명령을 받게 됩니다. NVIDIA AI Red Team이 실제 평가에서 가장 자주 발견하는 취약점 중 하나입니다.(출처: NVIDIA AI Red Team Blog, 2025.10.02)

▲ 목차로 돌아가기

Microsoft·NVIDIA가 실제로 쓰는 방어 방법

완벽한 차단은 없다고 공식 인정했습니다

이 부분이 기존 보안 글이 말하지 않는 지점입니다. Microsoft MSRC는 공식 문서에서 “간접 프롬프트 인젝션은 현대 LLM의 확률적 언어 모델링에서 본질적으로 발생하는 위험”이라고 명시했습니다.(출처: Microsoft MSRC Blog, 2025.07.29) 완전히 차단하는 게 원리적으로 불가능하다는 뜻입니다. 그래서 Microsoft는 단일 방어가 아닌 다층 방어를 씁니다.

Microsoft가 실제로 적용하는 방법 세 가지입니다.

① Spotlighting

신뢰할 수 없는 외부 텍스트를 특수 구분자로 감싸서 LLM이 사용자 지시와 분리 인식하도록 유도합니다. 확률적 방어라 100% 보장은 없으나 성공률을 크게 낮춥니다.(출처: Microsoft MSRC Blog, 2025.07.29)

② Prompt Shields

Azure AI Content Safety의 분류기 기반 탐지 API입니다. 다국어 인젝션 기법까지 지속 업데이트 중입니다. Microsoft Defender for Cloud와 통합되어 기업 전체 AI 워크로드 알림을 한 곳에서 볼 수 있습니다.(출처: Microsoft MSRC Blog, 2025.07.29)

③ Human-in-the-Loop

이메일 발송처럼 민감한 행동은 에이전트가 생성한 내용을 사람이 직접 확인·승인해야 실행됩니다. Microsoft가 “확실한 방어는 이것”이라고 인정한 유일한 결정론적 방어입니다.(출처: Microsoft MSRC Blog, 2025.07.29)

NVIDIA Red Team이 가장 먼저 막으라는 것

NVIDIA AI Red Team이 수십 개 AI 애플리케이션을 평가하면서 가장 자주 발견한 취약점 1위는 “LLM이 생성한 코드를 샌드박스 없이 exec/eval로 실행하는 것”입니다. 프롬프트 인젝션이 여기와 결합되면 원격 코드 실행이 ‘거의 자명하게’ 발생한다고 표현했습니다.(출처: NVIDIA AI Red Team Blog, 2025.10.02) exec·eval 함수를 완전히 배제하거나 WebAssembly 기반 격리 샌드박스로 감싸는 게 우선입니다. 코드 생성 기능을 쓰는 에이전트라면 이 부분이 급합니다.

▲ 목차로 돌아가기

Q & A

Q1. ChatGPT나 Claude 같은 서비스에서 웹 검색 기능을 쓰면 간접 인젝션에 노출되나요?

원리적으로는 노출 가능성이 있습니다. 에이전트가 외부 웹페이지를 요약하거나 크롤링할 때, 해당 페이지에 숨겨진 지시문이 있으면 에이전트가 그것을 명령으로 해석할 수 있습니다. 다만 OpenAI·Anthropic 등 주요 서비스는 자체 필터링과 출력 제한을 적용해 즉각적인 데이터 유출을 막는 구조를 갖추고 있습니다. 각 서비스의 시스템 보안 아키텍처에 따라 리스크 수준이 다릅니다. 공식 발표 내용은 각 서비스 보안 페이지에서 확인하는 게 정확합니다.

Q2. OpenClaw는 이미 패치됐는데 지금도 위험한가요?

CVE 패치 기준 버전은 v2026.2.26 이상입니다. 이전 버전은 여전히 CVE-2026-25253에 취약합니다. 단, 클라우�Hub 공급망 공격(악성 스킬)은 버전 업그레이드와 별개 문제입니다. 2026년 3월 1일 기준 1,184개 이상의 악성 스킬이 확인됐으므로, 2월 이전에 설치된 스킬은 신뢰도를 별도로 검증해야 합니다.(출처: AdminByRequest, 2026.03.10)

Q3. Spotlighting은 왜 100% 방어가 안 되나요?

LLM은 본질적으로 확률적으로 텍스트를 생성합니다. 구분자나 인코딩으로 “이 부분은 명령이 아니다”라고 알려줘도, 모델이 항상 그 지시를 완벽히 따르는 보장이 없습니다. Microsoft는 이를 “확률적 방어”로 분류합니다. Spotlighting 연구 논문(arXiv:2403.14720)에서 성공률 수치를 확인할 수 있지만, 공격 기법이 진화하면 수치도 달라집니다. 그래서 단일 방어가 아닌 다층 방어가 필요합니다.(출처: Microsoft MSRC Blog, 2025.07.29)

Q4. 일반 사용자가 할 수 있는 현실적인 예방 방법이 있나요?

가장 현실적인 방법은 에이전트에게 부여하는 권한 범위를 최소화하는 것입니다. 이메일 읽기 권한은 줘도 발송 권한은 주지 않는 식입니다. 파일 시스템 접근도 특정 폴더로 제한합니다. 사용자 확인 없이 외부 액션을 자동 수행하는 기능은 끄거나 항상 승인 모드로 설정합니다. NVIDIA AI Red Team이 권장하는 최소 권한 원칙(Principle of Least Privilege)을 에이전트 설정에 그대로 적용하면 됩니다.(출처: NVIDIA AI Red Team Blog, 2025.10.02)

Q5. 이 공격이 앞으로 더 많아질까요?

Palo Alto Unit 42는 AI 에이전트가 웹·이메일·파일 처리에 더 깊이 통합될수록 간접 프롬프트 인젝션의 공격 표면이 커진다고 명시했습니다.(출처: Palo Alto Unit 42, 2026.03.03) 에이전트 채택이 늘수록 공격 시도도 늘어나는 구조입니다. 아직 이론 수준에 머물던 공격이 이미 실제 인터넷에서 관측된 만큼, 이후 AI 에이전트 보안은 기능 개발만큼이나 중요한 과제가 됩니다.

▲ 목차로 돌아가기

마치며

AI 에이전트 프롬프트 인젝션에 대해 쓴 글 대부분은 “이런 명령을 넣으면 탈옥된다”는 수준에서 멈춥니다. 막상 공식 자료를 직접 따져보니 훨씬 복잡합니다. 공격자가 입력창에 접근할 필요가 없고, 숨김 방법이 22가지이며, Microsoft 스스로 완전 차단이 불가능하다고 인정한 구조입니다.

그렇다고 에이전트를 쓰지 말라는 게 아닙니다. 권한을 최소로 주고, 민감한 액션은 항상 사람이 확인하도록 설정하고, 설치하는 스킬의 출처를 꼭 확인하는 것 — 이 세 가지가 현재로선 가장 현실적인 대응입니다. OpenClaw 사태는 앞으로 계속 나올 “바이럴 AI 에이전트”가 처음부터 동일한 함정을 품고 있을 수 있다는 걸 보여줍니다.

개인적인 의견으로는, AI 에이전트가 일상에 스며들수록 보안 설정이 “선택 사항”이 아니라 설치 첫 화면에서 강제되어야 한다고 봅니다. 기본값이 곧 보안 수준이 되는 시대입니다.

본 포스팅 참고 자료

Microsoft MSRC Blog — How Microsoft Defends Against Indirect Prompt Injection Attacks (2025.07.29)
Palo Alto Networks Unit 42 — Web-Based Indirect Prompt Injection Observed in the Wild (2026.03.03)
NVIDIA AI Red Team Blog — Practical LLM Security Advice from the NVIDIA AI Red Team (2025.10.02)
AdminByRequest — OpenClaw Went from Viral AI Agent to Security Crisis in Just Three Weeks (2026.03.10)
OWASP Gen AI Security Project — LLM01:2025 Prompt Injection

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 CVE 정보·버전 정보는 2026.03.22 기준이며, 최신 내용은 각 공식 문서에서 직접 확인하시기 바랍니다.

AI에이전트보안, 간접프롬프트인젝션, 프롬프트인젝션, OpenClaw취약점, OWASP LLM

AI 에이전트 프롬프트 인젝션, 직접 겪고 나서야 보이는 것들

AI 에이전트 프롬프트 인젝션, 직접 겪고 나서야 보이는 것들

“직접 입력”해야만 당한다는 오해