
결론부터 말하면, 프롬프트 인젝션 방어는 외부 입력과 운영 지시를 분리하는 것에서 시작합니다. 문서, 댓글, 웹페이지 안의 문장이 모델에게 명령처럼 해석되면 의도하지 않은 답변이나 실행이 나올 수 있습니다.
먼저 가를 기준
판단 기준은 모델이 참고해야 할 내용과 따라야 할 지시가 분리돼 있는지입니다. 외부 텍스트는 데이터로만 다루고, 권한 실행은 별도 검증과 승인 뒤에 하도록 닫아야 합니다.
| 상황 | 판정 | 이유 |
|---|---|---|
| 갈래가 여러 개인 경우 | 시간·위치·대상 중 하나를 먼저 고릅니다 | 기준이 없으면 화면을 따라가도 마지막에 다시 갈립니다 |
| 이름이 비슷한 절차가 있는 경우 | 목적에 맞는 항목을 고릅니다 | 이름이 비슷해도 쓰임새가 다르면 대체가 안 됩니다 |
| 결과가 예상과 다른 경우 | 처음 입력한 조건부터 되짚습니다 | 대부분의 오류는 첫 조건 선택에서 생깁니다 |
| 순서 | 볼 것 | 판단 |
|---|---|---|
| 먼저 닫을 것 | 내 상황을 가르는 기준 하나 | |
| 다음에 볼 것 | 공식 화면에서 요구하는 입력값 | |
| 마지막 판단 | 다시 돌아오지 않게 남길 기록 |
실제로 갈리는 부분
실제로 갈리는 부분은 모델이 알아서 악성 문장을 무시할 것이라고 믿는 경우입니다. 입력 안에 규칙을 바꾸라는 말이 섞이면 검색, 요약, 도구 실행 과정에서 위험해질 수 있습니다.
함께 읽을 글
마치며
저는 프롬프트 인젝션 방어의 핵심은 모델을 불신하는 것이 아니라 경계를 분명히 하는 것이라고 봅니다. 우리 입력, 지시, 권한을 분리해야 공격 문장이 실행으로 이어지지 않습니다.











댓글 남기기