Gemini 에이전트 스킬, 설치해도 0% 개선인 조건이 있습니다

Published on

in

Gemini 에이전트 스킬, 설치해도 0% 개선인 조건이 있습니다
2026.03.31 기준
Gemini API / Agent Skills 표준
IT/AI

Gemini 에이전트 스킬, 설치해도 0% 개선인 조건이 있습니다

Google이 3월 25일 공식 채택한 에이전트 스킬, 설치 방법부터 보안 함정까지—공식 수치로 직접 확인했습니다.

0%
스킬 기본값 개선율
100%
AGENTS.md 통과율
341개
확인된 악성 스킬 수
CVSS 8.8
관련 RCE 취약점 등급

에이전트 스킬이란 무엇인가 — Google이 “채택”한 이유

2026년 3월 25일, Google 개발자 블로그에 조용히 올라온 글 한 편이 있습니다. 제목은 “에이전트 스킬로 지식 격차 해소하기”입니다. (출처: Google Developers Blog, 2026.03.25) 눈에 띄는 건 글의 내용보다 이 기술의 출처입니다. Google이 직접 만든 것이 아닙니다.

에이전트 스킬(Agent Skills)은 AI 에이전트에게 전문 지식을 패키지 형태로 전달하는 오픈 표준입니다. 폴더 하나에 SKILL.md 지시문, scripts/ 실행 코드, references/ 참고 문서를 넣으면 에이전트가 작업 중 필요할 때 꺼내 씁니다. 법무 검토 프로세스, 데이터 분석 파이프라인, 프레임워크별 코딩 규칙 같은 것을 한 번 만들어두면 어느 에이전트 툴에서도 재사용이 가능합니다.

중요한 포인트는 이겁니다. 이 표준은 2025년 10월 Anthropic이 처음 개념을 내놨고, 같은 해 12월 18일 오픈 표준으로 공개됐습니다. (출처: agentskills.io, GitHub/agentskills) Cursor, GitHub Copilot, VS Code, OpenCode가 즉시 채택했고, Google도 Gemini CLI에 적용했습니다. 형식이 표준화됐기 때문에 “한 번 만들면 어디서나 돌아간다”는 말이 실제로 가능해졌습니다.

💡 공식 발표문과 실제 채택 흐름을 나란히 놓고 보니 이런 그림이 보였습니다 — Anthropic이 MCP에 이어 두 번째 표준을 선점한 것이고, Google은 그 표준을 받아들인 쪽입니다.

▲ 목차로 돌아가기

설치만으로는 아무것도 안 바뀝니다 — 숫자가 증명합니다

스킬을 설치하면 에이전트가 알아서 쓸 것 같습니다. 이게 가장 흔한 오해입니다. Vercel이 2026년 1월 27일 공개한 실험 결과를 보면 현실이 다릅니다. (출처: Vercel Blog, “AGENTS.md outperforms skills in our agent evals”, 2026.01.27)

Next.js 16 API 코딩 테스트를 기준으로, 스킬을 설치하지 않은 베이스라인 통과율은 53%였습니다. 스킬을 설치한 뒤 기본값으로 실행했을 때도 53%로 똑같습니다. 56%의 테스트 케이스에서 에이전트가 스킬을 아예 호출하지 않았기 때문입니다. 설치 = 사용이 아닙니다.

설정 통과율 기준 대비
베이스라인 (문서 없음) 53%
스킬 설치 (기본값) 53% +0pp
스킬 + 명시적 지시문 79% +26pp
AGENTS.md 문서 인덱스 (8KB) 100% +47pp

출처: Vercel Blog (2026.01.27) — Next.js 16 API 코딩 에이전트 평가 결과

스킬을 깔았는데 에이전트가 쓰지 않는다면, 그 스킬은 존재하지 않는 것과 같습니다. Google의 Gemini 에이전트 스킬 벤치마크도 같은 패턴을 보여줍니다. Gemini 3.0 Pro 기준, 스킬 없이 테스트했을 때 통과율은 6.8%였습니다. 스킬을 추가하면 크게 올라가지만, 이는 Gemini 3.1 Pro처럼 추론 능력이 강한 모델에서만 효과가 뚜렷합니다. (출처: Google Developers Blog, 2026.03.25)

▲ 목차로 돌아가기

스킬보다 AGENTS.md가 나은 이유 — Vercel 실험 전체 수치

Vercel은 “스킬이 당연히 나을 것”이라고 예상하고 실험을 시작했다고 직접 밝혔습니다. 결과는 반대였습니다. 8KB짜리 압축 마크다운 파일 하나가 스킬 시스템 전체를 이겼습니다. Build 100%, Lint 100%, Test 100%—세 항목 모두 퍼펙트 스코어입니다.

이유는 단순합니다. 에이전트 스킬은 “필요할 때 꺼내 쓰는” 구조라 에이전트가 “지금 이 스킬이 필요한가?”를 스스로 판단해야 합니다. 그 판단 자체가 틀리면 스킬은 없는 것과 같습니다. AGENTS.md는 결정 포인트가 없습니다. 매 턴 시스템 프롬프트에 그냥 들어가 있으니까요.

💡 에이전트 스킬 도입을 검토할 때 “스킬을 만들면 끝”이 아니라는 점—Vercel이 이걸 직접 측정해서 숫자로 보여줬습니다.

Vercel의 권고 사항: 스킬은 “Next.js 앱 라우터로 마이그레이션하기”처럼 사용자가 명시적으로 트리거하는 수직적 워크플로에 적합합니다. 프레임워크 전반의 일반 지식에는 AGENTS.md가 더 안정적입니다. (출처: Vercel Blog, 2026.01.27)

한 가지 더 흥미로운 지점이 있습니다. 명시적 지시문의 표현 방식에 따라 결과가 달라집니다. “무조건 스킬을 먼저 호출하라(MUST)”고 쓰면 에이전트가 프로젝트 구조를 파악하기 전에 문서부터 읽어버려 오히려 정확도가 떨어졌습니다. 같은 스킬인데 지시문 하나 차이로 결과가 갈린다는 건, 이 시스템이 아직 예측 가능한 수준이 아니라는 뜻입니다.

▲ 목차로 돌아가기

Gemini에 스킬이 실제로 작동하는 조건

Google이 Gemini 3.1 Pro로 실행한 벤치마크(117개 프롬프트)에서 스킬 추가 후 통과율이 크게 상승했습니다. 단, 조건이 있습니다. Gemini 3.0 시리즈와 3.1 시리즈 모두 스킬 없이는 통과율이 6.8%로 같습니다. 스킬을 붙였을 때 3.1 Pro는 대부분의 도메인에서 95% 이상으로 올라갑니다. 반면 구버전인 2.5 시리즈는 스킬을 붙여도 향상 폭이 훨씬 작습니다. (출처: Google Developers Blog, 2026.03.25)

추론 능력이 충분한 모델이어야 스킬이 실제로 효과를 냅니다. 약한 모델에 스킬을 달아봤자, 언제 스킬을 써야 하는지 판단 자체를 못 합니다. 이건 Gemini 한정 이야기가 아닙니다. 어떤 모델이든 스킬 시스템의 효과는 모델의 추론 능력에 강하게 의존합니다.

스킬 디렉토리 구조 — 공식 스펙 기준 (2026.03.31)

skill-name/
  ├── SKILL.md      # 필수: YAML 프론트매터 + 지시문
  ├── scripts/      # 선택: 실행 가능한 코드 (Python·Bash·JS)
  ├── references/   # 선택: 세부 문서 (온디맨드 로드)
  └── assets/      # 선택: 템플릿·이미지·데이터 파일

프로그레시브 디스클로저 구조입니다. 시작 시 에이전트는 이름과 설명(약 100토큰)만 읽습니다. 스킬 활성화 결정 후 SKILL.md 전체 로드(5,000토큰 이하 권고), 실제 작업 시에만 scripts·references 파일을 추가 로드합니다. (출처: agentskills.io/specification)

▲ 목차로 돌아가기

아무도 말 안 해주는 보안 위협 — 12% 감염률의 실체

표준이 공개된 지 7주가 지난 2026년 2월 3일, Koi Security가 충격적인 연구를 발표했습니다. OpenClaw가 사용하는 오픈 마켓플레이스 ClawHub의 전체 스킬 2,857개를 감사한 결과 341개가 악성 스킬이었습니다. 감염률 12%입니다. (출처: PurpleBox Security 보고서, 2026.02.03 Koi Security 연구 인용)

방식은 단순했습니다. 크립토 지갑 도구·YouTube 요약기·Polymarket 봇처럼 생긴 스킬 335개가 단일 공격 캠페인에서 나왔습니다. SKILL.md의 “사전 준비” 섹션에 비밀번호 보호 ZIP 파일 다운로드나 난독화된 셸 명령 실행을 지시합니다. 그걸 따르면 Atomic Stealer(AMOS)가 설치되어 자격 증명·브라우저 데이터·암호화폐 키·SSH 키가 빠져나갑니다.

⚠️ CVE-2026-25253 (CVSS 8.8)

OpenClaw의 UI가 쿼리 파라미터의 gatewayUrl을 받아 WebSocket으로 자동 연결하고 인증 자격 증명을 전송합니다. 링크 하나 클릭으로 시스템 전체가 장악됩니다. 2026년 1월 30일 패치됐지만, 같은 날 추가 CVE 두 건이 함께 공개됐습니다. (출처: PurpleBox Security, 2026.02)

Gartner는 OpenClaw를 “용납할 수 없는 사이버 보안 위험”으로 선언했고, Censys는 공개적으로 접근 가능한 인스턴스 21,639개를 확인했습니다. 공개 마켓플레이스의 스킬을 설치하기 전, SKILL.md의 “사전 준비” 섹션에 외부 URL이나 명령 실행이 있는지 반드시 직접 읽어볼 필요가 있습니다. npm 2015년과 비교하면 한 가지가 다릅니다. 그때는 Node.js 프로세스 권한이었고, 지금은 이메일·메시징·파일 시스템·클라우드 자격 증명까지 에이전트 권한 전체가 공격 대상입니다.

▲ 목차로 돌아가기

표준을 Google이 아니라 Anthropic이 만든 이유

MCP(Model Context Protocol)를 기억한다면 이 구조가 낯설지 않을 겁니다. Anthropic이 2024년 MCP를 오픈 표준으로 공개하자 Google·OpenAI·Microsoft가 뒤따라 채택했고, 2025년 12월에는 Linux Foundation으로 이관됐습니다. Agent Skills는 그 다음 단계입니다.

💡 두 발표를 시간 순서로 놓고 보면 패턴이 보입니다 — Anthropic은 오픈 표준 선점 전략을 반복하고 있고, 이번에도 Google이 표준 수용자 역할을 했습니다.

표준이 Anthropic 주도로 만들어졌다는 건 Claude Code에서 스킬이 가장 먼저, 가장 깊이 통합됐음을 의미합니다. 실제로 Gemini CLI의 스킬 활성화 로직은 Gemini CLI의 GitHub 소스 코드에서 Claude와 동일한 시스템 지시문 구조를 사용합니다. (출처: GitHub google-gemini/gemini-cli, 2026.03.25 기준 코드) Anthropic이 만든 표준을 Google 툴이 따르고 있는 셈입니다.

현재 에이전트 스킬을 지원하는 툴은 Claude Code, Cursor, VS Code, GitHub Copilot, Amp, Letta, OpenCode, Gemini CLI입니다. (출처: agentskills.io, 2026.03.31 기준) 스킬은 이 모든 툴에서 동일한 폴더 구조로 작동합니다. 조직 내 AI 에이전트 환경이 여러 툴에 분산돼 있다면, 스킬 한 세트로 전부 커버할 수 있습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. 에이전트 스킬은 무료로 만들 수 있나요?

표준 자체는 Apache 2.0 오픈 라이선스입니다. SKILL.md 파일 하나가 최소 단위고, 텍스트 에디터만 있으면 됩니다. 단, Vercel·Cursor 같은 도구에서 스킬을 활용하려면 해당 도구의 유료 요금제 조건을 별도로 확인해야 합니다. 스킬 자체 제작은 무료, 활용 환경은 별도 확인이 필요합니다. (출처: agentskills.io, Apache 2.0 라이선스 기준)

Q2. Gemini CLI에서 에이전트 스킬을 어떻게 설치하나요?

공식 gemini-api-dev 스킬은 아래 두 방법으로 설치합니다.

# Vercel skills 방식
npx skills add google-gemini/gemini-skills --skill gemini-api-dev --global
# Context7 방식
npx ctx7 skills install /google-gemini/gemini-skills gemini-api-dev

(출처: Google Developers Blog, 2026.03.25) 설치 후 AGENTS.md에 명시적 활성화 지시문을 추가해야 실제 효과가 납니다.

Q3. AGENTS.md 방식이 더 낫다면 에이전트 스킬은 필요 없는 건가요?

용도가 다릅니다. AGENTS.md는 “프레임워크 전반의 일반 지식”을 항상 유지하는 데 강합니다. 스킬은 “Next.js 앱 라우터로 마이그레이션하기”처럼 사용자가 명시적으로 트리거하는 복잡한 다단계 워크플로에 맞습니다. 두 접근은 경쟁 관계가 아니라 보완 관계입니다. (출처: Vercel Blog, 2026.01.27)

Q4. 공개 마켓플레이스의 스킬을 안전하게 쓰는 방법이 있나요?

가장 먼저 할 일은 SKILL.md를 직접 열어서 읽는 것입니다. “사전 준비(Prerequisites)” 섹션에 외부 URL 다운로드나 터미널 명령 실행이 있다면 설치를 중단하세요. 또한 scripts/ 디렉토리의 코드에서 curl/wget이 알 수 없는 IP를 향하거나 base64 인코딩 명령이 있다면 악성 신호입니다. 현 시점에서 코드 서명·샌드박싱·권한 모델이 공식 스펙에 포함되지 않았습니다. (출처: PurpleBox Security, 2026.02)

Q5. 에이전트 스킬과 MCP는 어떻게 다른가요?

MCP는 “에이전트가 외부 서비스·데이터 소스와 연결하는 방법”을 정의합니다. 에이전트 스킬은 “에이전트가 특정 도메인 지식이나 절차를 수행하는 방법”을 패키징합니다. MCP가 플러그처럼 연결선을 제공한다면, 스킬은 연결된 뒤 무엇을 어떻게 처리할지의 설명서와 도구 세트를 제공합니다. 두 표준 모두 Anthropic이 선점했고, Google·OpenAI가 채택한 구조입니다.

▲ 목차로 돌아가기

마치며 — 총평

에이전트 스킬은 “설치하면 끝”이 아닙니다. 스킬을 설치해도 기본값으로는 0% 개선을 보여준 Vercel 수치가 그걸 정확히 말해줍니다. 효과를 내려면 명시적 지시문이 필요하고, 그 지시문의 표현 방식에 따라 결과가 또 달라집니다.

그렇다고 스킬이 가치 없는 것도 아닙니다. 올바르게 설정된 Gemini 3.1 Pro에서는 117개 프롬프트 대부분에서 95% 이상의 통과율을 기록했습니다. 단, “강한 추론 모델 + 명시적 활성화 조건”이 붙어야 합니다.

보안 측면은 솔직히 지금이 가장 위험한 시기입니다. 표준이 나온 지 7주 만에 341개 악성 스킬이 감지됐고, CVSS 8.8짜리 취약점이 터졌습니다. 공개 마켓플레이스에서 스킬을 받아 쓴다면 SKILL.md를 직접 읽는 것이 현재로서는 가장 확실한 방어선입니다.

Anthropic이 MCP에 이어 두 번째 오픈 표준을 선점했고, Google이 이를 Gemini에 채택했습니다. 에이전트 생태계의 표준 전쟁은 아직 진행 중이고, 지금 이 시점에 어떻게 쓰는지 파악해두는 게 앞으로 꽤 유용할 거라 생각합니다.

본 포스팅 참고 자료

  1. Google Developers Blog — “Closing the knowledge gap with agent skills” (2026.03.25)
  2. Agent Skills 공식 스펙 문서 — agentskills.io/specification
  3. Vercel Blog — “AGENTS.md outperforms skills in our agent evals” (2026.01.27)
  4. PurpleBox Security — “AI Agent Skills: The Hidden Supply Chain Risk in 2026”
  5. Agent Skills GitHub 공식 리포지토리 — github.com/agentskills/agentskills
  6. Google Gemini 공식 스킬 라이브러리 — github.com/google-gemini/gemini-skills

본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Agent Skills 표준 스펙·지원 툴·보안 권고 사항은 agentskills.io 및 공식 GitHub에서 최신 내용을 확인하세요. 수치·링크는 공식 문서 기준이며, 이후 버전에서 달라질 수 있습니다.

댓글 남기기


최신 글

  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴면보험금 조회 청구 2026, 내보험찾아줌 전 확인
    휴면보험금 조회 청구 2026 기준으로 보험금 종류, 계약자와 피보험자, 현재 담당 보험사 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 압류조회 해제 2026, 이전등록 전 체크
    자동차 압류조회 해제 2026 기준으로 압류·저당 표시, 기관과 금액, 반영 시점 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 의무보험 미가입 과태료 2026, 조회 전 확인
    자동차 의무보험 미가입 과태료 2026 기준으로 공백 발생일, 명의 이전일과 보험 시작일, 과태료 금액과 납부 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 육아휴직 급여 신청 2026, 회사 확인서 전 체크
    육아휴직 급여 신청 2026 기준으로 시작일과 대상 자녀, 회사 제출 상태, 고용보험 가입 기간 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • ChatGPT Plus 해지 환불 2026, 다음 결제 전 확인
    ChatGPT Plus 해지 환불 2026 기준으로 OpenAI 계정 구독 상태, 앱스토어 구독 목록, 자동 갱신 상태 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 배달앱 주문취소 환불 2026, 조리 시작 전 기준
    배달앱 주문취소 환불 2026 기준으로 가게 접수 전후, 가게 처리 상태, 사진과 주문 내역 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 온라인쇼핑 주문취소 환불 2026, 배송 전후 기준
    온라인쇼핑 주문취소 환불 2026 기준으로 주문 상태와 취소 버튼, 택배 인계 여부, 사진과 상품 페이지 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기