Gemini 에이전트 스킬, 28%→97% 수치가 말하는 것

Published on

in

Gemini 에이전트 스킬, 28%→97% 수치가 말하는 것

2026.03.25 기준
Gemini 3.1 Pro Preview 기준
IT/AI

Gemini 에이전트 스킬,
28%→97% 수치가 말하는 것

구글이 3월 25일 공식 블로그에 올린 숫자는 꽤 인상적입니다. 28.2% → 96.6%. Gemini 에이전트 스킬 하나를 추가했더니 117개 과제의 성공률이 이렇게 뛰었다고 합니다. 그런데 같은 테스트 결과표를 끝까지 읽으면, 아무도 먼저 꺼내지 않는 숫자가 있습니다. Gemini 3.0 Pro와 3.0 Flash의 스킬 없는 기준값은 6.8%였습니다.

96.6%
스킬 적용 후 성공률
6.8%
3.0 시리즈 스킬 없는 기준값
36%
공개 스킬 중 보안 취약 비율
79%
스킬 방식의 Vercel 평가 상한

AI가 자기 자신을 모른다는 문제

LLM은 훈련이 끝나는 순간 지식이 멈춥니다. Gemini API SDK가 업데이트되어도, 새로운 모델 ID가 생겨도, 모델은 훈련 데이터에 없던 정보를 알 수 없습니다. 구글 딥마인드가 공식 블로그에서 직접 밝힌 내용입니다 — “모델은 자기 자신이 훈련될 때 스스로에 대해 알지 못한다.”

이게 실무에서 어떻게 나타나냐면, 코딩 에이전트가 Gemini API 코드를 짤 때 구버전 SDK를 참조해서 에러가 나는 상황입니다. 최신 모델 ID 대신 deprecated된 이름을 쓰거나, 이미 바뀐 스트리밍 방식을 예전 방식으로 구현하는 일이 반복됩니다. 개발자 입장에서는 모델이 나쁜 게 아니라 최신 정보가 없는 겁니다.

에이전트 스킬은 바로 이 공백을 메우기 위해 등장했습니다. 기존에는 웹 검색 도구나 MCP 서비스를 붙여서 해결했는데, 스킬은 훨씬 가벼운 방식으로 같은 문제를 다룹니다. (출처: Google Developers Blog, 2026.03.25)

▲ 목차로 돌아가기

Gemini 에이전트 스킬이란 무엇인가

에이전트 스킬은 한 줄로 설명하면 “AI 에이전트에게 전달하는 경량 컨텍스트 패키지”입니다. SKILL.md 파일 하나가 핵심인데, 여기에 기능 설명·최신 코드 예제·공식 문서 진입점을 담아서 에이전트가 항상 최신 정보를 참조하도록 유도합니다. 파일 크기가 수천 토큰 수준이라 모델에 직접 때려넣는 RAG 방식보다 훨씬 가볍습니다.

구글이 이번에 공개한 gemini-api-dev 스킬은 네 가지를 합니다. Gemini API의 고수준 기능 설명, 최신 모델·SDK 안내, 각 언어별 기본 샘플 코드, 그리고 공식 문서 링크 목록 제공입니다. 에이전트가 이 스킬을 활성화하면 fetch_url 도구로 공식 문서를 직접 내려받아 가장 최신 정보를 가져옵니다.

설치는 두 줄입니다. Vercel skills CLI 또는 Context7 skills CLI 중 하나를 씁니다.


# Vercel skills CLI 사용
npx skills add google-gemini/gemini-skills --skill gemini-api-dev --global
# Context7 skills CLI 사용
npx ctx7 skills install /google-gemini/gemini-skills gemini-api-dev

(출처: GitHub google-gemini/gemini-skills, 2026.03.31 기준)

▲ 목차로 돌아가기

96.6%라는 숫자가 숨기고 있는 조건

💡 공식 벤치마크 원문과 실제 기준 모델을 같이 놓고 보니, 뉴스 헤드라인이 담지 않은 숫자가 보였습니다.

96.6%는 Gemini 3.1 Pro Preview 기준입니다. 같은 테스트에서 Gemini 3.0 Pro와 3.0 Flash는 스킬 없이 6.8%에서 출발했습니다. 스킬을 더해도 두 모델의 결과는 공개 발표문에 별도로 명시되지 않았습니다. “구형 2.5 시리즈도 개선됐지만 훨씬 적었다”는 한 줄이 전부입니다. 스킬이 효과를 내려면 강한 추론 능력이 먼저 필요하다는 게 구글의 설명입니다.

모델 스킬 없음 스킬 적용 후 비고
Gemini 3.1 Pro Preview 28.2% 96.6% +68.4%p
Gemini 3.0 Pro / Flash 6.8% 미공개 2.5 시리즈도 유사
Gemini 3 Flash (스킬 적용) 6.8% 87% GitHub README 기준

(출처: Google Developers Blog 2026.03.25 / GitHub google-gemini/gemini-skills)

이 표가 의미하는 건 단순합니다 — 스킬은 이미 잘하는 모델을 더 잘하게 만드는 도구입니다. 낮은 기준에서 출발한 모델에게 스킬이 얼마나 효과적인지는 아직 충분히 공개되지 않았습니다.

▲ 목차로 돌아가기

Vercel이 밝힌 스킬의 한계

💡 구글 자신도 공식 포스트에서 Vercel의 비교 연구를 직접 인용하며 스킬의 대안을 탐색 중이라고 밝혔습니다.

Vercel은 Next.js 16 API를 대상으로 한 에이전트 평가에서 꽤 다른 결론을 냈습니다. 약 8KB 크기의 압축 문서 인덱스를 AGENTS.md에 직접 넣었더니 통과율이 100%였는데, 같은 조건에서 스킬 방식은 최대 79%에 그쳤습니다. AGENTS.md 쪽이 완료 시간도 28.64% 더 빨랐습니다. (출처: Vercel 공식 블로그, 2026.01.27)

구글 딥마인드도 이 결과를 무시하지 않았습니다. “직접 AGENTS.md를 통해 지시하는 방식이 더 효과적일 수 있다는 Vercel의 연구 결과를 알고 있어서 MCP 서비스를 포함한 다른 방식도 탐색 중”이라고 명시했습니다. 스킬이 유일한 해법이 아닐 수 있다는 걸 구글 스스로 인정한 셈입니다.

게다가 스킬에는 업데이트 문제가 있습니다. 한번 설치한 스킬은 수동으로 갱신해야 합니다. 모델이 업데이트됐는데 스킬이 예전 정보를 그대로 담고 있다면, 처음 설치했을 때보다 오히려 나쁜 정보를 제공하는 상황이 생깁니다. 구글 공식 포스트에서도 “장기적으로 오래된 스킬이 더 많은 해를 끼칠 수 있다”고 직접 썼습니다.

▲ 목차로 돌아가기

보안 위협이 되는 공개 스킬들

스킬 생태계가 빠르게 커지면서 예상치 못한 문제가 터졌습니다. Snyk이 2026년 2월 공개한 ToxicSkills 연구에서 ClawHub 등 공개 스킬 저장소의 스킬 3,984개를 전수 분석했더니, 36%인 1,467개에서 보안 취약점이 발견됐습니다. 그 중 76개는 자격 증명 탈취나 데이터 유출을 위한 악성 프롬프트 주입이 확인된 경우였습니다. (출처: Snyk ToxicSkills 연구 블로그, 2026.02.05)

구조적으로 보면 에이전트 스킬은 AI 에이전트의 시스템 프롬프트 앞단에 들어갑니다. 여기에 악의적인 지시가 숨어 있으면 에이전트가 그 지시를 그대로 따릅니다. 개발자가 코드 리뷰를 부탁했더니 스킬 안에 심어진 명령 때문에 API 키가 외부로 전송되는 시나리오가 이미 실증됐습니다.

OWASP도 이에 대응해 2026년 3월 Agentic Skills Top 10을 발표했고, Snyk과 Tessl이 스킬 레지스트리에 보안 점수를 붙이기 시작했습니다. 공개 저장소에서 스킬을 가져다 쓴다면 출처와 관리 주체를 반드시 확인해야 하는 이유가 여기 있습니다.

▲ 목차로 돌아가기

실제로 쓸 때 알아야 할 것들

Gemini CLI나 Google Antigravity(구글의 에이전틱 개발 플랫폼)를 쓰는 개발자라면 gemini-api-dev 스킬은 설치할 만합니다. 단, 스킬이 효과를 내는 건 Gemini 3.1 Pro 이상의 추론 능력을 가진 모델에서입니다. 무료 플랜에서 쓸 수 있는 모델 기준으로는 개선 폭이 훨씬 작을 수 있습니다.

스킬 설계 측면에서 실사용자들이 확인한 원칙이 있습니다. Go 언어용 스킬 cc-skills-golang을 운영하는 개발자의 데이터에 따르면, 3,000개 이상의 어설션 테스트에서 스킬 없이 54%, 스킬 적용 후 97%였습니다. 차이는 +43%p. 이 경우 스킬의 설명(description) 필드를 API 함수 시그니처처럼 명확하게 설계한 덕분이었습니다 — 스킬이 언제 발동해야 하는지를 명확히 적어야 합니다.

SDK 업데이트가 자주 일어나는 프로젝트라면 스킬보다 AGENTS.md에 최신 문서 인덱스를 압축해서 넣는 방식을 먼저 검토하는 게 현실적일 수 있습니다. Vercel의 100% 달성 사례는 8KB짜리 문서 요약 하나로 이뤄진 결과이고, 추가 설치나 수동 업데이트 없이 버전 관리가 됩니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지


스킬 자체는 GitHub 공개 저장소에서 무료로 설치합니다. 다만 스킬이 효과를 내는 건 Gemini 3.1 Pro 이상이고, 이 모델은 Google AI Pro 플랜(월 약 9,500원~) 이상에서 사용 가능합니다. 무료 플랜에서 사용하는 모델에서는 개선 폭이 제한될 수 있습니다.
Claude Code나 Cursor에서도 Gemini 에이전트 스킬이 작동하나요?

기술적으로 에이전트 스킬 형식은 Claude Code, Cursor, Codex, Gemini CLI, OpenCode 등 여러 플랫폼에서 동작합니다. 단, gemini-api-dev 스킬은 Gemini API 사용에 특화된 내용이라 다른 플랫폼에서 쓰면 관련성이 낮습니다. 플랫폼별 전용 스킬이 따로 있습니다.
AGENTS.md와 에이전트 스킬 중 어느 걸 선택해야 하나요?

Vercel 연구 결과를 기준으로 보면, SDK가 자주 바뀌는 프로젝트라면 AGENTS.md가 더 확실합니다. 반면 특정 라이브러리나 프레임워크에 깊이 특화된 지식이 필요한 반복 작업이 있다면 스킬이 유리합니다. 스킬은 “행동 규칙”에, AGENTS.md는 “최신 문서 참조”에 강점이 있습니다.
공개 스킬 저장소에서 다운받은 스킬은 안전한가요?

Snyk ToxicSkills 연구(2026.02.05)에서 공개 스킬의 36%에서 보안 취약점이 발견됐습니다. 구글 공식 저장소(github.com/google-gemini/gemini-skills)는 공식 관리 대상이지만, 서드파티 저장소는 사용 전 Snyk Agent Scanner(uvx snyk-agent-scan@latest --skills ./skills/)로 직접 스캔하는 게 좋습니다.
스킬을 설치해 놓으면 자동으로 업데이트되나요?

아니요. 구글 공식 포스트에서도 이 부분을 한계로 명시했습니다. 스킬은 수동으로 업데이트해야 하고, 업데이트하지 않으면 낡은 정보가 에이전트에 계속 주입됩니다. 구글은 이 문제를 해결할 장기적 방안을 탐색 중이지만, 현재로서는 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

마치며 — 총평

에이전트 스킬은 방향 자체는 맞습니다. LLM의 지식 단절 문제를 가볍고 표준화된 방식으로 다루려는 시도는 실용적입니다. 117개 테스트에서 96.6% 성공률은 설득력 있는 숫자입니다.

그런데 그 숫자를 뒷받침하는 조건들 — 강한 추론 모델, 수동 업데이트, Vercel이 밝힌 AGENTS.md 대비 한계, 그리고 공개 스킬 생태계의 36% 보안 취약률 — 은 아직 대부분의 콘텐츠에서 다루지 않고 있습니다. 좋은 도구를 잘 쓰려면 한계를 아는 게 먼저입니다.

개인적으로는 Gemini CLI를 쓰는 개발자라면 공식 스킬은 설치할 만하고, 서드파티 스킬은 신중하게 고르는 게 맞다고 봅니다. 그리고 스킬만 믿기보다 AGENTS.md와 병행해서 쓰는 게 지금 시점에서 가장 현실적인 선택입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Google Developers Blog — “Closing the knowledge gap with agent skills” (2026.03.25)
    https://developers.googleblog.com/closing-the-knowledge-gap-with-agent-skills/
  2. Google DeepMind — Gemini 3.1 Pro Model Card (2026.02.19)
    https://deepmind.google/models/model-cards/gemini-3-1-pro/
  3. GitHub — google-gemini/gemini-skills 공식 저장소
    https://github.com/google-gemini/gemini-skills
  4. Vercel — “AGENTS.md outperforms skills in our agent evals” (2026.01.27)
    https://vercel.com/blog/agents-md-outperforms-skills-in-our-agent-evals
  5. Snyk — ToxicSkills 연구 (2026.02.05)
    https://snyk.io/blog/toxicskills-malicious-ai-agent-skills-clawhub/
  6. OWASP — Agentic Skills Top 10 (2026.03.21)
    https://owasp.org/www-project-agentic-skills-top-10/

※ 본 포스팅은 2026년 3월 31일 기준으로 작성됐습니다. Gemini API, 에이전트 스킬 정책, 요금제 등은 Google의 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으니, 중요한 결정 전에는 공식 문서를 반드시 직접 확인하세요.

댓글 남기기


최신 글

  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴면보험금 조회 청구 2026, 내보험찾아줌 전 확인
    휴면보험금 조회 청구 2026 기준으로 보험금 종류, 계약자와 피보험자, 현재 담당 보험사 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 압류조회 해제 2026, 이전등록 전 체크
    자동차 압류조회 해제 2026 기준으로 압류·저당 표시, 기관과 금액, 반영 시점 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 자동차 의무보험 미가입 과태료 2026, 조회 전 확인
    자동차 의무보험 미가입 과태료 2026 기준으로 공백 발생일, 명의 이전일과 보험 시작일, 과태료 금액과 납부 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 육아휴직 급여 신청 2026, 회사 확인서 전 체크
    육아휴직 급여 신청 2026 기준으로 시작일과 대상 자녀, 회사 제출 상태, 고용보험 가입 기간 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • ChatGPT Plus 해지 환불 2026, 다음 결제 전 확인
    ChatGPT Plus 해지 환불 2026 기준으로 OpenAI 계정 구독 상태, 앱스토어 구독 목록, 자동 갱신 상태 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 배달앱 주문취소 환불 2026, 조리 시작 전 기준
    배달앱 주문취소 환불 2026 기준으로 가게 접수 전후, 가게 처리 상태, 사진과 주문 내역 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 온라인쇼핑 주문취소 환불 2026, 배송 전후 기준
    온라인쇼핑 주문취소 환불 2026 기준으로 주문 상태와 취소 버튼, 택배 인계 여부, 사진과 상품 페이지 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 개인정보 유출 확인 2026, 털린내정보서비스 조회
    개인정보 유출 확인 2026 기준으로 이메일 계정과 비밀번호 재사용, 카드·간편결제 저장 여부, 낯선 기기와 위치 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기