Gemini CLI v0.37.0
IT/AI
구글이 공식 발표문에서 “업계 최대 허용량”이라고 표현한 수치는 틀린 말이 아닙니다. 그런데 막상 써보면 하루치 한도가 생각보다 빨리 닳습니다. 이유는 발표문이 아니라 릴리스 노트 안에 있었습니다.
구글이 2025년 6월 공식 블로그에서 Gemini CLI를 발표하면서 명시한 수치는 딱 두 가지입니다. “분당 60회 모델 요청, 하루 1,000회 요청을 무료 제공.” 공식 발표문 원문에는 “업계 최대 허용량(industry’s largest allowance)”이라는 표현이 그대로 들어가 있습니다. (출처: Google Developers Blog, 2025.06.25)
이 수치는 Gemini Code Assist 공식 할당량 문서에도 동일하게 기재돼 있습니다. 무료(개인 계정) 기준 분당 60회(RPM), 일일 1,000회(RPD). 프로 구독 없이 구글 계정 하나로 접근 가능한 양입니다. (출처: Google Gemini Code Assist 할당량 문서, developers.google.com)
💡 공식 발표문과 실제 할당량 문서를 나란히 놓고 보니 수치는 일치하는데, 정작 “무엇이 1회 요청으로 집계되는가”는 어디에도 명시돼 있지 않았습니다. 이 부분이 실제 소진 속도와 직결됩니다.
하루 1,000회라고 하면 직관적으로 ‘1,000개 질문’처럼 느껴집니다. 그런데 Gemini CLI는 단순 채팅 앱이 아니라 AI 에이전트입니다. 명령 하나에 모델이 파일을 읽고, 검색하고, 서브에이전트를 호출하는 과정에서 API 콜이 복수로 발생합니다. 그러니까 질문 한 번 ≠ 한도 1회 소비라는 구조입니다.
모델 라우팅이 한도 소진 속도를 바꾸는 방식
이 설명만 읽으면 좋은 소식처럼 들립니다. 그런데 실제로는 두 가지 맥락이 같이 있습니다. 첫째, 라우팅 결과는 사용자가 제어할 수 없습니다. Flash로 처리된 요청도 일일 한도 RPD에 동일하게 집계됩니다. 모델이 달라진다고 해서 1회 요청이 0.5회로 줄지 않습니다. 둘째, Plan 모드와 서브에이전트가 활성화된 환경에서는 복잡한 태스크 하나가 내부적으로 여러 번의 모델 호출로 쪼개집니다. 사용자 눈에는 명령 1개지만, 한도 집계 기준으로는 복수의 API 요청입니다.
💡 v0.21.0 릴리스(2025.12.15) 노트에는 “Gemini 3 Flash가 일부 시나리오에서 3 Pro보다 낫다”는 표현도 들어가 있습니다. 모델 라우팅이 단순히 저사양으로 떠넘기는 것이 아니라, 경우에 따라 Flash가 선택될 때 품질 손실이 없을 수도 있다는 뜻입니다.
결국 라우팅은 한도를 ‘늘려주는’ 것이 아니라 ‘효율적으로 쓰게 해주는’ 기능입니다. 하루 1,000회의 절대치는 변하지 않습니다. 그러니 복잡한 에이전트 작업을 하루 종일 돌린다면 한도에 예상보다 빨리 닿을 수 있습니다.
Plan 모드 기본 활성화 후 달라진 쿼터 흐름
그런데 Plan 모드가 기본 활성화됐다는 것은, 명령을 입력하면 실행 전 리서치 단계가 자동으로 먼저 돌아간다는 뜻입니다. 이 리서치 단계에서도 모델 API 호출이 발생합니다. 파일 읽기(`read_file`), 패턴 검색(`grep_search`), 서브에이전트(`codebase_investigator`) 호출 등이 plan 단계에서 실행되고, 이들이 모두 일일 한도에 쌓입니다.
💡 v0.33.0 릴리스(2026.03.11) 노트를 보면 “Plan 모드에 내장 리서치 서브에이전트 추가”라고 나옵니다. 서브에이전트가 리서치를 하는 동안 그 호출들도 한도에 카운트됩니다. Plan 단계가 끝나고 실행 단계에서 또 API가 나갑니다. 실질적으로 태스크 하나당 소비 횟수가 늘어난 구조입니다.
Plan 모드를 끄고 싶다면 `/settings`에서 “Default Approval Mode”를 변경하거나, Plan 모드 토글을 비활성화하면 됩니다. 한도를 아끼고 싶은 작은 태스크라면 Plan 모드 없이 바로 실행하는 것이 더 경제적입니다.
플랜별 한도 직접 비교 — 무료/AI Pro/Ultra
| 플랜 | RPM (분당 요청) | RPD (일일 요청) | 비용 |
|---|---|---|---|
| 무료 (개인 계정) | 60 | 1,000 | $0 |
| Google AI Pro | 120 | 1,500 | 약 $19.99/월 |
| Google AI Ultra | 120 | 2,000 | 약 $249.99/월 |
| Vertex AI 키 (API) | 제한 없음 | 사용량 기반 | 토큰 과금 |
(출처: Google Gemini Code Assist 할당량 공식 문서, developers.google.com/gemini-code-assist/resources/quotas)
AI Pro 구독 시 RPD가 1,000→1,500으로 50% 늘어납니다. RPM은 60→120으로 두 배입니다. 하루 종일 에이전트 작업을 돌리거나 병렬로 여러 세션을 운용하는 경우라면 무료와 Pro 사이의 차이가 실제로 느껴집니다. 반면 가끔 쓰는 개인 개발자라면 무료 1,000회면 충분한 경우가 많습니다.
한 가지 알아두면 좋은 점은, 일일 한도(RPD)의 초기화 시간입니다. Gemini API 공식 문서 기준으로 RPD 할당량은 태평양 표준시(PST) 자정에 재설정됩니다. (출처: Gemini API 비율 제한 공식 문서, ai.google.dev) 한국 시간 기준으로는 오후 4~5시(서머타임 여부에 따라 다름)에 초기화됩니다. 즉, 오후에 한도를 다 써도 같은 날 저녁에 다시 채워집니다.
Claude Code와 실제 비용 구조 비교
AI 코딩 에이전트 시장에서 Gemini CLI의 가장 직접적인 비교 대상은 Claude Code입니다. 이 둘은 한도 구조가 근본적으로 다릅니다. Claude Code는 회당 요청 수가 아니라 시간당 프롬프트 수 방식으로 제한됩니다. Pro($20/월)는 5시간당 10~40개 프롬프트, Max 5x($100/월)는 그 5배입니다. (출처: polyskill.ai, Claude Code vs Gemini CLI 비교, 2026.02.28)
💡 두 서비스의 한도 단위가 다르기 때문에 단순 숫자 비교는 의미가 없습니다. Gemini CLI는 API 호출 횟수 기준, Claude Code는 사용자 프롬프트 기준입니다. Gemini CLI에서 복잡한 태스크 1개가 내부 10회 API 호출을 쓰는 동안, Claude Code는 프롬프트 1개만 소비됩니다.
실제 비용 관점에서는 이렇게 정리됩니다. Gemini CLI 무료는 $0이고 컨텍스트 창은 100만 토큰입니다. Claude Code Pro는 $20/월이고 표준 컨텍스트 창은 200K 토큰(1M은 유료 상위 플랜 베타)입니다. 무료로 100만 토큰 창을 쓸 수 있다는 건 전체 코드베이스를 한 세션에 넣을 수 있다는 뜻인데, 이 부분은 Claude Code 대비 Gemini CLI가 실질적으로 유리한 조건입니다.
| 항목 | Gemini CLI (무료) | Claude Code Pro |
|---|---|---|
| 월 비용 | $0 | $20/월 |
| 컨텍스트 창 | 100만 토큰 | 20만 토큰 (표준) |
| 라이선스 | 오픈소스 (Apache 2.0) | 독점 소프트웨어 |
| 검색 그라운딩 | ✅ Google Search | ❌ 없음 |
| 확장된 추론 | ❌ 없음 | ✅ Extended Thinking |
| IDE 통합 | 터미널 전용 | VS Code 네이티브 |
(출처: polyskill.ai, Claude Code vs Gemini CLI, 2026.02.28)
솔직히 말하면, 두 도구는 경쟁보다는 역할 분담에 더 가깝습니다. 실사용 커뮤니티에서는 “Gemini CLI로 버그 수정·문서 업데이트 같은 반복 작업을 처리하고, 구조 변경이나 아키텍처 결정은 Claude Code로 넘긴다”는 조합이 많이 언급됩니다. (출처: reddit.com/r/GeminiCLI, 2026.03.06)
2026년 4월 기준 최신 변경사항 요약
📌 v0.29.0 (2026.02.17) — Gemini 3 기본 모델 전환
Gemini 3가 프리뷰 플래그 없이 모든 사용자에게 기본 활성화됐습니다. 한도 수치 자체는 바뀌지 않았는데, 같은 1,000회를 쓰면서 이전보다 강한 모델을 씁니다. 무료 계정 기준으로는 사실상 품질 업그레이드입니다. (출처: Gemini CLI v0.29.0 릴리스, 2026.02.17)
📌 v0.34.0 (2026.03.17) — Plan 모드 기본 활성화
Plan 모드가 모든 사용자에게 기본값으로 바뀌었습니다. 앞서 설명한 것처럼 태스크당 API 호출 횟수가 늘어날 수 있습니다. 끄는 방법: `/settings` → “Default Approval Mode” 변경. (출처: Gemini CLI v0.34.0 릴리스, 2026.03.17)
📌 v0.37.0 (2026.04.08) — 동적 샌드박스·Chapters 기능
Linux·Windows에서 동적 샌드박스가 추가됐습니다. 세션 내 도구 호출을 주제별로 묶는 ‘Chapters’ 기능이 도입돼 긴 세션에서 컨텍스트 흐름을 파악하기 쉬워졌습니다. 브라우저 에이전트도 영속 세션을 지원합니다. (출처: Gemini CLI v0.37.0 릴리스, 2026.04.08)
한도를 효율적으로 쓰고 싶다면 `/stats` 명령으로 현재 세션의 쿼터 사용량을 확인하는 습관이 도움이 됩니다. v0.21.0(2025.12.15) 이후 `/stats` 명령이 모든 사용 가능한 모델의 쿼터 정보를 표시하도록 개선됐습니다.
Q&A
Q1. Gemini CLI 무료 한도는 정확히 언제 초기화되나요?
Q2. 구글 AI Studio와 Gemini CLI의 한도는 같은 풀을 공유하나요?
Q3. Plan 모드를 끄면 한도 소진 속도가 실제로 줄어드나요?
Q4. 한도 초과 시 어떻게 되나요?
Q5. Gemini CLI를 설치하려면 무엇이 필요한가요?
npm install -g @google/gemini-cli 명령 한 줄로 설치됩니다. macOS, Windows, Linux 모두 지원합니다. 설치 후 구글 계정으로 로그인하면 추가 설정 없이 Gemini 2.5 Pro(또는 Gemini 3, 버전에 따라 다름)를 터미널에서 바로 사용할 수 있습니다.
마치며
가장 실용적인 접근은 이렇습니다. 먼저 `/stats` 명령으로 현재 쿼터 소비 패턴을 파악해보세요. 단순 반복 작업은 Plan 모드를 끄고 실행하면 한도를 더 아낄 수 있습니다. 한도를 꾸준히 초과한다면 Google AI Pro($19.99/월) 업그레이드로 RPD를 1,500회까지 늘리거나, 중요한 작업만 Vertex AI API 키로 처리하는 방식을 조합할 수 있습니다. 단 Vertex AI는 토큰 과금이 발생하므로 사용 전 요금 시뮬레이션을 먼저 해보는 것이 좋습니다.
이 글 작성 시점 기준 최신 버전은 v0.37.0(2026.04.08)입니다. 주 단위로 업데이트가 나오기 때문에 한도와 기능 변경은 공식 릴리스 노트에서 주기적으로 확인하는 것이 좋습니다.
본 포스팅 참고 자료
- Google Developers Blog — Introducing Gemini CLI (2025.06.25) blog.google
- Google Gemini Code Assist 할당량 및 한도 공식 문서 developers.google.com
- Gemini API 비율 제한 공식 문서 ai.google.dev
- Gemini CLI Plan Mode 공식 발표 (2026.03.11) developers.googleblog.com
- Gemini CLI 공식 릴리스 노트 (geminicli.com) geminicli.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini CLI는 주 단위 릴리스 주기로 업데이트되므로 한도 수치 및 기능은 공식 릴리스 노트(geminicli.com/docs/changelogs)에서 최신 버전 기준으로 확인하시기 바랍니다. 본 포스팅에 기재된 수치는 2026년 4월 14일 기준 공식 문서를 바탕으로 작성됐습니다.

댓글 남기기