2026.03.24 기준 / Gemini 2.5 Pro (정식 출시판)
공식 문서와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
무료로 쓰는 Gemini 2.5 Pro — 하루 100번의 현실
결론부터 말씀드리면, Gemini 2.5 Pro는 무료로도 쓸 수 있습니다. 신용카드 없이 Google AI Studio 계정만 있으면 됩니다. 그런데 막상 써보면 생각보다 빨리 막힙니다.
공식 Gemini API Rate Limits 문서(출처: ai.google.dev/gemini-api/docs/rate-limits, 2026.03.23 업데이트)에 따르면 무료(Free) Tier 기준 Gemini 2.5 Pro의 한도는 다음과 같습니다.
| 모델 | RPM (분당 요청) |
TPM (분당 토큰) |
RPD (일일 요청) |
|---|---|---|---|
| Gemini 2.5 Pro | 5 | 250,000 | 100 |
| Gemini 2.5 Flash | 10 | 250,000 | 250 |
| Gemini 2.5 Flash-Lite | 15 | 250,000 | 1,000 |
하루 100번. 챗봇처럼 짧은 대화를 나누면 꽤 넉넉해 보이지만, 문서 분석이나 코드 리뷰처럼 긴 입력을 반복하면 오전 중에 한도가 소진됩니다. RPM이 5라는 점도 중요합니다. 60초 안에 요청을 6번 이상 보내면 429 오류가 납니다.
그리고 한 가지 더 — 일일 한도(RPD)는 태평양 표준시(PT) 자정에 초기화됩니다. 한국 시간 기준으로는 오후 5시(KST, 서머타임 미적용 기준)입니다. 낮에 다 써버렸다면 저녁부터 다시 쓸 수 있는 셈입니다.
1M 토큰은 어디서 쓸 수 있는가 — 앱과 API의 차이
Gemini 광고에서 가장 자주 나오는 문구 중 하나가 “1백만 토큰 컨텍스트 윈도우”입니다. 실제로 공식 문서에도 “1M 토큰 컨텍스트 윈도우”라고 명시돼 있습니다. (출처: 구글 코리아 공식 블로그, 2025.03.26)
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 1M 토큰은 API를 직접 호출할 때 적용되는 수치이고, Gemini 앱(소비자 UI)에서는 별도의 슬라이딩 윈도우 처리가 적용됩니다.
실제로 Reddit의 r/GeminiAI 커뮤니티에서 점수 378점, 참여율 97%를 기록한 스레드(2026.01.21)에서 유료 Gemini Pro 구독자가 직접 측정한 결과, 약 30개 메시지(약 30k 토큰)를 넘어서자 앞선 대화 내용을 잊기 시작했습니다. AI Studio에 동일한 대화를 복사해보니 토큰 수가 30k 수준이었다는 점도 확인됐습니다. 앱에서 광고하는 1M 토큰과 실제 동작이 다르다는 것입니다.
한 커뮤니티 댓글(점수 99점)은 이를 이렇게 정리했습니다. “일반 웹사이트에서는 기억이 잘 안 되는데, AI Studio에서는 완전히 정상으로 작동한다. 왜 일반 사용자 UI가 이렇게 제한되는지 이해할 수 없다.” 또 다른 댓글에서는 “Google은 응답 속도를 위해 긴 대화의 앞부분을 요약하거나 제거하는 설계를 선택했다”는 분석을 내놓았습니다.
정리하면, 1M 토큰은 API를 통해 직접 접근할 때 누릴 수 있는 기능입니다. Gemini 앱에서 유료 구독을 쓴다고 해서 자동으로 1M 컨텍스트가 보장되지 않습니다. 긴 문서 분석이나 장편 소설 작업이 목적이라면 Google AI Studio(aistudio.google.com) 또는 API 직접 호출이 필요합니다.
Thinking 토큰이 청구서를 2배로 만드는 구조
Gemini 2.5 Pro는 내부적으로 “사고 과정(Thinking)”을 거칩니다. 이 사고 토큰은 사용자 눈에 보이지 않지만, 과금 기준에는 포함됩니다. 공식 Thinking 문서에 이렇게 나옵니다. “응답 요금은 출력 토큰과 사고 토큰의 합산입니다.” (출처: ai.google.dev/gemini-api/docs/thinking, 2026.03.24 확인)
💡 Thinking 토큰 수는 `thoughtsTokenCount` 필드에서 직접 확인할 수 있습니다. API 응답에 포함되므로 실제 과금 내역을 추적하는 데 활용할 수 있습니다.
공식 문서의 thinkingBudget 설명에 따르면, Gemini 2.5 Pro의 기본 설정은 “동적 사고(Dynamic thinking)”입니다. 별도 지정 없이 쓰면 모델이 요청 복잡도에 따라 알아서 사고 토큰을 씁니다. 최대 32,768 토큰까지 사고에 쓸 수 있고, 사고를 끄는 것(thinkingBudget = 0)은 Gemini 2.5 Pro에서 지원되지 않습니다. 사고를 완전히 끄고 싶다면 Flash나 Flash-Lite를 사용해야 합니다.
실제로 어떤 차이가 나는지 간단히 계산해볼 수 있습니다. Paid Tier 기준 Gemini 2.5 Pro 요금은 아래와 같습니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 확인)
| 항목 | 200k 토큰 이하 | 200k 초과 |
|---|---|---|
| 입력(Input) | $1.25 / 1M 토큰 | $2.50 / 1M 토큰 |
| 출력+사고(Output+Thinking) | $10.00 / 1M 토큰 | $15.00 / 1M 토큰 |
출력 토큰이 1,000개, 사고 토큰이 추가로 2,000개 발생했다면 실제 과금은 출력 3,000 토큰 기준으로 계산됩니다. 사고 과정이 길수록 예상보다 비용이 커질 수 있습니다. 간단한 요청에는 `thinkingBudget`을 낮게 설정하는 게 실용적입니다.
2025년 12월, 조용히 바뀐 무료 한도
2025년 12월 7일, 구글은 사전 공지 없이 무료 Tier의 API 한도를 대폭 줄였습니다. 특히 Flash 모델은 일일 한도가 250회에서 20회로 줄었습니다. 92% 감소입니다. (출처: blog.laozhang.ai, 2026.02 기준 분석)
⚠️ 변경 전후 한도 비교 (Flash 기준)
· 변경 전(2025년 11월): 일일 250회 / 분당 60회
· 변경 후(2025년 12월 이후): 일일 20회 / 분당 10회
· 감소폭: RPD 92% ↓ / RPM 83% ↓
구글 측은 “Gemini 3 수요를 위해 컴퓨팅 자원을 재배치했다”고 설명했지만, 개발자 포럼에서는 별도 안내 없이 변경됐다는 점에서 불만이 이어졌습니다. 이 사건 이후 무료 Tier를 프로덕션 환경에서 쓰는 것은 사실상 위험한 선택으로 굳어졌습니다.
2.5 Pro의 무료 한도는 현재 일일 100회로 유지 중입니다. 하지만 이 수치도 언제든 변경될 수 있습니다. 실제 서비스에 붙일 기능이라면 처음부터 Tier 1(과금 연동)로 설계하는 게 안전합니다.
GPT-4o·Claude와 요금제 구조 직접 비교
숫자를 직접 놓고 보면 Gemini 2.5 Pro의 장점이 더 선명해집니다. 2026년 2월 기준, 주요 모델 Paid Tier 1M 토큰당 입력 단가를 보면 Gemini 2.5 Pro($1.25)는 GPT-4o($5.00)의 약 4분의 1 수준, Claude Sonnet 4.6($3.00)의 절반 이하입니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 확인)
| 모델 | 입력 (1M 토큰) |
출력 (1M 토큰) |
컨텍스트 윈도우 |
무료 Tier |
|---|---|---|---|---|
| Gemini 2.5 Pro | $1.25 | $10.00 | 1M 토큰 | ✅ 있음 |
| GPT-4o | $5.00 | $15.00 | 128k 토큰 | ❌ 없음 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 200k 토큰 | 제한적 |
단가만 보면 Gemini가 압도적으로 유리합니다. 다만 분당 처리량(TPM) 관점에서도 Gemini 2.5 Pro의 Tier 1 한도는 1,000,000 TPM으로, OpenAI의 200,000 TPM 대비 5배 높습니다. 대용량 문서나 코드베이스를 처리하는 용도에서는 이 차이가 실질적인 처리 속도 차이로 나타납니다.
단, 멀티턴 대화에서 긴 컨텍스트를 유지해야 하거나, 응답 품질 자체를 최우선시하는 작업이라면 Claude의 컨텍스트 관리 방식이 더 안정적이라는 평가도 있습니다. 비용이 목적이면 Gemini, 품질과 신뢰성이 목적이면 현재로선 교차 검토가 필요합니다.
Tier 올리는 조건 — 달력과 금액 둘 다 봐야 합니다
무료 한도가 부족하다면 Tier 1으로 올릴 수 있습니다. 방법은 Google Cloud Console에서 결제 수단을 연동하는 것뿐입니다. 연동 즉시 Tier 1으로 업그레이드되고, RPD가 1,500회로 늘어납니다. 이 절차는 별도 심사 없이 즉시 처리됩니다.
💡 Tier 구조를 실제 사용 패턴과 맞춰보면 이런 그림이 나옵니다. Tier 2는 누적 $250 결제 + 최초 결제 후 30일 경과가 동시에 충족돼야 합니다. 금액을 빨리 채워도 30일이 안 됐으면 자동 승급이 안 됩니다.
| Tier | 2.5 Pro RPM | 2.5 Pro RPD | 조건 |
|---|---|---|---|
| Free | 5 | 100 | 결제 없음 |
| Tier 1 | 150 | 1,500 | 결제 수단 연동 즉시 |
| Tier 2 | 500 | 10,000 | 누적 $250 결제 + 30일 경과 |
| Tier 3 | 1,000+ | 커스텀 | 누적 $1,000 + 30일 / 또는 영업팀 협의 |
한 가지 놓치기 쉬운 부분이 있습니다. 구글 클라우드 무료 크레딧은 Tier 2·3 자격 기준의 $250 누적 결제에 포함되지 않습니다. 실제 청구된 금액만 카운트됩니다. 다른 Google Cloud 서비스(예: Cloud Storage, Compute Engine)의 결제도 합산되므로, 이미 다른 서비스를 쓰고 있다면 그 금액이 반영됩니다.
여러 API 키를 만들어도 같은 프로젝트 안에서 한도를 공유합니다. 진짜로 별도 한도를 갖고 싶다면 프로젝트 자체를 분리해야 합니다.
자주 묻는 질문 Q&A
마치며 — 광고 수치와 실사용 수치 사이
Gemini 2.5 Pro는 분명히 매력적인 모델입니다. 가격 대비 성능으로 보면 현재 주요 모델 중 가장 효율이 좋은 축에 속합니다. SWE-Bench Verified에서 63.8%를 기록했고, LMArena 리더보드에서 상위권을 유지 중입니다. (출처: 구글 공식 블로그, 2025.03.26)
그런데 막상 써보니 알아두면 좋은 게 있었습니다. 1M 토큰은 API에서만 실현되고, 앱에서는 슬라이딩 윈도우가 적용됩니다. Thinking 토큰은 눈에 안 보이지만 과금에 잡힙니다. 무료 한도는 2025년 12월 이후 조용히 줄었고, 앞으로도 변할 수 있습니다.
이 세 가지를 알고 시작하면 기대와 현실의 간격이 훨씬 좁아집니다. 무료로 시작해서 쓰다가 Tier 1으로 넘어가는 흐름이 가장 자연스럽고, 대용량 문서 작업은 Gemini 앱 대신 AI Studio를 쓰는 게 맞습니다.
본 포스팅 참고 자료
- 구글 공식 블로그 — 제미나이 2.5 소개 (blog.google, 2025.03.26)
- Gemini API 공식 Rate Limits 문서 (ai.google.dev/gemini-api/docs/rate-limits, 2026.03.23 업데이트)
- Gemini API 공식 Pricing 문서 (ai.google.dev/gemini-api/docs/pricing, 2026.03.24 확인)
- Gemini API 공식 Thinking 문서 (ai.google.dev/gemini-api/docs/thinking)
- Reddit r/GeminiAI — 컨텍스트 윈도우 실사용 보고 (2026.01.21, 점수 378)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API의 요금, 한도, 모델 사양은 구글의 정책 변경에 따라 예고 없이 달라질 수 있으며, 의사결정 전에는 공식 문서를 반드시 최신 버전으로 확인하시기 바랍니다. 본 포스팅의 수치는 2026년 3월 24일 기준입니다.











댓글 남기기