Gemini 2.5 Pro, 1M 토큰 광고 그대로 믿어도 될까요?

Published on

in

Gemini 2.5 Pro, 1M 토큰 광고 그대로 믿어도 될까요?
IT / AI
2026.03.24 기준 / Gemini 2.5 Pro (정식 출시판)

공식 문서와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

100회
무료 일일 요청 한도 (2.5 Pro)
32k~64k
앱 실제 컨텍스트 (광고는 1M)
2배+
Thinking 토큰 합산 과금

무료로 쓰는 Gemini 2.5 Pro — 하루 100번의 현실

결론부터 말씀드리면, Gemini 2.5 Pro는 무료로도 쓸 수 있습니다. 신용카드 없이 Google AI Studio 계정만 있으면 됩니다. 그런데 막상 써보면 생각보다 빨리 막힙니다.

공식 Gemini API Rate Limits 문서(출처: ai.google.dev/gemini-api/docs/rate-limits, 2026.03.23 업데이트)에 따르면 무료(Free) Tier 기준 Gemini 2.5 Pro의 한도는 다음과 같습니다.

모델 RPM
(분당 요청)
TPM
(분당 토큰)
RPD
(일일 요청)
Gemini 2.5 Pro 5 250,000 100
Gemini 2.5 Flash 10 250,000 250
Gemini 2.5 Flash-Lite 15 250,000 1,000

하루 100번. 챗봇처럼 짧은 대화를 나누면 꽤 넉넉해 보이지만, 문서 분석이나 코드 리뷰처럼 긴 입력을 반복하면 오전 중에 한도가 소진됩니다. RPM이 5라는 점도 중요합니다. 60초 안에 요청을 6번 이상 보내면 429 오류가 납니다.

그리고 한 가지 더 — 일일 한도(RPD)는 태평양 표준시(PT) 자정에 초기화됩니다. 한국 시간 기준으로는 오후 5시(KST, 서머타임 미적용 기준)입니다. 낮에 다 써버렸다면 저녁부터 다시 쓸 수 있는 셈입니다.

▲ 목차로 돌아가기

1M 토큰은 어디서 쓸 수 있는가 — 앱과 API의 차이

Gemini 광고에서 가장 자주 나오는 문구 중 하나가 “1백만 토큰 컨텍스트 윈도우”입니다. 실제로 공식 문서에도 “1M 토큰 컨텍스트 윈도우”라고 명시돼 있습니다. (출처: 구글 코리아 공식 블로그, 2025.03.26)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 1M 토큰은 API를 직접 호출할 때 적용되는 수치이고, Gemini 앱(소비자 UI)에서는 별도의 슬라이딩 윈도우 처리가 적용됩니다.

실제로 Reddit의 r/GeminiAI 커뮤니티에서 점수 378점, 참여율 97%를 기록한 스레드(2026.01.21)에서 유료 Gemini Pro 구독자가 직접 측정한 결과, 약 30개 메시지(약 30k 토큰)를 넘어서자 앞선 대화 내용을 잊기 시작했습니다. AI Studio에 동일한 대화를 복사해보니 토큰 수가 30k 수준이었다는 점도 확인됐습니다. 앱에서 광고하는 1M 토큰과 실제 동작이 다르다는 것입니다.

한 커뮤니티 댓글(점수 99점)은 이를 이렇게 정리했습니다. “일반 웹사이트에서는 기억이 잘 안 되는데, AI Studio에서는 완전히 정상으로 작동한다. 왜 일반 사용자 UI가 이렇게 제한되는지 이해할 수 없다.” 또 다른 댓글에서는 “Google은 응답 속도를 위해 긴 대화의 앞부분을 요약하거나 제거하는 설계를 선택했다”는 분석을 내놓았습니다.

정리하면, 1M 토큰은 API를 통해 직접 접근할 때 누릴 수 있는 기능입니다. Gemini 앱에서 유료 구독을 쓴다고 해서 자동으로 1M 컨텍스트가 보장되지 않습니다. 긴 문서 분석이나 장편 소설 작업이 목적이라면 Google AI Studio(aistudio.google.com) 또는 API 직접 호출이 필요합니다.

▲ 목차로 돌아가기

Thinking 토큰이 청구서를 2배로 만드는 구조

Gemini 2.5 Pro는 내부적으로 “사고 과정(Thinking)”을 거칩니다. 이 사고 토큰은 사용자 눈에 보이지 않지만, 과금 기준에는 포함됩니다. 공식 Thinking 문서에 이렇게 나옵니다. “응답 요금은 출력 토큰과 사고 토큰의 합산입니다.” (출처: ai.google.dev/gemini-api/docs/thinking, 2026.03.24 확인)

💡 Thinking 토큰 수는 `thoughtsTokenCount` 필드에서 직접 확인할 수 있습니다. API 응답에 포함되므로 실제 과금 내역을 추적하는 데 활용할 수 있습니다.

공식 문서의 thinkingBudget 설명에 따르면, Gemini 2.5 Pro의 기본 설정은 “동적 사고(Dynamic thinking)”입니다. 별도 지정 없이 쓰면 모델이 요청 복잡도에 따라 알아서 사고 토큰을 씁니다. 최대 32,768 토큰까지 사고에 쓸 수 있고, 사고를 끄는 것(thinkingBudget = 0)은 Gemini 2.5 Pro에서 지원되지 않습니다. 사고를 완전히 끄고 싶다면 Flash나 Flash-Lite를 사용해야 합니다.

실제로 어떤 차이가 나는지 간단히 계산해볼 수 있습니다. Paid Tier 기준 Gemini 2.5 Pro 요금은 아래와 같습니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 확인)

항목 200k 토큰 이하 200k 초과
입력(Input) $1.25 / 1M 토큰 $2.50 / 1M 토큰
출력+사고(Output+Thinking) $10.00 / 1M 토큰 $15.00 / 1M 토큰

출력 토큰이 1,000개, 사고 토큰이 추가로 2,000개 발생했다면 실제 과금은 출력 3,000 토큰 기준으로 계산됩니다. 사고 과정이 길수록 예상보다 비용이 커질 수 있습니다. 간단한 요청에는 `thinkingBudget`을 낮게 설정하는 게 실용적입니다.

▲ 목차로 돌아가기

2025년 12월, 조용히 바뀐 무료 한도

2025년 12월 7일, 구글은 사전 공지 없이 무료 Tier의 API 한도를 대폭 줄였습니다. 특히 Flash 모델은 일일 한도가 250회에서 20회로 줄었습니다. 92% 감소입니다. (출처: blog.laozhang.ai, 2026.02 기준 분석)

⚠️ 변경 전후 한도 비교 (Flash 기준)

· 변경 전(2025년 11월): 일일 250회 / 분당 60회
· 변경 후(2025년 12월 이후): 일일 20회 / 분당 10회
· 감소폭: RPD 92% ↓ / RPM 83% ↓

구글 측은 “Gemini 3 수요를 위해 컴퓨팅 자원을 재배치했다”고 설명했지만, 개발자 포럼에서는 별도 안내 없이 변경됐다는 점에서 불만이 이어졌습니다. 이 사건 이후 무료 Tier를 프로덕션 환경에서 쓰는 것은 사실상 위험한 선택으로 굳어졌습니다.

2.5 Pro의 무료 한도는 현재 일일 100회로 유지 중입니다. 하지만 이 수치도 언제든 변경될 수 있습니다. 실제 서비스에 붙일 기능이라면 처음부터 Tier 1(과금 연동)로 설계하는 게 안전합니다.

▲ 목차로 돌아가기

GPT-4o·Claude와 요금제 구조 직접 비교

숫자를 직접 놓고 보면 Gemini 2.5 Pro의 장점이 더 선명해집니다. 2026년 2월 기준, 주요 모델 Paid Tier 1M 토큰당 입력 단가를 보면 Gemini 2.5 Pro($1.25)는 GPT-4o($5.00)의 약 4분의 1 수준, Claude Sonnet 4.6($3.00)의 절반 이하입니다. (출처: ai.google.dev/gemini-api/docs/pricing, 2026.03.24 확인)

모델 입력
(1M 토큰)
출력
(1M 토큰)
컨텍스트
윈도우
무료 Tier
Gemini 2.5 Pro $1.25 $10.00 1M 토큰 ✅ 있음
GPT-4o $5.00 $15.00 128k 토큰 ❌ 없음
Claude Sonnet 4.6 $3.00 $15.00 200k 토큰 제한적

단가만 보면 Gemini가 압도적으로 유리합니다. 다만 분당 처리량(TPM) 관점에서도 Gemini 2.5 Pro의 Tier 1 한도는 1,000,000 TPM으로, OpenAI의 200,000 TPM 대비 5배 높습니다. 대용량 문서나 코드베이스를 처리하는 용도에서는 이 차이가 실질적인 처리 속도 차이로 나타납니다.

단, 멀티턴 대화에서 긴 컨텍스트를 유지해야 하거나, 응답 품질 자체를 최우선시하는 작업이라면 Claude의 컨텍스트 관리 방식이 더 안정적이라는 평가도 있습니다. 비용이 목적이면 Gemini, 품질과 신뢰성이 목적이면 현재로선 교차 검토가 필요합니다.

▲ 목차로 돌아가기

Tier 올리는 조건 — 달력과 금액 둘 다 봐야 합니다

무료 한도가 부족하다면 Tier 1으로 올릴 수 있습니다. 방법은 Google Cloud Console에서 결제 수단을 연동하는 것뿐입니다. 연동 즉시 Tier 1으로 업그레이드되고, RPD가 1,500회로 늘어납니다. 이 절차는 별도 심사 없이 즉시 처리됩니다.

💡 Tier 구조를 실제 사용 패턴과 맞춰보면 이런 그림이 나옵니다. Tier 2는 누적 $250 결제 + 최초 결제 후 30일 경과가 동시에 충족돼야 합니다. 금액을 빨리 채워도 30일이 안 됐으면 자동 승급이 안 됩니다.

Tier 2.5 Pro RPM 2.5 Pro RPD 조건
Free 5 100 결제 없음
Tier 1 150 1,500 결제 수단 연동 즉시
Tier 2 500 10,000 누적 $250 결제 + 30일 경과
Tier 3 1,000+ 커스텀 누적 $1,000 + 30일 / 또는 영업팀 협의

한 가지 놓치기 쉬운 부분이 있습니다. 구글 클라우드 무료 크레딧은 Tier 2·3 자격 기준의 $250 누적 결제에 포함되지 않습니다. 실제 청구된 금액만 카운트됩니다. 다른 Google Cloud 서비스(예: Cloud Storage, Compute Engine)의 결제도 합산되므로, 이미 다른 서비스를 쓰고 있다면 그 금액이 반영됩니다.

여러 API 키를 만들어도 같은 프로젝트 안에서 한도를 공유합니다. 진짜로 별도 한도를 갖고 싶다면 프로젝트 자체를 분리해야 합니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q1. Gemini 앱 유료 구독이면 API에서도 혜택이 적용되나요?

Q2. Thinking(사고) 기능을 끌 수 있나요?

Q3. 무료 한도 초기화는 언제 되나요?

일일 요청 한도(RPD)는 태평양 표준시(PT) 자정에 초기화됩니다. 한국 시간 기준으로는 오후 5시(서머타임 미적용 기준, 서머타임 중에는 오후 4시)입니다. 오전에 한도를 다 썼다면 당일 오후부터 다시 사용할 수 있습니다.
Q4. API 키를 여러 개 만들면 한도가 늘어나나요?

늘어나지 않습니다. 한도는 API 키 단위가 아니라 Google Cloud 프로젝트 단위로 적용됩니다. 같은 프로젝트 내 여러 키는 동일한 한도 풀을 공유합니다. 별도 한도를 원한다면 프로젝트 자체를 새로 만들어야 합니다.
Q5. Gemini 2.5 Pro, 지금 당장 써봐도 괜찮나요?

가볍게 테스트하거나 개인 작업에 쓴다면 무료 Free Tier로도 충분합니다. 다만 매일 많은 양의 요청이 필요하거나, 앱이 아닌 API로 1M 컨텍스트를 써야 한다면 결제 연동(Tier 1)을 미리 세팅해두는 편이 좋습니다. 한도 초과 시 503/429 오류가 나기 때문에, 실제 서비스 연동 전에 버퍼 로직도 함께 준비해두세요.

▲ 목차로 돌아가기

마치며 — 광고 수치와 실사용 수치 사이

Gemini 2.5 Pro는 분명히 매력적인 모델입니다. 가격 대비 성능으로 보면 현재 주요 모델 중 가장 효율이 좋은 축에 속합니다. SWE-Bench Verified에서 63.8%를 기록했고, LMArena 리더보드에서 상위권을 유지 중입니다. (출처: 구글 공식 블로그, 2025.03.26)

그런데 막상 써보니 알아두면 좋은 게 있었습니다. 1M 토큰은 API에서만 실현되고, 앱에서는 슬라이딩 윈도우가 적용됩니다. Thinking 토큰은 눈에 안 보이지만 과금에 잡힙니다. 무료 한도는 2025년 12월 이후 조용히 줄었고, 앞으로도 변할 수 있습니다.

이 세 가지를 알고 시작하면 기대와 현실의 간격이 훨씬 좁아집니다. 무료로 시작해서 쓰다가 Tier 1으로 넘어가는 흐름이 가장 자연스럽고, 대용량 문서 작업은 Gemini 앱 대신 AI Studio를 쓰는 게 맞습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. 구글 공식 블로그 — 제미나이 2.5 소개 (blog.google, 2025.03.26)
  2. Gemini API 공식 Rate Limits 문서 (ai.google.dev/gemini-api/docs/rate-limits, 2026.03.23 업데이트)
  3. Gemini API 공식 Pricing 문서 (ai.google.dev/gemini-api/docs/pricing, 2026.03.24 확인)
  4. Gemini API 공식 Thinking 문서 (ai.google.dev/gemini-api/docs/thinking)
  5. Reddit r/GeminiAI — 컨텍스트 윈도우 실사용 보고 (2026.01.21, 점수 378)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API의 요금, 한도, 모델 사양은 구글의 정책 변경에 따라 예고 없이 달라질 수 있으며, 의사결정 전에는 공식 문서를 반드시 최신 버전으로 확인하시기 바랍니다. 본 포스팅의 수치는 2026년 3월 24일 기준입니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기