Gemini 3 Flash, 무료라고요? 이 구조 먼저 보세요

Published on

in

Gemini 3 Flash, 무료라고요? 이 구조 먼저 보세요

2026.03.26 기준
Gemini 3 Flash Preview
IT/AI

Gemini 3 Flash, 무료라고요? 이 구조 먼저 보세요

구글이 Gemini 3 Flash를 “무료로 쓸 수 있다”고 말할 때, 그게 앱 무료인지 API 무료인지 구분하지 않으면 실제로 쓰다가 갑자기 막힙니다. 직접 공식 문서를 뒤져서 확인한 수치를 그대로 정리했습니다.

20건
API 무료 RPD (하루 한도)
1M
입력 토큰 컨텍스트 윈도우
4단계
thinking level 선택지

앱 무료와 API 무료는 완전히 다른 이야기입니다

Gemini 3 Flash를 “무료로 쓸 수 있다”는 말은 맞습니다. 단, 어디서 쓰느냐에 따라 상황이 전혀 달라집니다. Gemini 앱(gemini.google.com 또는 모바일 앱)에서는 무료 계정도 빠른 모델(Fast Model)을 일반 액세스로 제한 없이 쓸 수 있습니다. 그런데 개발자용 API를 통해 Gemini 3 Flash를 호출하면, 무료 티어의 하루 요청 한도(RPD)는 20건이 전부입니다.

💡 공식 발표문과 실제 API 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 구글이 공식 문서에서 “무료 티어는 테스트 용도이며 장기적인 컴퓨팅 공급원이 아니다”라고 직접 밝혔는데, 이 문장이 앱 무료 사용과 API 무료 사용을 가르는 핵심입니다. (출처: Gemini API Rate Limits 공식 문서, 2026.03.23)

구글 AI Studio에서 Gemini 3 Flash를 테스트할 때도 빠르게 벽에 부딪히는 이유가 여기에 있습니다. 에이전트 워크플로우 하나를 돌리면 단일 태스크에서만 이미 수십 건의 API 호출이 발생하는데, 하루 20건짜리 한도로는 오전 중에 이미 소진됩니다.

▲ 목차로 돌아가기

Gemini 3 Flash가 실제로 뭘 할 수 있는지

Gemini 3 Flash의 공식 모델 ID는 gemini-3-flash-preview이며, 2025년 12월 17일에 정식 공개됐습니다. 지식 컷오프 날짜는 2025년 1월입니다. (출처: Google Cloud Vertex AI 공식 모델 문서, 2026.03.25)

입력 가능한 형식과 토큰 한계

입력 토큰 최대값은 1,048,576개(약 100만 토큰)이고, 출력 토큰은 최대 65,536개까지 생성합니다. 100만 토큰이 얼마나 되는지 감이 안 잡힐 수 있는데, 구글이 공식 문서에서 밝힌 기준으로는 최대 1,500페이지 분량의 텍스트 또는 30,000줄의 코드를 한 번의 컨텍스트로 처리할 수 있는 양입니다. 사실상 긴 책 한 권을 통째로 넣을 수 있는 크기입니다.

입력 유형 지원 여부 특이사항
텍스트 ✔ 지원 최대 1M 토큰
이미지 ✔ 지원 요청당 최대 3,000장, 7MB 이하
영상 ✔ 지원 최대 45분(직접 업로드 기준)
오디오 ✔ 지원 최대 8.4시간
PDF ✔ 지원 OCR 지원, 최대 3,000페이지

출처: Google Cloud Vertex AI Gemini 3 Flash 공식 문서 (2026.03.25 기준)

기본 탑재된 도구들

Google 검색 그라운딩, 코드 실행, 함수 호출, 시스템 명령어, 컨텍스트 캐싱, Vertex AI RAG Engine, Computer Use(미리보기), Gemini Live API 등을 기본적으로 탑재하고 있습니다. 이전 Flash 모델 대비 특히 에이전트 워크플로우와 멀티턴 대화에서 응답 속도와 정확도가 개선됐습니다.

▲ 목차로 돌아가기

thinking level 설정이 비용과 한도에 직결됩니다

여기서부터가 기존 리뷰 글들이 잘 다루지 않는 부분입니다. Gemini 3 Flash는 thinking_level 파라미터를 통해 추론 깊이를 조절할 수 있는 모델입니다. 선택지는 minimal, low, medium, high 네 가지이며, 이 설정이 토큰 소비량과 응답 속도, 그리고 실질적인 비용에 직접 영향을 줍니다. (출처: Google Cloud Vertex AI Gemini 3 Flash 공식 문서, 2026.03.25)

💡 공식 파라미터 설명과 실제 청구 구조를 함께 놓고 보니 보이는 것

thinking level을 high로 설정하면 내부적으로 더 많은 “사고 토큰”이 소비됩니다. 이 사고 토큰은 출력 토큰과 별도로 과금될 수 있으며, 동일한 프롬프트에 대해 minimal과 high 사이의 토큰 소비 차이가 수 배에 달할 수 있습니다. 단순 요약이나 브레인스토밍 작업에 high를 쓰면 불필요하게 토큰을 소모하게 됩니다.

thinking_level 사용 적합 상황 토큰 소비
minimal 빠른 번역, 단순 분류 최소
low 요약, 브레인스토밍 적음
medium 복잡한 분석, 코드 검토 중간
high 수학 증명, 다단계 추론 대폭 증가

출처: Google Cloud Vertex AI Gemini 3 Flash 공식 문서 사고 기능 파라미터 설명 (2026.03.25 기준)

실무에서 쓸 때 중요한 점은, Gemini 3 Flash 이전 모델에 있던 thinking_budget 파라미터가 Gemini 3부터는 thinking_level로 대체됐다는 것입니다. 기존 코드를 그대로 가져왔다면 파라미터 이름을 수정해야 합니다.

▲ 목차로 돌아가기

요금제별 한도를 수치로 직접 비교했습니다

Gemini 앱을 직접 쓰는 사람이라면 요금제별로 어떤 차이가 나는지가 핵심입니다. 아래 수치는 구글 공식 지원 문서에서 직접 가져온 것입니다. (출처: Google Gemini 앱 한도 공식 지원 문서, 2026.03.26 기준)

기능 무료 AI Plus AI Pro AI Ultra
Pro 3.1 (최상급 모델) 기본 액세스 하루 30개 하루 100개 하루 500개
사고 모델 자주 변경 하루 90개 하루 300개 하루 1,500개
빠른 모델 (Flash) 일반 액세스 일반 액세스 일반 액세스 일반 액세스
Deep Research 월 5개 하루 12개 하루 20개 하루 120개
이미지 생성 하루 20개 하루 50개 하루 100개 하루 1,000개
화면 자동화 하루 5개 하루 12개 하루 20개 하루 120개
Deep Think 3.1 ❌ 미지원 ❌ 미지원 ❌ 미지원 하루 10개
컨텍스트 윈도우 32,000 128,000 1,000,000 1,000,000

출처: Google Gemini 앱 한도 공식 지원 문서 (2026.03.26 기준) / 한도는 사전 고지 없이 변경될 수 있습니다.

눈에 띄는 부분이 있습니다. 빠른 모델(Gemini 3 Flash)은 모든 요금제에서 “일반 액세스”입니다. 무료로도 제한 없이 쓸 수 있다는 뜻입니다. 하지만 컨텍스트 윈도우는 무료가 32,000, Pro부터 100만 토큰으로 30배 이상 차이가 납니다. 긴 문서를 다루는 업무라면 무료와 Pro 사이의 실질적인 성능 차이는 단순 한도보다 훨씬 크게 느껴집니다.

⚠️ 주의: Deep Think 3.1 기능은 AI Ultra 요금제(월 $249.99)에서만 사용 가능하며, Ultra 구독자도 하루 10개가 한도입니다. 무제한이 아닙니다.

▲ 목차로 돌아가기

API 무료 한도가 갑자기 줄어든 배경

2025년 12월 6일, 구글은 사전 공지 없이 Gemini API 무료 티어의 일일 요청 한도(RPD)를 대폭 줄였습니다. Gemini 3 Pro는 기존 일 1,000건에서 250건으로, Gemini 3 Flash의 무료 API는 사실상 유의미한 개발 테스트가 불가능한 수준으로 내려갔습니다. 이 사실이 레딧 r/GeminiAI에서 빠르게 확산되면서 개발자 커뮤니티에서 큰 반발이 있었습니다.

💡 구글 내부 직원이 직접 남긴 공식 답변

구글 AI Studio 팀의 Logan Kilpatrick이 레딧에 직접 답변을 남겼는데, 핵심은 이렇습니다. “무료 API 티어는 처음부터 테스트 용도이며, 장기적인 컴퓨팅 공급원으로 설계된 것이 아닙니다. Gemini 3 Pro와 Nano Banana Pro에 대한 수요가 폭발적으로 증가해 컴퓨팅 자원을 재배분해야 했습니다.” 또한 “한도가 낮아진 조치는 일시적이며, 더 많은 사용 등급과 인증 방식을 추가하는 작업 중”이라고 밝혔습니다. (출처: Reddit r/GeminiAI, 2025.12.07)

한 가지 더 알아두면 좋은 점이 있습니다. 구글 AI Studio의 Rate Limit 페이지에는 현재 Gemini 3 Flash Preview의 무료 티어 RPD 수치가 별도 테이블로 명시돼 있지 않습니다. 실시간으로 변동하기 때문에, 실제 한도 확인은 aistudio.google.com/rate-limit에서 본인 계정 기준으로 직접 확인하는 것이 가장 정확합니다.

▲ 목차로 돌아가기

지금 상황에서 실제로 어떻게 써야 할까

Gemini 3 Flash를 쓰는 목적에 따라 접근법이 완전히 달라집니다. 정리하면 이렇습니다.

① 일반 사용자라면 — 앱에서 쓰면 됩니다

gemini.google.com 또는 모바일 앱에서 Gemini 3 Flash 빠른 모델은 무료 계정에서도 일반 액세스로 제공됩니다. 요약, 번역, 간단한 코드 작성 등 일상적인 작업은 별도 구독 없이도 문제없이 사용할 수 있습니다. 단, 컨텍스트 윈도우가 32,000 토큰으로 제한되므로 긴 문서 전체를 넣고 분석하는 작업은 무리입니다.

② 개발자라면 — API 유료 전환이 사실상 필수입니다

API 무료 티어로는 프로토타입 수준의 테스트조차 버거운 상황입니다. 구글이 Tier 1으로의 전환을 빌링 계정 연결만으로 가능하게 했으며, 업그레이드는 즉시 적용됩니다. (출처: Gemini API Rate Limits 공식 문서, 2026.03.23) 다만, 빌링 계정을 연결하면 사용량에 따라 청구가 시작되므로 API 사용량 알림과 예산 상한을 반드시 설정해두는 것이 좋습니다.

💡 Gemini 3 API 가격 구조 (2026년 기준, 참고)

Gemini 3 Pro 기준 입력 토큰 100만 개당 $2.00(200K 이하 컨텍스트), 출력 토큰 100만 개당 $12.00입니다. 이 수치가 의미하는 것은, 일반적인 개인 개발자 수준의 사용량에서는 월 몇 달러 이내로 충분히 관리가 가능하다는 점입니다. (출처: metacto.com Gemini API Pricing 2026 가이드)

③ 고급 추론이 필요한 업무라면 — thinking level 조정이 핵심

단순 작업에는 minimal 또는 low를 설정해 토큰 낭비를 줄이고, 복잡한 추론이 필요한 프롬프트에만 high를 적용하는 방식이 비용을 절약하면서도 성능을 유지하는 실용적인 전략입니다. Google AI Studio의 Playground에서 각 설정의 차이를 직접 비교해본 뒤 운영 코드에 적용하는 것이 좋습니다.

▲ 목차로 돌아가기

Q&A

Q1. Gemini 3 Flash를 무료로 쓸 수 있는 방법이 있나요?

Q2. Gemini 3 Flash와 Gemini 3 Pro의 차이는 무엇인가요?

Flash는 속도와 비용 효율에 최적화된 모델이고, Pro는 복잡한 수학, 고급 코딩, 깊은 추론에 특화된 고급 모델입니다. 일상적인 작업, 에이전트 워크플로우, 빠른 응답이 필요한 경우에는 Flash가 더 적합합니다. Pro는 앱 기준 무료 계정에도 기본 액세스가 있지만 사용량 한도가 빠르게 소진됩니다.
Q3. thinking level을 항상 high로 설정하면 더 좋은 결과가 나오나요?

그렇지 않습니다. thinking level을 높게 설정할수록 사고 토큰이 더 많이 소비되고, 응답 시간도 길어집니다. 단순한 번역이나 요약 작업에 high를 쓰면 오히려 응답이 지연되고 비용만 올라갑니다. 작업 복잡도에 맞는 레벨을 선택하는 것이 중요합니다.
Q4. API 무료 티어 한도는 언제 리셋되나요?

요청 일(RPD) 한도는 태평양 표준시(PT) 자정을 기준으로 리셋됩니다. 한국 시간으로는 서머타임 기간에 오후 4시, 비서머타임 기간에 오후 5시에 리셋된다고 보면 됩니다. (출처: Gemini API Rate Limits 공식 문서, 2026.03.23)
Q5. Gemini 3.1 Flash-Lite와 Gemini 3 Flash는 어떻게 다른가요?

▲ 목차로 돌아가기

마치며

Gemini 3 Flash를 쓰면서 막혔던 이유는 대부분 “무료”라는 단어 하나를 너무 넓게 해석했기 때문입니다. 앱 무료와 API 무료는 구조 자체가 다릅니다. 앱에서 Flash 빠른 모델을 쓰는 건 진짜 무료이지만, API에서 하루 20건은 진지한 개발에서 반나절도 버티기 어렵습니다.

thinking level 파라미터는 비용 관리의 핵심 레버입니다. 이 설정 하나로 동일한 모델에서 토큰 소비량이 몇 배씩 달라질 수 있기 때문에, API를 쓰기 전에 작업별로 적합한 레벨을 먼저 정해두는 것이 좋습니다. 구글이 무료 티어 한도를 언제 다시 조정할지는 공식적으로 밝히지 않았으므로, 장기 프로젝트라면 유료 티어로 시작하는 것이 안전합니다.

이 글의 수치는 모두 2026.03.26 기준 공식 문서에서 직접 가져온 것이며, 구글의 정책 변경에 따라 달라질 수 있습니다.

📚 본 포스팅 참고 자료

  1. Google Gemini 앱 한도 및 업그레이드 공식 지원 문서
  2. Gemini API Rate Limits 공식 문서 (2026.03.23 업데이트)
  3. Google Cloud Blog — Hello World with Gemini 3 Flash
  4. Google Cloud Vertex AI Gemini 3 Flash 공식 모델 문서 (2026.03.25)


본 포스팅은 2026년 3월 26일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Gemini API 한도 및 요금제 정보는 Google 공식 문서에서 최신 내용을 반드시 재확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기