Gemini 3.1 Pro, 이 작업에서만 막힙니다 — 공식 수치로 확인
ARC-AGI-2 77.1% 1위 모델이 실제로 실패하는 조건을 공식 자료와 실사용 데이터로 정리했습니다.
2M 토큰
AI Pro/Ultra
벤치마크 1위가 보장하지 않는 것
Gemini 3.1 Pro는 2026년 2월 19일 Google DeepMind가 공식 출시한 모델입니다. 새로운 논리 패턴 해결 능력을 평가하는 ARC-AGI-2 벤치마크에서 77.1%를 기록했고, 이는 전작 Gemini 3 Pro(약 37%)의 두 배 이상입니다. (출처: Google 공식 블로그, 2026.02.19)
결론부터 말씀드리면, 이 수치는 실제 사용 경험과 꽤 다른 측면이 있습니다. Google 자체 발표에서도 “코딩 및 확장된 에이전트 워크플로우에서 성능을 지속적으로 향상시킬 것”이라고 적시했는데, 이 표현이 사실상 현재 한계를 인정한 부분입니다. (출처: Google Korea 공식 블로그, 2026.02.19)
벤치마크는 격리된 단일 문제를 잘 푸는 능력을 측정합니다. 실제 업무에서 AI 모델에 맡기는 일은 수십 단계가 이어지는 순차 작업, 코드 리팩토링 계획 수립, 대규모 문서 분석처럼 성격이 전혀 다릅니다. 이 두 가지가 반드시 같이 움직이지 않는다는 게 핵심입니다.
💡 공식 발표 문구와 실제 제품 상태를 나란히 놓고 보면, Google이 향후 개선 예정으로 남겨둔 영역이 어디인지 보입니다.
2M 토큰 컨텍스트, 쓸 수 있는 조건이 따로 있습니다
Gemini 3.1 Pro의 컨텍스트 창은 200만 토큰입니다. GPT-5.4의 128K, Claude Opus 4.6의 500K와 비교하면 압도적으로 큽니다. (출처: MindStudio 벤치마크 비교, 2026.03.15) 이 수치만 보면 “긴 작업은 Gemini가 최강”이라는 결론이 자연스럽습니다.
실제로 강한 조건은 좀 다릅니다. 2M 토큰의 진짜 위력이 나오는 건 대용량 문서를 단일 패스로 분석하는 작업입니다. 기업 연간 보고서 전체를 한 번에 넣고 분석하거나, 수천 페이지짜리 코드베이스를 통째로 올려 검색하는 식의 작업이 대표적입니다. 이때는 외부 메모리 시스템 없이도 처리가 가능합니다.
반면, 단계가 많은 순차 작업(50단계 이상의 에이전트 워크플로우)에서는 컨텍스트 창 크기보다 각 단계에서 지시사항을 얼마나 잘 기억하느냐가 더 중요합니다. 이 부분에서 Gemini 3.1 Pro는 Opus 4.6보다 약한 면이 있습니다. 컨텍스트 창이 아무리 커도, 초반에 세운 제약 조건을 수십 단계 뒤에도 지키는 능력은 별개의 문제입니다.
💡 “큰 컨텍스트 = 긴 작업에 강함”이라는 공식이 성립하지 않는 구체적인 조건이 있습니다. 단계 수가 많아질수록 컨텍스트 창 크기보다 지시 준수율이 더 결정적입니다.
실제로 막히는 작업 — 공식 수치로 본 계획 수립 한계
Reddit의 Gemini/AntiGravity 커뮤니티에서 Day 1 리뷰를 올린 실사용자는 같은 코드 리팩토링 과제를 Gemini 3.1 Pro, Claude Opus 4.6, Codex 5.3에 동시에 테스트했습니다. 작업은 Python으로 작성된 대형 레거시 모듈을 새 중앙 모듈로 이전하는 계획서 작성이었습니다.
| 모델 | 계획서 출력량 | 단계 구성 | 사용 가능 여부 |
|---|---|---|---|
| Claude Opus 4.6 | 약 25,000 토큰 | 8개 페이즈, 세부 하위 작업 포함 | ✅ 실제 사용 |
| Codex 5.3 | 중간 수준 | 세부 표현 부족, 읽기 불편 | ⚠️ 부분 활용 |
| Gemini 3.1 Pro | 약 2,500 토큰 | 6개 페이즈, 각 3개 불릿 | ❌ 사용 불가 |
Opus 4.6이 작성한 계획서(약 25K 토큰)와 Gemini 3.1 Pro가 작성한 계획서(약 2.5K 토큰)는 10배 차이가 납니다. 실사용자는 “Gemini 계획서는 페이즈 하나에 3개 불릿만 있었고, 중요한 스크립트에 대해 ‘새 모듈에 맞게 리팩토링’이라고만 썼다”고 밝혔습니다. (출처: Reddit r/google_antigravity, 2026.02.20, 점수 425, 찬성률 96%)
이게 단순히 “짧게 쓰는 스타일”의 문제가 아닙니다. 에지 케이스를 인식하지 못했거나, 인식했어도 작성을 생략한 것인지 Google은 공식 답변을 내놓지 않은 부분입니다. 결과적으로 계획 수립 단계에서 AI를 플래너로 쓰는 코딩 워크플로우라면, 지금 Gemini 3.1 Pro는 단독으로 쓰기 어렵습니다.
사용량 한도가 예측 불가능한 이유
월 $20를 내는 Google AI Pro 구독자라면 당연히 “쓸 수 있는 만큼 쓴다”고 생각합니다. 막상 써보면 다릅니다. 2026년 3월 기준, Google AI Pro 요금제에서 Gemini 3.1 Pro에는 비공개 주간 한도가 적용됩니다.
Google Developer Forum에는 “Gemini 3.1 Pro를 전혀 사용하지 않았는데도 주간 한도에 걸렸다”는 버그 보고가 올라왔습니다. (출처: discuss.ai.google.dev, 2026.03.17) 더 큰 문제는 현재 자신의 사용량이 얼마인지 실시간으로 확인할 방법이 없다는 점입니다. Claude는 주간 사용량 현황을 직접 확인할 수 있는 반면, Google AI Pro에서 Gemini 3.1 Pro 한도 잔여량은 공식 UI에서 노출되지 않습니다.
공식 지원 페이지(support.google.com/gemini)에는 Google AI Pro 기준 Gemini 3.1 Pro를 하루 최대 100 프롬프트까지 사용 가능하다고 나와 있지만, 실제로는 주간 단위 누적 한도가 별도로 있어 일일 한도에 도달하기 전에 차단되는 사례가 보고됩니다. Google이 이유를 공식적으로 밝히지 않은 상태입니다. (출처: Reddit r/google_antigravity, 2026.03.09)
💡 일일 한도와 주간 한도가 동시에 존재하는 구조인데, 정작 사용자가 현재 어디에 있는지를 알 방법이 없습니다. 장시간 작업 중 갑자기 차단되는 리스크가 있습니다.
Gemini 3.1 Pro가 진짜 강한 조건 3가지
단점만 있는 모델이 아닙니다. 쓸 조건을 제대로 알면 Gemini 3.1 Pro는 경쟁 모델보다 분명한 우위가 있는 작업이 있습니다.
① 대용량 문서를 한 번에 분석할 때
2M 토큰 컨텍스트 창은 전체 코드베이스나 수백 페이지짜리 보고서를 외부 메모리 없이 단일 패스로 처리할 수 있게 해줍니다. 같은 작업을 Opus 4.6으로 하려면 청킹 시스템이 필요한 규모도 Gemini는 그냥 넣으면 됩니다. 실제로 1996년에 작성된 C++ 코드(EMS 메모리 페이징 포함)를 현대 C++로 마이그레이션하는 작업을 4시간 만에 처리한 사례가 보고됩니다. (출처: Reddit r/google_antigravity, 2026.02.20)
② 멀티모달 혼합 작업
텍스트, 이미지, 오디오, 동영상을 별도 파이프라인 없이 한 세션에서 처리합니다. 영상 요약 후 관련 문서와 교차 분석하는 작업처럼 미디어 타입이 섞인 경우에 특히 강합니다. MindStudio의 에이전트 워크플로우 비교에서도 멀티모달 처리에서 Gemini 3.1 Pro가 GPT-5.4와 Opus 4.6을 앞섰습니다. (출처: MindStudio 블로그, 2026.03.07)
③ 실시간 정보가 필요한 리서치 에이전트
Google 검색 기반 그라운딩이 별도 API 호출 없이 내장돼 있습니다. 경쟁사 분석, 시장 조사, 뉴스 모니터링처럼 최신 정보가 실시간으로 필요한 에이전트 작업에서 타 모델 대비 구조적 이점이 있습니다. GPT-5.4와 Opus 4.6은 검색을 별도 도구로 연결해야 하지만 Gemini는 기본값으로 포함돼 있습니다.
요금 구조 — 써볼 만한 구간과 위험한 구간
API 요금은 Vertex AI 공식 페이지 기준입니다. (출처: cloud.google.com/vertex-ai/generative-ai/pricing, 2026.03.25 최종 업데이트)
| 모델 | 입력 (≤20만 토큰) | 출력 (≤20만 토큰) | 비고 |
|---|---|---|---|
| Gemini 3.1 Pro | $2/1M 토큰 | $12/1M 토큰 | 20만 토큰 초과 시 입력 $4, 출력 $18 |
| Claude Opus 4.6 | $5/1M 토큰 | $25/1M 토큰 | Gemini 대비 입력 2.5배, 출력 2.1배 |
| Gemini 3.1 Flash | $0.50/1M 토큰 | $3/1M 토큰 | 경량 작업 전용 |
Gemini 3.1 Pro는 Claude Opus 4.6보다 입력 기준 2.5배 저렴합니다. 같은 양의 문서를 처리할 때 비용 차이가 상당합니다. 대용량 문서 분석처럼 입력 토큰이 많고 출력이 상대적으로 짧은 작업에서 비용 효율이 특히 좋습니다.
주의할 구간이 있습니다. 20만 토큰을 넘으면 입력 단가가 $2에서 $4로 두 배가 됩니다. 예를 들어, 50만 토큰짜리 코드베이스를 처리한다고 가정하면 첫 20만 토큰은 $0.4, 초과분 30만 토큰은 $1.2 — 합계 $1.6입니다. 단순히 “$2/1M”만 보고 계산하면 실제 비용을 과소평가하게 됩니다. 이 계산 구조를 미리 파악하고 들어가는 게 맞습니다.
💡 Flex/Batch 처리 옵션을 쓰면 입력 $1/1M, 출력 $6/1M으로 표준 요금의 절반입니다. 실시간 응답이 필요 없는 대량 처리라면 이 옵션이 있다는 걸 놓치기 쉽습니다.
Q&A 5가지
마치며 — 총평
Gemini 3.1 Pro는 분명히 달라진 모델입니다. Gemini 3 Pro와는 비교할 수 없을 만큼 실용적이 됐고, 2M 토큰 컨텍스트와 기본 내장 Google 검색 그라운딩은 특정 작업에서 다른 모델이 따라올 수 없는 영역입니다.
솔직히 말하면, 지금 상태로는 “플래너”보다 “실행자”에 가깝습니다. 코드를 짜고, 문서를 분석하고, 리서치를 수행하는 역할에서는 충분히 씁니다. 그런데 복잡한 작업의 전략을 세우고 단계별 계획서를 작성하는 역할에서는 아직 Opus 4.6만큼 신뢰하기 어렵습니다.
사용량 한도 투명성 문제는 Google이 빠르게 개선해야 할 부분입니다. 유료 구독자가 본인 사용량을 실시간으로 확인하지 못하는 건 제품 완성도 측면에서 아쉬운 부분입니다. 구조를 이해하고 맞는 작업에 쓰면 이만큼 가성비 있는 모델도 없습니다. API 기준 Claude Opus 4.6보다 2.5배 저렴하니까요.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 2026년 3월 26일 기준 Gemini 3.1 Pro preview 버전을 기준으로 작성됐으며, Google이 안정 버전으로 전환하거나 요금 구조를 변경하면 일부 내용이 달라질 수 있습니다.











댓글 남기기