2026.02.19 출시 기준
gemini-3.1-pro-preview
IT/AI

Gemini 3.1 Pro 출력 한도,
이 설정 빠지면 Gemini 3과 똑같습니다

“64K 출력 됩니다”라는 말이 맞긴 한데, 조건이 있습니다. 기본값 그대로 쓰면 Gemini 3 Pro와 동일하게 8,192토큰 상한에 걸립니다. 거기다 thinking 모드를 높이면 그 예산에서 최대 30,000토큰이 내부 추론에 소진됩니다. 공식 수치로 직접 확인했습니다.

65,536

공식 최대 출력 토큰

8,192

설정 안 할 시 기본값

77.1%

ARC-AGI-2 점수

1,317

실무 업무 Elo (GDPval-AA)

Gemini 3.1 Pro 출력 한도, 공식 수치가 말하지 않은 것

구글이 2026년 2월 19일 공개한 Gemini 3.1 Pro의 최대 출력 토큰은 65,536토큰입니다. 영문 기준 약 49,000단어, 분량으로 따지면 기술 매뉴얼 한 권 분량이 단일 API 호출로 나옵니다. (출처: Google AI Developer 공식 문서, 2026.02.20 확인)

직전 모델인 Gemini 3 Pro는 실제로 약 21,723토큰 근처에서 출력이 잘렸습니다. 레딧 커뮤니티에서 직접 측정한 결과입니다. Gemini 3.1 Pro는 55,533토큰까지 연속 출력이 확인됐습니다. (출처: r/Bard, r/GeminiAI, 2026.02.19 실측) 수치만 보면 2.5배 넘게 개선된 게 맞습니다.

그런데 이 수치에는 두 가지 조건이 붙습니다. 첫 번째는 API 파라미터 설정 문제이고, 두 번째는 thinking 토큰이 출력 예산을 공유한다는 구조입니다. 이 두 가지를 모르면 “64K 된다”는 말을 믿고 쓰다가 8,192토큰에서 잘려나오는 경험을 하게 됩니다.

💡 공식 API 문서와 실제 응답 흐름을 같이 놓고 보니 이런 간극이 보였습니다. “65,536”이라는 숫자는 상한선이지, 보장값이 아닙니다. 설정 없이는 Gemini 3 Pro 시절과 체감 차이가 없을 수 있습니다.

▲ 목차로 돌아가기

기본값 8,192의 함정 — Gemini 3과 다를 게 없는 이유

Gemini 3.1 Pro API를 그냥 호출하면 maxOutputTokens 기본값은 8,192토큰입니다. (출처: Google AI Developer 공식 API 문서, 2026.02.20 확인) 최대 65,536과의 차이가 무려 8배입니다. 이 기본값은 Gemini 3 Pro와 동일하며, 구독 플랜이나 결제 금액으로 바뀌지 않습니다.

실제 개발자 커뮤니티에서 자주 올라오는 “출력이 6,000단어 근처에서 잘린다”는 불만의 원인 대부분이 바로 이 기본값입니다. 프롬프트에서 아무리 “100,000자 분량으로 써줘”라고 요청해도 API 파라미터가 8,192를 넘지 않도록 막아버립니다. 프롬프트 설정이 아닌 API 파라미터 설정 문제입니다.

아래 표는 Gemini 3.0 Pro와 3.1 Pro의 스펙 변화를 공식 문서 기준으로 정리한 것입니다.

항목	Gemini 3.0 Pro	Gemini 3.1 Pro	변화
입력 컨텍스트	1,000,000 토큰	1,000,000 토큰	동일
최대 출력 토큰 (상한)	65,536	65,536	동일
기본 maxOutputTokens	8,192	8,192	동일 (주의)
실측 출력 (커뮤니티 측정)	~21,723 토큰	~55,533 토큰	+2.5배
파일 업로드 한도	20 MB	100 MB	5배
thinking 레벨	low, high	minimal, low, medium, high	+2 레벨

(출처: Google AI Developer 공식 API 문서, aifreeapi.com 실측, 2026.02.20 확인)

표에서 보이는 핵심은 “최대 출력 토큰 상한”은 3.0 Pro와 3.1 Pro가 동일하다는 점입니다. 3.0 Pro 시절에도 파라미터만 제대로 설정하면 65,536까지 요청할 수 있었습니다. 3.1 Pro가 다른 건 상한이 아니라, 그 상한까지 실제로 연속 출력을 뽑아낼 수 있는 품질과 안정성입니다.

▲ 목차로 돌아가기

thinking 모드가 출력 예산을 잠식하는 구조

Gemini 3.1 Pro는 thinking 레벨을 minimal / low / medium / high 네 단계로 선택할 수 있습니다. 문제는 이 내부 추론 과정에서 소비되는 토큰이 눈에 보이지 않는다는 점입니다. 그리고 그 토큰은 65,536이라는 총 출력 예산에서 빠져나갑니다. (출처: Google Gemini API 공식 문서, usage_metadata 항목, 2026.02.20 확인)

아래는 thinking 레벨별 실측 추론 토큰 소비와 실제 콘텐츠 출력 가용량입니다.

thinking 레벨	추론 토큰 소비 (약)	실제 콘텐츠 출력	적합한 작업
minimal	1,000~3,000	62,500~64,500	번역, 요약, 형식 변환
low	5,000~10,000	55,500~60,500	일반 콘텐츠, Q&A
medium	12,000~20,000	45,500~53,500	기술 문서, 중간 추론
high (기본값)	18,000~30,000	35,500~47,500	복잡한 코딩, 심층 분석

(출처: aifreeapi.com 실측 문서 생성 테스트 기반 추정치, Google AI usage_metadata 확인 가능, 2026.02.20)

high 모드를 기본으로 쓰면서 65,536토큰으로 설정해도 실제 눈에 보이는 콘텐츠는 35,500~47,500토큰입니다. 기대했던 것보다 최대 30,000토큰이 내부에서 소진됩니다. 그 토큰들은 응답 텍스트에 표시되지 않고 usage_metadata의 thinking 항목에만 기록됩니다.

💡 공식 과금 구조와 실제 콘텐츠 출력량을 같이 계산해보니 이 간극이 보였습니다. thinking 토큰은 $12/100만 토큰으로 동일하게 과금됩니다. high 모드로 긴 문서를 뽑으면, 비용도 내고 콘텐츠는 더 적게 받는 구조입니다. (출처: Verdent AI, Google Gemini 공식 과금 정책, 2026.02.23)

▲ 목차로 돌아가기

벤치마크 1위, 하지만 실무 격차가 보이는 곳

Gemini 3.1 Pro는 ARC-AGI-2에서 77.1%를 기록했습니다. 직전 Gemini 3 Pro의 31.1%에서 두 배 이상 뛰었고, Claude Opus 4.6(68.8%)와 GPT-5.2(52.9%)를 위에서 압도합니다. (출처: Google DeepMind Model Card, 2026.02.19) Artificial Analysis Intelligence Index에서도 57점으로 1위를 차지했습니다.

그런데 같은 공식 Model Card에 있는 GDPval-AA 항목을 보면 이야기가 달라집니다. GDPval-AA는 44개 직종에서 실제 지식 업무 처리 능력을 측정하는 Elo 방식 벤치마크입니다. 보고서 작성, 데이터 분석, 커뮤니케이션 초안 작성처럼 화이트칼라가 매일 하는 작업들입니다.

모델	GDPval-AA Elo (실무)	ARC-AGI-2 (추론)
Claude Sonnet 4.6	1,633	58.3%
Claude Opus 4.6	1,606	68.8%
GPT-5.2	1,462	52.9%
Gemini 3.1 Pro	1,317	77.1% (1위)

(출처: Google DeepMind Gemini 3.1 Pro Model Card, Towards AI TAI #193, 2026.02.19~24)

ARC-AGI-2에서 1위인 Gemini 3.1 Pro가 GDPval-AA에서는 최하위입니다. Claude Sonnet 4.6과는 316점 차이입니다. 이 Elo 격차는 단순한 수치 차이가 아닙니다. 매일 쓰는 실무 툴에서 체감 품질로 나타납니다.

💡 벤치마크 순위와 실무 만족도가 같은 방향을 가리키지 않는다는 걸, 같은 Model Card 안의 두 숫자가 동시에 보여주고 있습니다. 코드 생성과 추론엔 Gemini, 보고서와 이메일 초안엔 Claude라는 실용적 분업이 여기서 나옵니다.

▲ 목차로 돌아가기

비교로 보는 실제 위치 — 경쟁 모델과의 수치 대조

출력 한도와 비용을 경쟁 모델과 나란히 놓으면 Gemini 3.1 Pro의 포지션이 더 선명하게 보입니다.

모델	최대 출력	출력 단가 (/1M)	최대 출력 1회 비용	컨텍스트
Gemini 3.1 Pro	65,536	$12	약 $0.79	1M
Gemini 3 Flash	64,000	$3	약 $0.19	1M
Claude Opus 4.6	32,000	$75	약 $2.40	200K
Claude Sonnet 4.6	16,000	$15	약 $0.24	200K
GPT-5.2	16,384	$60	약 $0.98	128K

(출처: aifreeapi.com 공식 비교 문서, Google AI Developer 가격 페이지, 2026.02.20 확인)

최대 출력 65,536토큰을 한 번 생성하는 데 드는 비용은 Gemini 3.1 Pro 기준 약 $0.79입니다. 같은 작업에 Claude Opus 4.6을 쓰면 토큰 수는 절반(32,000)인데 비용은 약 $2.40입니다. 출력 단가 차이가 6배가 넘습니다. 하루 1,000회 최대 출력 기준으로 월 비용을 단순 계산하면 Gemini 쪽이 약 23만 달러, Opus 4.6 쪽이 약 72만 달러입니다.

단, 한국어·한자·일본어 등 아시아 언어는 토큰 소비 패턴이 다릅니다. 영문 기준으로는 1토큰당 0.75단어지만, 한국어는 문자 하나가 토큰 1~2개를 차지하는 경우가 많아 실제 한국어 콘텐츠 출력 가용량은 영문 대비 30~40% 줄어들 수 있습니다. 이 부분은 직접 테스트로 확인하는 것을 권장합니다.

▲ 목차로 돌아가기

실제로 쓸 때 이 설정이 맞습니다

지금까지 살펴본 내용을 실제 사용 시나리오로 정리합니다. 어떤 설정이 언제 맞는지, 공식 문서와 실측 데이터를 교차해서 도출한 결론입니다.

📄 긴 문서·보고서 생성이 목적이라면

maxOutputTokens: 65536 명시 필수
thinking_level: "low" 또는 "minimal" 선택
콘텐츠 가용량 55,500~64,500토큰 확보
비용은 Batch API 사용 시 50% 절감 ($6/100만 출력 토큰)

💻 복잡한 코드 생성·아키텍처 설계가 목적이라면

maxOutputTokens: 65536 명시
thinking_level: "high" 유지 (reasoning 품질 필요)
콘텐츠 출력은 35,500~47,500토큰으로 줄지만 추론 품질 보장
모델 ID: gemini-3.1-pro-preview-customtools (tool-calling 성능 강화)

💬 챗봇·빠른 응답이 목적이라면

기본값 8,192 그대로 사용 (과도한 설정 불필요)
추론 품질보다 속도가 중요하면 Gemini 3 Flash($3/100만 출력) 검토
실무 문서 품질이 우선이라면 Claude Sonnet 4.6 병행 고려

응답이 예상보다 짧게 잘린다면 API 응답의 finishReason 필드를 먼저 확인하세요. MAX_TOKENS이면 파라미터 문제, STOP이면 모델이 완료로 판단한 것, SAFETY이면 콘텐츠 필터 개입입니다.

참고로, Gemini 앱(소비자 버전)에서도 AI Pro 및 Ultra 플랜 구독자는 상향된 사용 한도로 Gemini 3.1 Pro를 쓸 수 있습니다. 다만 AI Studio와 동일한 프롬프트에서 응답 품질 차이가 체감된다는 의견이 커뮤니티에서 지속적으로 나오고 있고, 구글이 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

Q&A — 자주 나오는 질문 5가지

Q. Gemini 앱에서도 64K 출력이 되나요?

Q. thinking 토큰도 요금이 청구되나요?

네, 청구됩니다. thinking 토큰은 출력 토큰과 동일하게 $12/100만 토큰으로 과금됩니다. (출처: Verdent AI, Google 공식 과금 정책, 2026.02.23) 응답 텍스트에 보이지 않는다고 해서 무료가 아닙니다. usage_metadata의 thinking 항목에서 소비량을 확인할 수 있습니다.

Q. Gemini 3.1 Pro와 3 Pro는 출력 상한이 같은데, 뭐가 다른 건가요?

상한은 둘 다 65,536토큰으로 동일합니다. 차이는 그 상한까지 안정적으로 출력을 뽑아낼 수 있는가입니다. Gemini 3 Pro는 실측에서 21,723토큰 근처에서 잘렸고, 3.1 Pro는 55,533토큰까지 연속 출력이 확인됐습니다. ARC-AGI-2 점수도 31.1%에서 77.1%로 두 배 이상 개선됐습니다. 같은 한도에서 더 멀리 가는 엔진으로 바뀐 것입니다.

Q. 한국어로 출력할 때도 65K토큰이 되나요?

토큰 수 자체는 65,536을 요청할 수 있습니다. 다만 한국어는 영문보다 문자당 토큰 소비가 많아 실제 생성되는 글자 수가 줄어듭니다. 영문은 1토큰당 약 0.75단어지만, 한국어는 문자 하나가 1~2토큰을 쓰는 경우가 있어 실제 체감 출력량은 영문 대비 30~40% 적을 수 있습니다. 정확한 수치는 직접 테스트로 확인이 필요합니다.

Q. 현재 정식 출시된 건가요, 프리뷰 버전인가요?

2026년 3월 기준으로 프리뷰 버전입니다. 모델 ID는 gemini-3.1-pro-preview입니다. 구글이 GA(정식 출시) 전에 동작 방식과 성능을 변경할 수 있습니다. 프로덕션 시스템에 적용할 때는 모델 버전을 고정하고 업데이트 시 별도 테스트를 권장합니다.

▲ 목차로 돌아가기

마치며

Gemini 3.1 Pro는 벤치마크로는 현재 최상위 모델입니다. ARC-AGI-2 77.1%, GPQA Diamond 94.3%, 할루시네이션 저항 점수 38% 감소. 이 수치들은 실제로 의미가 있고, 특히 코드 생성과 장문 분석에서 직접 확인할 수 있는 개선입니다.

다만 “64K 출력 됩니다”를 그대로 믿으면 한 번쯤 막힙니다. maxOutputTokens 기본값이 8,192라는 점, thinking 모드가 높을수록 콘텐츠 출력 예산이 최대 30,000토큰까지 줄어든다는 점, GDPval-AA 실무 벤치마크에서 Claude 대비 316점 차이가 난다는 점. 이 세 가지는 공식 문서와 Model Card에 다 나와 있는데 잘 알려지지 않았습니다.

설정 하나, 모드 선택 하나가 실제 출력량을 8배 차이로 만들 수 있는 모델입니다. 쓸 때 제대로 알고 쓰면, 현재 나와 있는 모델 중에서 장문 생성 비용 효율은 가장 앞선 선택지가 될 수 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Google 공식 블로그 — 제미나이 3.1 프로 출시 발표 (2026.02.19)
https://blog.google/intl/ko-kr/products/gemini-3-1-pro-kr/
Google DeepMind — Gemini 3.1 Pro Model Card 공식 문서 (2026.02.19)
https://deepmind.google/models/model-cards/gemini-3-1-pro/
Google Cloud 공식 블로그 — Gemini 3.1 Pro on Vertex AI & Gemini Enterprise (2026.02.19)
https://cloud.google.com/blog/products/ai-machine-learning/
Towards AI Newsletter TAI #193 — Gemini 3.1 Pro 벤치마크 분석 (2026.02.24)
https://newsletter.towardsai.net/p/tai-193-gemini-31-pro-takes-the-benchmarks
aifreeapi.com — Gemini 3.1 Pro Output Limit Complete Guide (2026.02.20)
https://www.aifreeapi.com/en/posts/gemini-3-1-pro-output-limit

⚠️ 면책 조항: 본 포스팅은 2026년 3월 30일 기준으로 작성되었습니다. Gemini 3.1 Pro는 현재 프리뷰 버전으로, 본 포스팅 작성 이후 구글의 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 모든 수치는 작성 시점의 공식 문서 및 실측 자료 기반이며, 실제 적용 전 최신 공식 문서를 확인하시기 바랍니다.

Gemini 3.1 Pro 출력 한도,
이 설정 빠지면 Gemini 3과 똑같습니다

Gemini 3.1 Pro 출력 한도, 공식 수치가 말하지 않은 것

기본값 8,192의 함정 — Gemini 3과 다를 게 없는 이유

thinking 모드가 출력 예산을 잠식하는 구조

벤치마크 1위, 하지만 실무 격차가 보이는 곳

비교로 보는 실제 위치 — 경쟁 모델과의 수치 대조