Gemini 3.1 Pro, 추론 2배라는 말이 반은 맞습니다

Published on

in

Gemini 3.1 Pro, 추론 2배라는 말이 반은 맞습니다

2026.02.19 출시 기준
gemini-3.1-pro-preview
지식 컷오프: 2025년 1월

Gemini 3.1 Pro, 추론 2배라는 말이 반은 맞습니다

구글이 2026년 2월 19일 공개한 Gemini 3.1 Pro는 ARC-AGI-2 벤치마크에서 77.1%를 기록했습니다. 이전 버전인 Gemini 3 Pro 대비 두 배 이상 향상된 수치입니다. 근데 솔직히 말하면, 이 숫자만 보고 쓰기 시작하면 막히는 지점이 꽤 있습니다. temperature를 낮추면 오히려 성능이 나빠지고, thinking loop에 빠지면 크레딧이 통째로 날아가는 상황도 실제로 발생합니다. 공식 문서와 실사용 데이터를 교차해서 확인했습니다.

77.1%
ARC-AGI-2 점수
2배+
이전 3 Pro 대비 추론 향상
1M
토큰 컨텍스트 윈도우
$2/$12
입출력 단가 (≤200K 토큰)

Gemini 3.1 Pro가 뭐가 달라졌나요?

2026년 2월 19일 공개된 Gemini 3.1 Pro는 Gemini 3 시리즈의 핵심 추론 엔진을 업그레이드한 버전입니다. 구글 공식 블로그는 “단편적인 문답을 넘어, 고도의 추론이 요구되는 고난도 작업을 위해 설계됐다”고 설명합니다. (출처: Google Blog KR, 2026.02.19)

아키텍처 측면에서는 Gemini 3 Pro와 동일한 Sparse MoE(희소 전문가 혼합) 트랜스포머 기반을 유지하면서, 내부 사고 프로세스의 효율을 높였습니다. Vertex AI 공식 문서에 따르면 3.1 Pro에서 새로 추가된 주요 변경 사항은 세 가지입니다. SWE(소프트웨어 엔지니어링) 및 에이전트 성능 개선, thinking 토큰 효율 향상, thinking_level 파라미터에 MEDIUM 옵션 추가입니다. (출처: Google Cloud Vertex AI 공식 문서, 2026.03.15 기준)

배포 채널은 Google AI Studio API, Gemini CLI, Google Antigravity(에이전트 개발 플랫폼), Android Studio를 통해 프리뷰 버전으로 제공됩니다. Vertex AI와 Gemini Enterprise도 지원합니다. 일반 이용자는 Gemini 앱(Google AI Pro·Ultra 구독자 대상)과 NotebookLM(Pro·Ultra 독점)에서 사용할 수 있습니다.

▲ 목차로 돌아가기

ARC-AGI-2 77.1%, 이 숫자가 의미하는 것

ARC-AGI-2는 사람이 직관적으로 풀지만 AI가 어려워하는 ‘완전히 새로운 논리 패턴’을 평가하는 벤치마크입니다. 기존 학습 데이터에 없는 새로운 규칙을 추론해야 하기 때문에, 단순 암기나 패턴 매칭으로는 점수를 낼 수 없습니다.

💡 공식 발표 수치와 이전 버전 데이터를 같이 놓고 보니 이런 차이가 보였습니다.

모델 ARC-AGI-2 비고
Gemini 3.1 Pro 77.1% 2026.02.19 출시
Gemini 3 Pro 약 35~38% 추정 (공식 미공개)
VS Code 코딩 문제 +35%p 3 Pro 대비 정확도 향상 (출처: Google Cloud Blog KR)

※ ARC-AGI-2 기준 Gemini 3 Pro 절대 수치는 공식 미공개. “두 배 이상 향상”은 Google Blog KR 원문 표현.

77.1%라는 수치는 단순히 성능이 올랐다는 의미가 아닙니다. 두 배 이상 향상됐다는 건, 이전에 절반 이상 틀리던 새로운 추론 문제를 이제 대부분 맞힌다는 뜻입니다. Vertex AI에서 실시한 코딩 테스트에서는 3 Pro 대비 소프트웨어 엔지니어링 문제 해결 정확도가 35% 더 높았습니다. (출처: Google Cloud Blog KR, 2025.11.19)

▲ 목차로 돌아가기

temperature 낮출수록 좋아지지 않는 이유

AI 모델을 쓸 때 “정확한 답이 필요하면 temperature를 낮춰라”는 게 오래된 통설입니다. 하지만 Gemini 3.1 Pro에서는 이 방식이 역효과를 냅니다. 공식 문서가 직접 경고하는 내용입니다.

⚠️ 공식 문서 원문 내용

“모든 Gemini 3 모델의 경우 temperature 파라미터를 기본값인 1.0으로 유지할 것을 적극 권장합니다. 온도를 변경하여 (1.0 미만으로 설정) 복잡한 수학적 또는 추론 작업에서 루핑이나 성능 저하와 같은 예기치 않은 동작이 발생할 수 있습니다.”

(출처: Google AI for Developers — Gemini 3 개발자 가이드)

temperature를 0.1~0.5 수준으로 낮추면 모델이 더 결정적으로 행동할 것 같지만, Gemini 3.1 Pro의 추론 기능은 1.0 설정에 최적화돼 있습니다. 낮추면 추론 루핑이 생기거나 성능이 오히려 떨어집니다. 이전 모델들과 완전히 다른 방향입니다.

이유는 아직 공개되지 않았습니다. 다만 Gemini 3 시리즈가 기본적으로 “동적 사고(dynamic thinking)”를 쓰기 때문에, 내부 추론 과정이 temperature 변화에 민감하게 반응하는 것으로 볼 수 있습니다. topP(기본 0.95)와 topK(64 고정)는 그대로 두는 게 안전합니다.

▲ 목차로 돌아가기

thinking loop 버그, 크레딧이 통째로 사라지는 조건

출시 직후부터 실사용자들 사이에서 같은 증상이 반복 보고됐습니다. “100초 이상 사고를 지속한 후 아무것도 출력하지 않고 출력 토큰 한도 초과 오류만 발생한다”는 내용입니다. (출처: Reddit r/google_antigravity, 2026.02.22)

💡 실사용 데이터와 공식 스펙을 함께 보면 이 버그의 발생 구조가 보입니다.

  • Gemini 3.1 Pro의 기본 thinking_level은 high (동적)입니다. 최대 추론 깊이를 우선으로 씁니다.
  • 최대 출력 토큰은 65,536입니다. 사고 토큰이 이 한도를 먼저 소진하면 실제 응답이 나오지 못합니다.
  • 3 Pro에서 드물었던 이 증상이 3.1 Pro에서 더 자주 발생하는 이유는, 내부 추론 깊이가 깊어진 만큼 토큰 소진 속도도 빨라졌기 때문입니다.

한 사용자는 “70줄짜리 코드 수정을 요청했는데 3분간 사고만 하다가 엉뚱한 결과를 냈다”고 밝혔습니다. 또 다른 사용자는 “2일 전까지 잘 됐는데 3.1 업데이트 이후 thinking loop에 빠져 크레딧을 전부 소진했다”고 했습니다. 두 사례 모두 Google AI Pro 구독자입니다.

Google Support 스레드에서도 “Dynamic Thinking 과부하 또는 재귀적 Context Caching 루프에서 극심한 지연과 컨텍스트 오류가 발생한다”고 확인됩니다. (출처: Google Support, 2026.03.03)

🔴 thinking loop 위험을 줄이는 방법

  • API 사용 시: thinking_level을 low 또는 medium으로 명시 설정
  • Antigravity·에이전트 환경: 작업을 단계별로 쪼개서 요청 (한 번에 큰 작업 전달 금지)
  • 커스텀 도구 사용 시: gemini-3.1-pro-preview-customtools 엔드포인트 별도 사용 권장

Vertex AI 공식 문서에는 3.1 Pro에 “token efficiency and thinking 개선”이 적혀 있지만, 출시 초기에는 오히려 반대 현상이 나타난 것입니다. 공식 문서가 뒤따라오고 있는 상황입니다.

▲ 목차로 돌아가기

API 비용, 20만 토큰 기준이 왜 중요한가

컨텍스트 길이 입력 (1M 토큰당) 출력 (1M 토큰당)
≤ 200,000 토큰 $2.00 $12.00
> 200,000 토큰 $4.00 (2배↑) $18.00 (1.5배↑)

계산을 직접 해보면 체감이 됩니다. 입력 35만 토큰 + 출력 1만5천 토큰짜리 연구 분석 1건의 비용은 이렇습니다.

📊 비용 계산 예시 (직접 검증 가능)

입력: 350,000 토큰 × $4 / 1,000,000 = $1.40

출력: 15,000 토큰 × $18 / 1,000,000 = $0.27

→ 1건당 약 $1.67 (약 2,400원)

같은 작업을 20만 토큰 이내로 줄이면: 입력 $0.40 + 출력 $0.18 = $0.58 → 약 65% 절감

하루 100건의 장문 컨텍스트 요청을 처리하면 월 약 $50~$70이지만, 영상이 포함된 에이전트 워크플로에서는 최적화 없이 쉽게 수천 달러가 됩니다. 20만 토큰 경계를 의식적으로 관리하는 것이 비용의 핵심입니다.

▲ 목차로 돌아가기

실제로 쓸 만한 상황과 아닌 상황

공식 발표문과 실제 사용 흐름을 같이 놓고 보면 이런 패턴이 보입니다. 추론 능력이 높아졌다고 해서 모든 상황에서 유리한 게 아닙니다.

✅ 잘 맞는 사용 사례

  • 코드 기반 애니메이션 SVG 생성
  • 복잡한 API 데이터 통합 + 대시보드
  • 장문 문서 요약·분석 (≤200K 토큰)
  • 멀티모달 입력 처리 (이미지·PDF·영상)
  • 단계별로 쪼갠 에이전트 워크플로

⛔ 주의가 필요한 상황

  • 에이전트에서 한 번에 대규모 작업 전달
  • temperature를 0.x대로 낮춰 쓰는 코딩 도우미
  • 프로덕션에서 thinking_level 기본값(high) 그대로 사용
  • 모델 전환 없이 구형 Gemini 2.5 대화 기록을 그대로 넘기는 경우 (thinking signature 오류 발생 가능)

특히 다른 모델(Gemini 2.5 등)에서 3.1 Pro로 대화 기록을 넘길 때 thinking signature가 없으면 오류가 납니다. 공식 문서에는 이 경우 더미 문자열 "context_engineering_is_the_way_to_go"를 서명 필드에 넣으라는 우회 방법이 명시돼 있습니다. 이런 식의 임시방편이 공식 문서에 올라와 있다는 점이 현재 상태를 잘 보여줍니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Gemini 3.1 Pro는 무료로 쓸 수 있나요?
Google AI Studio에서 대화형 테스트는 무료로 가능합니다. 단, Cloud 프로젝트를 연결해 스크립트 방식으로 API를 호출하면 자동으로 유료 전환됩니다. Gemini 앱에서는 Google AI Pro(월 2만9천원) 또는 Ultra(월 18만원) 구독자만 사용할 수 있습니다. (출처: AITimes, 2026.02 기준)
Q2. thinking_level을 어떻게 설정해야 하나요?
Q3. 이전 Gemini 모델과 대화 기록을 공유할 수 있나요?
바로 쓸 수 없습니다. 이전 모델 대화 기록에는 thinking signature가 없기 때문에 엄격한 검증 오류가 납니다. 공식 우회 방법은 서명 필드에 더미 문자열을 넣는 것인데, 함수 호출과 이미지 생성에만 이 엄격한 검증이 적용됩니다.
Q4. Gemini 3 Flash와 어떻게 다른가요?
Q5. 커스텀 도구를 많이 쓰는 환경에서는 어떤 엔드포인트를 써야 하나요?
Vertex AI에 gemini-3.1-pro-preview-customtools라는 별도 엔드포인트가 있습니다. view_file이나 search_code 같은 커스텀 도구를 우선 처리하도록 최적화돼 있습니다. 가격은 동일하지만, Provisioned Throughput은 지원하지 않습니다. (출처: Google Cloud Vertex AI 공식 문서)

▲ 목차로 돌아가기

마치며

개인적인 판단으로는, 현재 시점에서 Gemini 3.1 Pro를 그냥 “켜놓고 쓰는” 방식은 비효율적입니다. thinking_level 조정, 작업 단계 분리, 20만 토큰 경계 관리, 커스텀 도구 엔드포인트 분리 — 이 네 가지를 챙길 준비가 됐을 때 제 성능을 뽑을 수 있습니다. 반대로 그냥 연결만 해놓으면 비용 폭탄과 빈 응답을 먼저 만날 가능성이 있습니다.

프리뷰 딱지가 붙은 이유가 있습니다. 지금은 테스트하면서 조건을 파악하는 단계로 쓰고, 안정 버전이 나오면 그때 본격적으로 투입하는 게 현실적입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Google Blog KR — 복잡한 과제 해결을 위해 더욱 스마트해진 ‘제미나이 3.1 프로’ (blog.google, 2026.02.19)
  2. Google AI for Developers — Gemini 3 개발자 가이드 (ai.google.dev)
  3. Google Cloud Vertex AI — Gemini 3.1 Pro 공식 스펙 문서 (docs.cloud.google.com)
  4. Apidog Blog — Gemini 3 Pro API 가격 분석 (apidog.com)
  5. Reddit r/google_antigravity — 실사용 thinking loop 보고 (reddit.com, 2026.02.22)
  6. Google Support — Gemini 3.1 Pro 기술 이슈 스레드 (2026.03.03)

본 포스팅은 2026년 3월 23일 기준으로 작성됐습니다. Gemini 3.1 Pro는 현재 공개 프리뷰(Public Preview) 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. 최신 정보는 Google 공식 문서에서 확인하세요.

댓글 남기기


최신 글

  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴면보험금 조회 청구 2026, 내보험찾아줌 전 확인
    휴면보험금 조회 청구 2026 기준으로 보험금 종류, 계약자와 피보험자, 현재 담당 보험사 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기