Claude 3.7 Sonnet, 생각 모드 켜도 안 되는 경우 있습니다

Published on

in

Claude 3.7 Sonnet, 생각 모드 켜도 안 되는 경우 있습니다

2026.03.26 기준 / Claude 3.7 Sonnet (claude-3-7-sonnet-20250219) 기준

Claude 3.7 Sonnet, 생각 모드 켜도
안 되는 경우 있습니다

Extended Thinking을 켜면 무조건 더 똑똑해진다고 알려져 있습니다. 근데 막상 써보면 무료 플랜에선 버튼 자체가 없고, 토큰 예산을 아무리 올려도 수익이 로그 함수처럼 줄어드는 구간이 있습니다. 공식 문서와 실측 데이터를 함께 놓고 보니, 기대와 꽤 다른 부분이 몇 가지 보였습니다.

64.9%
Aider Polyglot 1위
(32k 생각 토큰 기준)
128k
최대 출력 토큰
(생각 모드 활성화 시)
❌ 무료
Extended Thinking
무료 플랜 완전 차단

Extended Thinking이 정확히 뭔지부터

단순히 ‘더 오래 생각’하는 게 아닙니다

Claude 3.7 Sonnet의 Extended Thinking은 2025년 2월 24일 Anthropic이 공식 발표한 기능입니다. 핵심은 하나의 모델이 표준 응답 모드와 추론 모드를 모두 지원한다는 점입니다. OpenAI의 o1처럼 별도 모델을 쓰는 게 아니라, 같은 모델이 더 긴 내부 사고 과정을 거쳐 답을 냅니다. (출처: Anthropic 공식 블로그, 2025.02.24)

API로 쓸 때는 budget_tokens 파라미터로 생각에 쓸 최대 토큰 수를 직접 지정합니다. 최솟값은 1,024, 최댓값은 128,000입니다. Claude.ai 앱에서는 대화창 좌측의 토글로 켤 수 있고, 생각 과정이 UI 안에서 시각적으로 보입니다.

💡 공식 발표문과 API 문서를 함께 읽어보니, “생각 모드”라는 단어가 하나처럼 보여도 실제로 세 가지 모드가 존재합니다. 표준 모드 / Extended Thinking 활성화 모드 / Extended Thinking + 인터리브 모드인데, 쓸 수 있는 조건과 요금이 각각 다릅니다.

▲ 목차로 돌아가기

무료 플랜엔 진짜 없습니다 — 공식 문서 확인

무료로 쓴다면 Extended Thinking은 처음부터 막혀 있습니다

공식 블로그에 이렇게 나옵니다. “Extended thinking mode is available on all surfaces except the free Claude tier.” (출처: Anthropic, 2025.02.24) 무료 플랜에서는 Extended Thinking 자체가 비활성화됩니다. 버튼이 없거나 회색으로 잠겨 있습니다.

많은 블로그에서 “Claude 3.7 Sonnet은 생각 모드가 있다”고 소개하지만, 무료로 쓰는 경우엔 해당 없습니다. Pro($20/월), Team, Enterprise 요금제 또는 API 유료 사용자여야 합니다. 생각 모드를 쓰려면 최소 월 약 2.7만 원(Pro 요금 기준)이 전제입니다.

요금제 Extended Thinking 비고
Free ❌ 불가 완전 차단
Pro ($20/월) ✅ 가능 UI 토글 제공
Team / Enterprise ✅ 가능 조직 설정 별도
API (유료) ✅ 가능 budget_tokens 직접 지정

무료 플랜이라면 기본 Claude 3.7 Sonnet 모델 자체(표준 모드)는 쓸 수 있습니다. 단, 그 경우엔 Extended Thinking 없이 이전 3.5 Sonnet의 업그레이드 버전으로 동작합니다.

▲ 목차로 돌아가기

토큰 예산 올릴수록 좋아질까요? 수치로 확인

32k 이상부터는 수익이 빠르게 줄어듭니다

Anthropic 공식 리서치 포스트에 수학 문제(AIME 2024) 기준으로 생각 토큰과 정확도의 관계를 측정한 그래프가 공개돼 있습니다. 정확도는 생각 토큰 수에 로그 비례로 증가합니다. (출처: Anthropic Research, 2025.02.24) 1k → 8k 구간에서 올라간 폭이, 8k → 64k 구간과 비슷합니다.

독립적인 벤치마크인 Aider Polyglot에서도 비슷한 패턴이 확인됩니다. 32k 생각 토큰 기준 64.9%였고, 생각 없이 실행하면 60.4%였습니다. (출처: Simon Willison, 2025.02.25) 약 4.5%p 차이인데, 이 차이를 내기 위해 쓰인 API 비용 차이는 $17.72 → $36.83로 두 배가 넘었습니다. 성능은 7% 오르고 비용은 108% 올랐습니다.

💡 공식 발표문에는 “Claude may not use the entire budget allocated, especially at ranges above 32k“라고 명시돼 있습니다. 32k 이상으로 예산을 설정해도 Claude가 스스로 그만큼 쓰지 않는 경우가 많다는 뜻입니다. 예산이 크다고 쓰는 토큰이 늘어나는 건 아닙니다.

실용적인 시작 예산 기준

Anthropic 공식 문서의 권장 사항은 이렇습니다. 복잡한 작업은 16k 이상으로 시작하고, 32k를 넘기는 경우엔 Batch API를 사용하라고 합니다. 이유는 32k 이상 설정하면 네트워크 타임아웃이 발생할 수 있기 때문입니다. (출처: Anthropic Docs, 2026.03) 일반 코딩 작업이라면 8k~16k 예산이 비용 대비 효율이 가장 높습니다.

▲ 목차로 돌아가기

생각 토큰도 돈입니다 — 과금 구조 정리

응답에 안 보이는 토큰이 더 비쌀 수 있습니다

Extended Thinking 과금 구조는 단순하지 않습니다. Claude 4 이상 모델(Sonnet 4.6 기준)은 실제 생각 과정 전체를 과금하고, 응답에 보이는 건 그 생각의 요약본입니다. 즉, 보이는 토큰보다 과금되는 토큰이 훨씬 많을 수 있습니다. (출처: Anthropic Docs, 2026.03)

Claude 3.7 Sonnet은 구버전이라 생각 토큰이 그대로 출력됩니다. 반면 Claude Sonnet 4.6이나 Opus 4.x에서 Extended Thinking을 쓰면, 응답에는 요약본만 보이지만 내부적으로 생성된 전체 생각 토큰이 출력 토큰으로 과금됩니다. 이 차이를 모르면 예상보다 청구액이 크게 나옵니다.

📊 Extended Thinking 과금 방식 비교

모델 생각 출력 방식 과금 기준
Claude 3.7 Sonnet 전체 생각 그대로 출력 보이는 토큰 = 과금 토큰
Claude 4 모델 (Sonnet 4.6 등) 요약본만 출력 원본 생각 토큰 전체 과금

Anthropic 공식 문서에 “The billed output token count will not match the count of tokens you see in the response“라고 직접 경고하고 있습니다. Claude Code나 Claude API로 Claude 4 계열을 쓴다면, 응답 길이만 보고 비용을 추정하면 안 됩니다.

▲ 목차로 돌아가기

도구 사용(Tool Use)과 함께 쓸 때 주의할 점

생각 모드 중간에 끄면 조용히 비활성화됩니다

Extended Thinking과 Tool Use를 함께 쓸 때 가장 많이 실수하는 부분입니다. Tool Use 루프 중간에 Extended Thinking을 켜거나 끄려고 하면, 오류가 발생하는 게 아니라 그냥 생각 모드가 꺼집니다. 응답에 thinking 블록이 없어도 에러가 안 나오기 때문에, 생각 모드가 작동 중인지 스스로 확인해야 합니다. (출처: Anthropic Docs, 2026.03)

또한 Tool Use와 함께 쓸 때는 이전 어시스턴트 턴의 thinking 블록을 그대로 API에 다시 넘겨야 합니다. 이 블록을 누락하거나 수정하면 모델의 추론 흐름이 끊깁니다. Tool Use 루프 안에서 thinking 블록을 임의로 재정렬하거나 편집하는 것도 금지돼 있습니다.

💡 Anthropic 문서에는 “tool_choice: any” 또는 “tool_choice: tool” 옵션을 쓰면 Extended Thinking 활성화 시 에러가 발생한다고 명시돼 있습니다. 생각 모드와 함께 쓸 수 있는 건 tool_choice: auto 또는 none뿐입니다.

▲ 목차로 돌아가기

공식 발표문과 실제 사용 흐름을 같이 놓고 보니

생각 과정이 충실하다고 답이 반드시 맞는 건 아닙니다

Anthropic 리서치팀이 스스로 밝힌 부분입니다. “models very often make decisions based on factors that they don’t explicitly discuss in their thinking process” — 생각 과정에 나온 내용이 실제 모델이 결론을 내리는 이유와 반드시 일치하지 않는다는 겁니다. (출처: Anthropic Research, 2025.02.24) 생각 블록을 보고 “이렇게 추론했으니까 맞겠지”라고 신뢰하는 건 위험합니다.

실제로 Reddit 사용자 후기를 보면, 생각 모드를 켰는데 코드가 컴파일은 됐지만 문제를 해결하지 못한 경우가 반복 보고됩니다. 이유는 Anthropic이 공식 답변을 내놓지 않은 부분입니다. 다만 공식 리서치팀이 “생각 과정의 faithfulness는 아직 연구 중인 영역“이라고 명시한 만큼, 중요한 판단 작업엔 결과물을 직접 검증하는 과정이 필요합니다.

코딩 작업 기준 실용적인 활용 가이드

  • 단순 자동완성, 리팩터링: 생각 모드 끄기 (비용 절약)
  • 알고리즘 설계, 복잡한 디버깅: budget_tokens 8,000~16,000
  • 대규모 시스템 설계, 수학/물리 문제: budget_tokens 32,000
  • 32k 초과 필요 시: 반드시 Batch API 사용 (타임아웃 방지)

▲ 목차로 돌아가기

Q&A 5가지

Q. Claude 3.7 Sonnet Extended Thinking은 지금도 쓸 수 있나요?

Anthropic 공식 문서 기준(2026.03.26)으로, Claude 3.7 Sonnet은 Deprecated(사용 중단 예정) 상태입니다. API에서는 아직 호출 가능하지만, 신규 프로젝트엔 Claude Sonnet 4.6이나 Claude Opus 4 계열 사용을 권장합니다. Claude.ai 앱에서도 요금제에 따라 최신 모델로 자동 전환되는 경우가 있습니다.

Q. 생각 모드 토큰 예산은 얼마가 적당한가요?

Anthropic 문서에서는 복잡한 작업 기준으로 16k 이상에서 시작해보라고 권장합니다. 코딩 작업이라면 8,000~16,000 사이가 비용 대비 효율이 가장 높은 구간입니다. 32k를 넘기면 Claude가 스스로 그만큼 다 쓰지 않는 경우가 많아 낭비가 생깁니다.

Q. Claude Pro 요금제만 있으면 Extended Thinking을 무제한으로 쓸 수 있나요?

아닙니다. Claude Pro는 월 정액 기반이지만 메시지 사용량 제한이 있습니다. Extended Thinking은 일반 응답보다 훨씬 많은 토큰을 소모하기 때문에, 하루 몇 번 쓰다 보면 한도에 빠르게 도달합니다. 무제한에 가까운 사용이 필요하다면 API 유료 과금 방식이 더 적합합니다.

Q. Extended Thinking 켰을 때 출력 속도가 느린 건 정상인가요?

네, 정상입니다. Claude 3.7 Sonnet 기준 토큰당 약 14ms가 소요됩니다. 128k 출력 기준으로 약 27분이 걸릴 수 있습니다. (출처: Simon Willison 실측, 2025.02.25) 스트리밍 환경에서도 thinking 블록이 덩어리로 도착하는 특성이 있으며, Anthropic이 개선 중이라고 공식 문서에서 밝히고 있습니다.

Q. 생각 내용(thinking block)이 잘려서 나오거나 암호화된 경우엔 뭔가요?

안전 시스템에 걸린 경우입니다. Anthropic 공식 문서에 따르면, 생각 내용 중 일부가 안전 정책에 걸리면 해당 부분을 암호화해서 redacted_thinking 블록으로 반환합니다. 사용자 눈에는 안 보이지만, API에 다시 넘겨주면 Claude가 이전 맥락을 이어갑니다. 이건 기능 오작동이 아니라 설계된 동작입니다.

▲ 목차로 돌아가기

마치며

Claude 3.7 Sonnet Extended Thinking은 실제로 코딩·수학·복잡한 추론에서 의미 있는 성능 향상을 줍니다. 단, 무료 플랜에선 쓸 수 없고, 32k 이상 예산은 효율이 급격히 떨어지며, 생각 블록이 보인다고 해서 그게 모델의 실제 추론 과정을 그대로 반영한다고 보기는 어렵습니다.

쓰기 전에 어떤 작업인지, 어느 요금제인지, 예산은 얼마가 적정한지를 먼저 따져보는 게 필요합니다. 무조건 켜는 것보다, 작업 유형에 맞게 예산을 조절하는 편이 비용도 아끼고 결과도 예측하기 쉽습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — Claude 3.7 Sonnet and Claude Code
    https://www.anthropic.com/news/claude-3-7-sonnet
  2. Anthropic Research — Visible Extended Thinking
    https://www.anthropic.com/research/visible-extended-thinking
  3. Anthropic Docs — Building with Extended Thinking
    https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking
  4. Simon Willison — Claude 3.7 Sonnet, extended thinking and long output
    https://simonw.substack.com/p/claude-37-sonnet-extended-thinking

※ 본 포스팅은 2026년 3월 26일 기준으로 작성되었습니다. Claude 3.7 Sonnet은 Anthropic 공식 문서상 Deprecated 모델로 분류되어 있으며, 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. API 요금은 Anthropic 공식 pricing 페이지에서 최신 정보를 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기