Claude Sonnet 3.7 / Claude 4 기준
⚠ 3.7 모델 Deprecated
Claude 3.7 Extended Thinking, 지금도 켜도 될까요?
솔직히 말하면, 많은 분들이 아직도 Claude 3.7 Sonnet의 Extended Thinking을 쓰고 있습니다. 그런데 Anthropic 공식 문서에는 이미 2026년 2월 19일자로 Claude Sonnet 3.7 모델이 retired 처리됐다고 나와 있습니다. Claude 4 계열에서는 같은 기능이 완전히 다른 방식으로 동작하고, 과금 구조도 달라졌습니다. 그냥 “켜면 더 똑똑해진다”고 믿고 쓰다가 토큰 요금 폭탄 맞기 전에 한 번쯤 짚고 넘어갈 필요가 있습니다.
Claude 3.7이 이미 퇴역했다는 사실부터 짚고 갑니다
Extended Thinking을 검색하면 아직도 Claude 3.7 Sonnet을 기준으로 쓴 글이 상위에 뜹니다. 그런데 Anthropic 공식 API 문서의 Model Deprecations 페이지에는 Claude Sonnet 3.7 모델이 2025년 10월 28일 고지 후 2026년 2월 19일부로 retired 처리됐다고 명시돼 있습니다. 즉 지금 claude-3-7-sonnet-20250219를 직접 호출하면 오류가 납니다.
💡 공식 deprecations 문서와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
대부분의 한국어 블로그는 3.7의 Extended Thinking 사용법을 다루면서 모델 퇴역 사실을 언급하지 않습니다. Claude 4 계열(Sonnet 4, Opus 4, Sonnet 4.5, Opus 4.5, Sonnet 4.6, Opus 4.6)에서도 Extended Thinking이 지원되지만 동작 방식이 완전히 달라졌는데, 이 부분이 빠진 글이 대부분입니다.
현재 Extended Thinking을 쓰려면 Claude 4 계열 모델을 써야 합니다. 지원 모델은 claude-sonnet-4-6, claude-opus-4-6 등 Claude 4 라인업 전체이며, 각 모델마다 동작 방식에 차이가 있습니다. (출처: Anthropic 공식 API 문서, 2026.03 기준)
Extended Thinking이 실제로 하는 일
Extended Thinking은 Claude가 최종 답변을 내놓기 전에 내부적으로 추론 과정을 거치게 합니다. API 응답에는 thinking 블록과 text 블록이 순서대로 포함됩니다. 쉽게 말해 모델이 속으로 끙끙 생각하고, 그 결과를 바탕으로 답을 뱉는 구조입니다.
어디서 성능이 올라가는가
Anthropic 공식 연구 자료에 따르면 수학 문제에서는 허용 thinking 토큰이 늘수록 정확도가 로그함수적으로 향상됩니다. (출처: Anthropic, “Claude’s extended thinking”, 2025.02.24) 로그 스케일이라는 말은, 처음 몇 천 토큰에서 가장 큰 성능 점프가 일어나고 이후로는 많이 써도 조금씩밖에 안 오른다는 뜻입니다.
어떤 작업에 효과가 있나
Anthropic 공식 발표 기준으로 수학, 물리, 코딩, 지시 이행(instruction following) 작업에서 개선 효과가 크게 확인됐습니다. 반면 단순 Q&A나 요약처럼 추론이 깊이 필요 없는 작업에서는 켜도 눈에 띄는 차이가 없고 그냥 토큰을 낭비하게 됩니다.
| 작업 유형 | Extended Thinking 효과 | 추천 예산 |
|---|---|---|
| 복잡한 수학·물리 | 높음 | 8k~16k |
| 에이전틱 코딩 | 높음 | 16k~32k |
| 일반 Q&A · 요약 | 낮음 | 비권장 |
| 창작·글쓰기 | 낮음 | 비권장 |
32K 이상 예산, 정말 그만한 가치가 있을까요
Extended Thinking에서 가장 많이 착각하는 부분입니다. “많이 생각할수록 무조건 좋다”는 건 절반만 맞습니다.
💡 공식 문서의 경고 문구를 그대로 옮겨봤습니다
“Requests pushing the model to think above 32k tokens causes long running requests that might run up against system timeouts and open connection limits.” — Anthropic 공식 API 문서, Extended thinking 섹션
32k 이상에서는 요청이 시스템 타임아웃에 걸릴 수 있습니다.
실측 벤치마크로 확인한 수치
W&B Weave를 사용한 AIME 2024 수학 벤치마크 실험 결과를 보면, 예산 증가에 따른 정확도 향상이 뚜렷하게 체감되는 구간은 standard→4K→8K→16K 구간까지입니다. (출처: Weights & Biases, “Evaluating Claude 3.7 Sonnet”, 2025.03.04)
| 예산 설정 | AIME 2024 정확도 | 추가 비용(상대) |
|---|---|---|
| Standard (0) | 20.0% | 기준 |
| 4K tokens | 약 30% | +60/1M token |
| 16K tokens | 약 43% | +240/1M token |
| 24K tokens | 50.0% | +360/1M token |
※ 비용은 출력 토큰 $15/1M 기준 추정치. 실제 지출은 모델·입력 구성에 따라 달라집니다.
16K에서 24K로 예산을 50% 더 썼을 때 정확도는 7%p 올라갑니다. 그 이상으로 올리면 올릴수록 개선폭이 좁아지는데 비용은 선형으로 늘어납니다. 32K를 넘어가는 순간부터는 성능 개선은 거의 체감되지 않고, Anthropic 공식 문서가 권장하는 방법도 “32K 이상은 batch processing을 쓰라”입니다. 실시간 API 호출에서 무턱대고 64K 예산을 줬다가 타임아웃이 나면 오히려 요청 자체가 실패합니다.
Claude 4에서는 과금 방식이 완전히 달라졌습니다
이게 핵심입니다. Claude 3.7에서는 thinking 내용이 그대로 response에 들어왔는데, Claude 4 계열부터는 “Summarized thinking”이 기본값으로 바뀌었습니다. 모델이 내부적으로 긴 생각을 하더라도 API 응답에 오는 건 요약본입니다. (출처: Anthropic 공식 API 문서, Extended thinking 섹션, 2026.03 기준)
💡 보이는 토큰과 과금 토큰이 따로 움직입니다
공식 문서에는 이렇게 나옵니다: “You’re charged for the full thinking tokens generated by the original request, not the summary tokens.” 즉 API 응답에서 보이는 summary가 1,000토큰이라도, 내부 thinking이 15,000토큰이었다면 15,000토큰 기준으로 요금이 청구됩니다.
청구서와 응답 길이가 일치하지 않습니다. 이걸 모르면 요금이 왜 이렇게 나왔는지 알 수 없습니다.
Claude 4에서 달라진 또 한 가지
Claude Opus 4.6에서는 기존의 thinking: {type: "enabled", budget_tokens: N} 방식이 deprecated됐습니다. 대신 adaptive thinking과 effort 파라미터를 써야 합니다. 이 방식은 모델이 알아서 thinking 깊이를 조절합니다. (출처: Anthropic 공식 API 문서, 2026.03 기준)
| 항목 | Claude 3.7 | Claude 4 |
|---|---|---|
| Thinking 표시 방식 | 전체 원문 | 요약본 (기본) |
| 과금 기준 | 보이는 토큰 | 내부 full 토큰 |
| Opus 4.6 방식 | – | adaptive thinking |
| 모델 상태 | Retired (2026.02.19) | 현재 운영 중 |
공식 문서가 말하는 Extended Thinking의 실제 한계
Anthropic 공식 연구 자료에는 이런 문장이 있습니다: “Models very often make decisions based on factors that they don’t explicitly discuss in their thinking process.” (출처: Anthropic, “Claude’s extended thinking”, 2025.02.24) 쉽게 말해, thinking 블록에 나오는 추론이 모델이 실제로 답을 만드는 방식을 100% 반영하지 않는다는 뜻입니다.
💡 thinking 로그를 신뢰하면 안 되는 이유가 공식 문서에 있습니다
“We don’t know for certain that what’s in the thought process truly represents what’s going on in the model’s mind.” — Anthropic 공식 블로그 (출처: Anthropic, “Claude’s extended thinking”, 2025.02.24)
thinking 블록이 보인다고 모델의 실제 판단 근거가 다 드러난 건 아닙니다.
가끔 thinking 블록이 암호화돼서 나오는 이유
사용 중에 “the rest of the thought process is not available for this response”라는 메시지를 본 적이 있다면, 안전 분류기가 thinking 내용 일부를 암호화한 겁니다. Anthropic은 아동 안전, 사이버 공격, 위험 무기 관련 주제가 thinking 과정에 포함될 경우 이를 암호화해 숨긴다고 공식 설명했습니다. 이유는 아직 상세하게 공개되지 않은 부분이 많습니다.
Tool use와 함께 쓸 때 주의할 점
Extended Thinking과 Tool use를 같이 쓸 때는 tool_choice를 auto 또는 none으로만 설정해야 합니다. any나 특정 툴을 강제 지정하면 에러가 납니다. (출처: Anthropic 공식 API 문서, Extended thinking with tool use 섹션) 또한 tool use 루프 중간에 thinking 모드를 켜고 끄는 걸 시도하면, API가 자동으로 thinking을 비활성화합니다. 에러 없이 조용히 꺼지기 때문에 response에서 thinking 블록 유무를 직접 확인해야 합니다.
Extended Thinking을 쓰면 안 되는 상황이 따로 있습니다
막상 켜보면 다릅니다. 쓰면 안 되는 상황 몇 가지를 정리하면 이렇습니다.
레이턴시가 중요한 서비스에는 맞지 않습니다
Extended Thinking은 응답 전에 내부 추론을 먼저 완성해야 합니다. 고객 응대 챗봇처럼 빠른 응답이 필요한 환경에서 thinking을 켜면 응답 시간이 길어집니다. display: "omitted" 옵션으로 thinking 블록 스트리밍을 건너뛰면 첫 텍스트 토큰까지의 시간을 줄일 수 있습니다. 단, 이 옵션도 내부 thinking 비용은 동일하게 청구됩니다. 빠르게 보일 뿐, 저렴해지진 않습니다.
max_tokens 설정이 까다로워졌습니다
Claude 3.7과 Claude 4 모델부터는 max_tokens가 엄격하게 적용됩니다. 이전 Claude 모델은 prompt tokens + max_tokens가 context window를 초과하면 자동으로 max_tokens를 줄여줬습니다. 이제는 그냥 오류가 납니다. thinking budget이 포함된 max_tokens가 context window 한도를 넘지 않도록 직접 계산해서 설정해야 합니다.
같은 질문인데 매번 다른 답이 나온다면
thinking 과정이 같은 프롬프트에서도 매번 달라지기 때문에 결정론적인 응답이 필요한 시스템에선 쓰기 어렵습니다. 또한 prompt caching과 thinking을 같이 쓸 때는 thinking 파라미터를 바꾸면 cache breakpoint가 무효화됩니다. 캐싱 비용 절감 효과를 기대했다가 오히려 매번 full 비용이 청구될 수 있습니다.
Q&A
Q. Claude 3.7 Extended Thinking을 지금도 API에서 쓸 수 있나요?
Q. Claude 4 모델에서 thinking 토큰 예산을 얼마로 잡는 게 좋을까요?
Q. Claude 4에서 thinking 토큰을 보이게 할 수 있나요?
Q. Claude Sonnet 4.6와 Opus 4.6의 Extended Thinking 차이는 뭔가요?
Q. Extended Thinking을 켜면 Claude가 항상 예산 전부를 씁니까?
마치며
Extended Thinking은 분명히 강력한 기능입니다. 수학·코딩·멀티스텝 추론에서 성능 차이가 확실히 납니다. 그런데 “무조건 켜두면 좋다”는 건 맞지 않습니다. Claude 3.7이 이미 퇴역했고, Claude 4에서 과금 구조가 바뀌었고, 32K 이상에서는 성능 대비 비용이 급격히 비효율적입니다.
지금 쓰고 있다면 두 가지만 확인하면 됩니다. ① 쓰는 모델이 Claude 4 계열인지. ② 용도가 단순 Q&A인지, 아니면 복잡한 추론 작업인지. 단순 Q&A라면 그냥 꺼두는 게 빠르고 저렴합니다. 복잡한 추론이면 8K~16K에서 시작해서 성능 확인 후 올리는 걸 권장합니다. 공식 문서 한 번만 읽어봐도 여기 나온 내용 대부분이 그대로 나와 있습니다.
본 포스팅 참고 자료
- Anthropic 공식 발표 — Claude 3.7 Sonnet 출시 노트
https://www.anthropic.com/news/claude-3-7-sonnet - Anthropic 공식 연구 — Extended thinking 작동 원리
https://www.anthropic.com/news/visible-extended-thinking - Anthropic 공식 API 문서 — Extended thinking 빌드 가이드
https://docs.anthropic.com/en/docs/build-with-claude/extended-thinking - Anthropic 공식 API 문서 — Model Deprecations (3.7 퇴역일 확인)
https://platform.claude.com/docs/en/about-claude/model-deprecations - Weights & Biases — Claude 3.7 성능 및 비용 최적화 평가
https://wandb.ai (W&B 리포트)
⚠ 본 포스팅 작성 이후 Anthropic의 서비스 정책·API 스펙·UI·기능이 변경될 수 있습니다. 모든 수치와 기능 설명은 2026년 3월 24일 기준이며, 최신 정보는 Anthropic 공식 문서에서 직접 확인하시기 바랍니다. 본 포스팅은 특정 서비스의 가입·구매를 권유하지 않습니다.







댓글 남기기