Claude 3.7 Extended Thinking, 직접 켜봤더니 이게 달랐습니다

Published on

in

Claude 3.7 Extended Thinking, 직접 켜봤더니 이게 달랐습니다

2025.02.24 출시 기준
⚠️ API 2026.02.19 Deprecated
claude-3-7-sonnet-20250219

Claude 3.7 Extended Thinking, 직접 켜봤더니 이게 달랐습니다

Extended Thinking 모드를 켜면 성능이 무조건 오른다고 생각하기 쉽습니다. 실제로는 달랐습니다. 예산 토큰을 올릴수록 정확도는 로그 함수 곡선으로 개선되고, 단순 작업에선 비용만 올라갑니다. 그리고 2026년 2월 19일 이후 이 모델 자체가 API에서 공식 퇴역했습니다. 지금 알아야 할 내용을 순서대로 정리했습니다.

128K
최대 출력 토큰
$3/$15
입력/출력 per 1M 토큰
96.2%
MATH 500 (Extended)
70.3%
SWE-bench Verified

Extended Thinking이 뭔지 먼저 짚고 갑니다

Claude 3.7 Sonnet은 2025년 2월 24일 Anthropic이 공개한 하이브리드 추론 모델입니다. 핵심은 단일 모델에서 일반 응답 모드와 Extended Thinking 모드를 동시에 지원한다는 점입니다. 기존 추론 모델들이 별도 모델로 분리된 것과 달리, 같은 모델에서 두 가지 방식을 선택할 수 있도록 설계됐습니다. (출처: Anthropic 공식 발표, 2025.02.24)

Extended Thinking 모드를 켜면 모델이 응답하기 전에 내부적으로 여러 단계의 추론 과정을 거칩니다. 이 사고 과정 자체가 토큰으로 생성되고, API 사용자는 budget_tokens 파라미터로 최소 1,024부터 최대 128,000 토큰까지 사고에 쓸 예산을 직접 지정할 수 있습니다. 이 생각 토큰도 출력 토큰으로 과금됩니다. (출처: Anthropic API 문서)

💡 공식 발표문과 실제 API 동작을 같이 놓고 보니 이런 차이가 보였습니다.
Free 플랜은 Extended Thinking 모드를 사용할 수 없습니다. Pro, Team, Enterprise 플랜 및 API에서만 활성화됩니다. 공식 Claude.ai에서 모드를 켰다고 API 동작과 동일하지 않으며, budget_tokens 파라미터 제어는 API 사용자에게만 제공됩니다. (출처: Anthropic 공식 발표, 2025.02.24)

▲ 목차로 돌아가기

토큰 예산을 올릴수록 성능이 오르는 게 맞긴 한데

직관적으로는 이렇게 생각하기 쉽습니다. “예산 토큰을 높게 설정하면 더 깊이 생각하니까, 어떤 문제든 높게 설정하는 게 유리하다.” 실제로는 다릅니다. Anthropic이 2025년 AIME 수학 시험 문제를 기준으로 실험한 결과, 정확도는 thinking 토큰 수의 로그 함수(logarithmic)로 개선됩니다. 즉, 예산을 2배 늘려도 성능이 2배 오르지 않습니다. (출처: Anthropic 연구 블로그 “Claude의 Extended Thinking”, 2025.02.24)

W&B Weave 팀이 AIME 2024 데이터셋으로 진행한 실험에서는 thinking 예산을 standard(없음), 4K, 8K, 16K, 24K 토큰으로 나누어 정확도를 측정했습니다. standard 모드는 20% 정확도에 그쳤고, 16K·24K 토큰에서는 50%에 도달했습니다. 그런데 16K → 24K 구간에서는 정확도 차이가 거의 없었습니다. 비용과 응답 지연은 계속 늘었는데도 결과는 비슷했습니다. 단순 작업이나 답이 이미 명확한 문제에서 Extended Thinking 예산을 높게 설정하는 건 비용만 올리는 결과가 됩니다. (출처: W&B Weave 평가 리포트, 2025.03.04)

💡 실측 수치를 놓고 보면 예산 전략이 달라집니다.
Reddit 실사용 사례에서는 Claude Code 세션 1회(15개 파일 수정, 6개 프롬프트)에 약 $0.45가 소모됐습니다. Cline 도구로 Extended Thinking을 활성화한 경우 수정 1회당 약 $1에 가까운 비용이 발생했다는 보고도 있습니다. 이것이 의미하는 바는 명확합니다. Extended Thinking은 코딩·수학·복잡한 추론 작업에 선택적으로 적용할 때 ROI가 나오고, 일반 QA나 간단한 요약 작업에 상시 켜두면 그냥 비용입니다. (출처: r/ClaudeAI, 2025.02.26)

▲ 목차로 돌아가기

비용 계산, 직접 해봤습니다

가격 구조부터 정리하면, Claude 3.7 Sonnet은 Extended Thinking 모드 활성화 여부와 무관하게 입력 토큰 $3/MTok, 출력 토큰 $15/MTok으로 동일합니다. 단, 생각 토큰도 출력 토큰으로 과금됩니다. 그러므로 thinking 예산 토큰이 많을수록 실질 비용은 올라갑니다. (출처: Anthropic 공식 발표, 2025.02.24)

시나리오 입력 토큰 출력(+thinking) 토큰 예상 비용
Standard 모드 (간단 QA) 500 300 약 $0.006
Extended Thinking 4K (코딩) 1,000 4,000+500 약 $0.073
Extended Thinking 16K (복잡한 수학) 1,500 16,000+1,000 약 $0.260
Extended Thinking 64K (최대 예산) 2,000 64,000+2,000 약 $0.996

※ 위 수치는 공식 가격($3/$15 per MTok)을 기반으로 직접 역산한 추정치입니다. 실제 토큰 수는 프롬프트·맥락 길이에 따라 달라집니다. (출처: Anthropic 공식 가격 정책, 2025.02.24)

주목할 점은 64K thinking 예산을 쓰면 요청 1건에 약 $1이 소모된다는 것입니다. 이는 Claude Pro 월 구독료($20)의 5%에 해당하는 비용입니다. API로 하루 20건만 호출해도 월 $600을 쓰는 구조가 됩니다. 개인 개발자 입장에서 무조건 높은 예산을 설정하는 전략이 왜 지속 불가능한지를 수치로 보여줍니다.

▲ 목차로 돌아가기

생각 과정이 보인다고 신뢰해도 될까요?

Extended Thinking의 차별점으로 “사고 과정 가시성”이 자주 언급됩니다. 모델이 어떻게 생각하는지 볼 수 있으니 더 믿을 수 있다는 논리입니다. 그런데 Anthropic은 공식 연구 블로그에서 이에 대해 명확한 경고를 담았습니다.

⚠️ Anthropic 공식 입장 (2025.02.24)
“모델이 어떤 결정을 내리는 데 있어 사고 과정에 명시적으로 서술되지 않은 요인에 의존하는 경우가 매우 많다. 따라서 현재 모델의 thinking을 모니터링하는 것만으로 모델 안전성에 대한 강력한 주장을 뒷받침할 수 없다.” (출처: Anthropic, “Claude의 Extended Thinking”, 2025.02.24)

쉽게 말하면, 생각 과정에 A, B, C라고 적혀 있어도 실제로 모델이 D 때문에 그 결론에 도달했을 수 있다는 뜻입니다. 영어 단어로 표현된 사고 흐름이 신경망 내부의 실제 연산 과정을 100% 반영하지 않을 수 있습니다. 이것을 Anthropic은 “faithfulness(충실도)” 문제라고 부르며 현재 활발히 연구 중이라고 밝혔습니다.

또한 사고 과정 중 일부 내용이 민감한 주제(아동 안전, 사이버 공격, 위험 무기류 등)에 해당하면 Anthropic은 해당 구간을 암호화해 사용자에게 보이지 않게 처리합니다. 이 경우 “나머지 사고 과정은 이 응답에서 제공되지 않습니다”라는 메시지가 출력됩니다. 사고 과정 전체가 항상 공개되지는 않는다는 점도 확인 필요 사항입니다. (출처: Anthropic 연구 블로그, 2025.02.24)

▲ 목차로 돌아가기

2026년 2월에 deprecated됐습니다 — 지금 어떻게 써야 하나요

Claude 3.7 Sonnet은 2026년 2월 19일부터 API에서 공식 퇴역(retired)됐습니다. Anthropic은 2025년 10월 28일에 개발자들에게 사전 공지했고, AWS Bedrock에서는 Full End of Life가 2026년 4월로 예정되어 있습니다. (출처: Anthropic 공식 Model Deprecations 문서; LinkedIn, 2025.10.31)

📅 공식 퇴역 타임라인

  • 2025.10.28 — Anthropic, API 사용자에게 deprecation 공식 통보
  • 2026.02.19 — Claude Sonnet 3.7 모델 API 공식 퇴역(retired)
  • 2026.04 (예정) — AWS Bedrock Full End of Life

그렇다면 지금 claude-3-7-sonnet-20250219를 API에서 호출하면 어떻게 될까요? 현재 기준으로 해당 모델 문자열은 더 이상 정상 작동하지 않거나, Anthropic 정책에 따라 후속 모델로 자동 라우팅될 수 있습니다. 기존에 이 모델 ID를 하드코딩한 코드베이스가 있다면 Claude 4 계열 모델로 업데이트가 필요합니다. (확인 필요: AWS Bedrock에서의 정확한 라우팅 동작은 계정 설정에 따라 다를 수 있습니다)

⚠️ 실제로 많이 쓰는 Cline, Roo Code 등 일부 도구들이 3.7 모델을 기본값으로 설정해둔 경우가 있습니다. deprecated 이후 오류 없이 동작하고 있더라도, 내부적으로 어떤 모델이 실제 응답하는지 Anthropic 콘솔에서 직접 확인하는 것이 안전합니다.

▲ 목차로 돌아가기

Claude 4 계열과 Extended Thinking, 어떻게 달라졌나요

3.7에서는 Extended Thinking을 쓰려면 API 호출 시 직접 thinking: {type: "enabled", budget_tokens: N} 파라미터를 명시해야 했습니다. Claude 4 계열(Sonnet 4, Sonnet 4.5, Opus 4, Opus 4.5, Haiku 4.5)에서는 Anthropic이 2026년 1월 16일을 기점으로 Extended Thinking을 기본값으로 자동 활성화했습니다. 기본 예산은 31,999 토큰입니다. (출처: decodeclaude.com, Anthropic GitHub Issue #18072, 2026.01.16)

구분 Claude 3.7 Sonnet Claude 4 계열
Extended Thinking 기본값 ❌ 수동 활성화 필요 ✅ 자동 활성화(31,999)
최대 thinking 예산 128K 토큰 63,999 토큰 (64K 출력 모델)
사고 과정 가시성 전체 공개(일부 암호화) AWS Bedrock에서 축약 제공
API 상태 (2026.03 기준) ❌ Deprecated ✅ 현행 모델

💡 기본값 자동 활성화가 만든 변화를 실제 흐름으로 추적해보면 이렇습니다.
Claude Code에서 “ultrathink” 키워드가 deprecated된 것(2026.01.16 기준)은 단순한 키워드 변경이 아닙니다. Extended Thinking이 모든 지원 모델에 기본으로 들어감으로써, 이제는 키워드 없이도 최대 31,999 토큰의 사고 예산이 모든 요청에 자동 적용됩니다. thinking을 끄고 싶은 경우 오히려 명시적으로 MAX_THINKING_TOKENS=0으로 설정해야 합니다. (출처: decodeclaude.com, 2026.01.17)

▲ 목차로 돌아가기

자주 물어보는 것들

Q. Extended Thinking 모드를 켜면 항상 결과가 더 좋아지나요?

복잡한 수학·코딩·다단계 추론 문제에서는 효과가 있습니다. 단, 성능 향상은 thinking 토큰 수의 로그 함수로 개선되므로 예산을 무작정 높여도 효율이 비례하지 않습니다. 간단한 QA나 요약 작업에서는 비용만 늘고 품질 차이는 미미합니다. (출처: Anthropic 연구 블로그, 2025.02.24)

Q. Claude 3.7 Sonnet은 지금도 API에서 쓸 수 있나요?

2026년 2월 19일부로 Anthropic API에서 공식 퇴역했습니다. AWS Bedrock은 2026년 4월까지 Full End of Life 예정입니다. 기존 코드에 claude-3-7-sonnet-20250219를 하드코딩했다면 Claude 4 계열(예: claude-sonnet-4-5)로 교체가 필요합니다. (출처: Anthropic Model Deprecations 공식 문서)

Q. 생각 토큰도 출력 토큰으로 과금되나요?

맞습니다. Anthropic 공식 가격 정책에 따라 Extended Thinking 모드에서 생성되는 thinking 토큰은 출력 토큰($15/MTok)으로 과금됩니다. 64K thinking 예산을 최대로 설정하면 요청 1건에 약 $1 수준의 비용이 발생할 수 있습니다. (출처: Anthropic 공식 발표, 2025.02.24)

Q. 사고 과정을 보면 모델이 어떻게 결론에 도달했는지 완전히 파악할 수 있나요?

Anthropic 스스로 “faithfulness(충실도)” 문제가 있다고 인정했습니다. 표시된 thinking 내용이 실제 모델의 내부 연산 과정을 100% 반영하지 않을 수 있습니다. 또한 민감한 내용이 포함된 구간은 암호화되어 표시되지 않습니다. 사고 과정 가시성은 투명성 향상에 도움이 되지만, 그것만으로 모델의 의사결정 전체를 검증하는 데는 한계가 있습니다. (출처: Anthropic 연구 블로그, 2025.02.24)

Q. Claude 4 계열에서도 Extended Thinking을 끄는 방법이 있나요?

있습니다. Claude Code에서는 MAX_THINKING_TOKENS=0 환경변수를 설정하거나, settings에서 "alwaysThinkingEnabled": false로 지정하면 됩니다. API 직접 호출 시에는 thinking 파라미터를 생략하거나 disabled로 설정하면 기본 모드로 동작합니다. (출처: decodeclaude.com, 2026.01.17)

▲ 목차로 돌아가기

마치며

Claude 3.7 Sonnet Extended Thinking은 출시 당시 상당히 의미 있는 기술이었습니다. 하이브리드 추론 모델이라는 개념, 사고 과정의 가시화, API에서 예산 토큰을 직접 제어하는 방식 모두 이 모델에서 처음 실용화됐습니다. 그리고 그 아이디어들이 Claude 4 계열에서는 기본값으로 자리 잡았습니다.

지금 이 모델을 새로 도입할 이유는 없습니다. 이미 deprecated됐고, 성능 면에서도 Claude 4 계열에 앞서지 못합니다. 하지만 Extended Thinking 자체가 어떻게 작동하고, 비용 구조가 어떻게 형성되며, 사고 과정 가시화의 실질적인 한계가 무엇인지 이해하는 데 있어서 3.7은 여전히 좋은 레퍼런스 케이스입니다.

솔직히 말하면, “생각하는 AI”라는 말에 설레기 쉽습니다. 막상 수치를 들여다보면, 생각 토큰은 돈이고 그 개선도 무한하지 않으며 사고 과정의 신뢰성조차 Anthropic 스스로 보장하지 않습니다. 그 사실을 공식 문서로 직접 확인하고 나면, Extended Thinking을 쓸 타이밍과 쓰지 말아야 할 타이밍이 더 선명하게 보입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Anthropic 공식 발표 — Claude 3.7 Sonnet and Claude Code (2025.02.24)
    → 원문 보기
  2. Anthropic 연구 블로그 — Claude의 Extended Thinking (2025.02.24)
    → 원문 보기
  3. Anthropic 공식 Model Deprecations 문서
    → 원문 보기
  4. W&B Weave 평가 리포트 — Claude 3.7 성능·추론·비용 최적화 (2025.03.04)
    → 원문 보기
  5. Decode Claude — UltraThink Deprecated (2026.01.17)
    → 원문 보기

본 포스팅은 2026년 3월 18일 기준 공개된 공식 자료를 바탕으로 작성됐습니다. Anthropic의 서비스 정책·가격·모델 지원 범위는 업데이트에 따라 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으며, 최신 정보는 Anthropic 공식 문서에서 반드시 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기