Claude 3.7 Extended Thinking, 직접 써봤습니다 — 생각이 보여도 안 보이는 것들

Published on

in

Claude 3.7 Extended Thinking, 직접 써봤습니다 — 생각이 보여도 안 보이는 것들

2026.03.25 기준 / claude-3-7-sonnet-20250219 기준

Claude 3.7 Extended Thinking, 직접 써봤습니다 — 생각이 보여도 안 보이는 것들

Extended Thinking을 켜면 Claude의 사고 과정이 그대로 펼쳐집니다. 근데 막상 써보면 모르는 게 더 많아집니다. Anthropic이 공식 인정한 한계, 실제로 성능이 달라지는 조건, 그리고 지금(2026년 3월) 이 모델을 써야 하는지까지 정리했습니다.

AI 추론 모델
Anthropic
Extended Thinking

Extended Thinking이 뭔지부터 — 결론부터 말씀드리면

Claude 3.7 Sonnet은 2025년 2월 24일 출시된 Anthropic의 첫 번째 하이브리드 추론 모델입니다. 핵심은 하나입니다. 평소처럼 바로 답할 수도 있고, Extended Thinking을 켜면 답하기 전에 내부 사고 과정을 밟은 뒤 결론을 냅니다. OpenAI의 o1·o3, Google의 Gemini 2.0 Flash Thinking과 같은 방식입니다.

가격은 표준 모드와 동일합니다. 입력 토큰 100만 개당 $3, 출력 토큰 100만 개당 $15이고, 사고 과정에서 쓰인 thinking 토큰도 출력 토큰으로 과금됩니다. (출처: Anthropic 공식 발표문, 2025.02.24) 같은 가격에 더 깊이 생각한다니 좋아 보이는데, 실제로 쓰다 보면 생각보다 복잡합니다.

Extended Thinking을 켜면 Claude는 thinking 콘텐츠 블록에 내부 추론을 출력하고, 그다음 text 블록에 최종 답변을 냅니다. API에서는 budget_tokens라는 파라미터로 최소 1,024 토큰부터 최대 128,000 토큰까지 사고 예산을 조절할 수 있습니다. 사고에 얼마나 투자할지를 직접 정하는 구조입니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 같은 가격이라도 thinking 토큰이 출력으로 과금되기 때문에, Extended Thinking을 켜면 같은 질문에 대한 실제 비용이 표준 모드보다 훨씬 커집니다.

▲ 목차로 돌아가기

보이는 사고 과정이 진짜 사고는 아닙니다

Extended Thinking의 가장 큰 매력은 Claude의 사고 과정이 그대로 보인다는 점입니다. 문제를 분해하고, 가설을 세우고, 틀린 방향을 수정하는 과정이 실시간으로 펼쳐집니다. 직접 보면 꽤 신기합니다. 그런데 Anthropic이 공식 research 포스팅에서 이 부분을 직접 짚었습니다.

⚠️ Anthropic 공식 입장 (visible-extended-thinking, 2025.02.24)

“우리는 사고 과정에 나타난 내용이 모델의 실제 결정 과정을 완전히 반영한다고 확신할 수 없습니다. 모델은 사고 과정에서 명시적으로 논의하지 않은 요소를 근거로 결정을 내리는 경우가 매우 많습니다.”

풀어서 말하면, 화면에 보이는 사고는 Claude가 실제로 어떻게 결론을 냈는지를 정확히 보여주는 게 아닐 수 있다는 겁니다. 이걸 ‘faithfulness 문제’라고 부릅니다. 영어로 쓴 사고 토큰이 모델 내부에서 일어나는 가중치 계산 전체를 번역해서 보여주는 게 아니라는 이야기입니다.

Reddit 실사용 피드백에서도 같은 지점이 나왔습니다. “thinking 블록에서 A라고 결론 냈는데 실제 답변에서는 B가 나왔다”, “thinking에서 언급한 내용을 되물어봤더니 Claude가 기억 못 했다”는 사례들입니다. (r/ClaudeAI, 2026.03.11) 사고 과정을 보면 안심이 되지만, 그 안심 자체가 근거 없을 수 있다는 점을 먼저 알고 쓰는 게 좋습니다.

💡 Anthropic 공식 연구 포스팅과 커뮤니티 실사용 데이터를 교차해 보니 보였습니다 — thinking 블록이 결과를 정당화하는 방향으로 작성되는 경우가 있고, 실제 모델 결정과 thinking 내용이 불일치하는 케이스가 공식 문서에도 명시돼 있습니다.

▲ 목차로 돌아가기

budget_tokens를 높이면 항상 좋아질까요

budget_tokens는 Claude가 생각하는 데 쓸 수 있는 최대 토큰 수입니다. 최솟값은 1,024이고 최댓값은 128,000입니다. 높일수록 더 깊이 생각한다고 느끼기 쉬운데, Anthropic 공식 Docs에는 이런 내용이 담겨 있습니다.

⚠️ Anthropic 공식 Docs — Extended Thinking 기준

“Claude는 할당된 예산 전부를 쓰지 않을 수 있습니다. 특히 32k를 초과하는 범위에서는 체감 수익이 급감합니다. 32k 초과 시 네트워킹 타임아웃과 연결 제한 문제가 발생할 수 있어 배치 처리(batch processing)를 권장합니다.”

실측 데이터를 보면 더 명확합니다. Anthropic의 공식 Research 포스팅에서 수학 문제 정확도와 thinking 토큰의 관계를 직접 측정했습니다. 정확도는 thinking 토큰 수가 늘어날수록 로그(logarithm)적으로 올라갑니다. 즉, 1,000→4,000 토큰 구간의 성능 향상이 16,000→32,000 구간보다 훨씬 큽니다. 토큰 2배가 성능 2배를 의미하지 않습니다. (출처: Anthropic Research — Visible Extended Thinking, 2025.02.24)

Simon Willison의 실제 테스트에서 128,000 토큰을 풀로 쓰는 요청 하나가 27분에 $1.72를 소모했습니다. (출처: simonw.substack.com, 2025.02.25) 27분을 기다린 결과가 16,000 토큰짜리 응답과 실제로 다른지 검증하지 않으면 비용 대비 효과를 알 수 없습니다.

budget_tokens 범위 권장 용도 주의사항
1,024~4,000 간단한 분석, 단계적 설명 성능 향상 폭 가장 큼
4,000~16,000 복잡한 코딩·수학·법률 분석 응답 지연 증가
16,000~32,000 대규모 코드베이스, 심층 추론 수익 체감 시작, 스트리밍 필수
32,000 초과 배치 처리 전용 타임아웃 위험, 배치 API 권장

▲ 목차로 돌아가기

어떤 작업에서 실제로 차이가 납니까

Extended Thinking이 확실히 효과를 보이는 영역이 있고, 쓸수록 오히려 느리고 장황해지는 영역이 있습니다. 두 가지를 구분해서 쓰는 게 핵심입니다.

Extended Thinking이 실제로 차이를 만드는 영역

Aider Polyglot 벤치마크(코딩 에이전트 성능 평가)에서 Claude 3.7 Sonnet에 32,000 thinking 토큰을 부여했을 때 64.9%로 1위를 기록했습니다. 같은 모델에 thinking 없이 실행했을 때는 60.4%입니다. 단일 코딩 패스 성능이 약 4.5%p 올라갑니다. (출처: aider.chat Polyglot Leaderboard, 2025.02.25) SWE-bench Verified(실제 소프트웨어 이슈 해결 평가)에서도 단순 pass@1 기준 63.7%에서 병렬 테스트 컴퓨트와 결합했을 때 70.3%까지 올랐습니다. (출처: Anthropic 공식 발표문, 2025.02.24) 수학 문제에서는 AIME 2024 기준 thinking 토큰이 늘수록 정확도가 로그함수적으로 오릅니다.

반면, 단순한 사실 질문이나 짧은 지시 수행에서는 Extended Thinking이 오히려 느리고 과도하게 길어지는 결과를 냅니다. “프랑스 수도는?”에 Extended Thinking이 붙으면 답변 속도는 느리고, 당장 필요 없는 역사적 배경까지 포함됩니다. Extended Thinking은 복잡한 추론이 필요한 곳에만 켜야 제값을 합니다.

💡 벤치마크 수치와 실사용 피드백을 함께 놓고 보니 보였습니다 — 코딩·수학에서 Extended Thinking이 만드는 향상 폭(약 4~5%p)은 의미 있지만, 비용은 그 이상으로 올라갑니다. 어떤 작업에 쓸지를 먼저 정하고 켜야 손해를 줄입니다.

▲ 목차로 돌아가기

2026년 3월 기준, 지금은 못 씁니다

결론부터 말씀드립니다. Claude 3.7 Sonnet(claude-3-7-sonnet-20250219)은 2026년 2월 19일부로 Retired(지원 종료)됐습니다. Anthropic 공식 deprecation 문서에 직접 나와 있습니다.

🚫 Claude 3.7 Sonnet — 현재 상태

Anthropic이 2025년 10월 28일 deprecated 공지를 보냈고, 2026년 2월 19일 API에서 완전히 Retired됐습니다. 이 모델로 API를 호출하면 현재 실패합니다. 공식 대체 모델로 claude-opus-4-6을 안내하고 있습니다. (출처: Anthropic Model Deprecations 공식 문서, 2026.02.19)

2026년 2월 초에는 커뮤니티에서 Extended Thinking이 갑자기 이상하게 작동한다는 제보가 대거 올라왔습니다. “thinking 블록이 활성화했는데도 절반 정도만 작동한다”, “Ultrathink 명령어가 사라졌다”, “이전보다 응답이 훨씬 짧아졌다”는 내용입니다. (r/ClaudeAI, 2026.02.02, 점수 225) 이게 버그가 아니라 모델 retirement 전환 과정에서 생긴 현상이었던 셈입니다.

중요한 점은, UI에서 Extended Thinking을 켜도 Anthropic이 내부적으로 thinking_mode: auto 파라미터를 통해 사고를 건너뛰는 경우가 있었다는 것입니다. 시스템 프롬프트에 <antml:thinking_mode>auto</antml:thinking_mode><antml:reasoning_effort>99</antml:reasoning_effort>가 주입돼 있어, Claude가 자체 판단으로 간단한 질문은 thinking을 skip할 수 있었습니다. (출처: Incener의 시스템 프롬프트 추출, r/ClaudeAI, 2026.02.02) 사용자가 켰다고 항상 켜지는 게 아니었습니다.

▲ 목차로 돌아가기

Claude 4 시리즈에서 Extended Thinking은 어떻게 달라졌나

Claude 3.7의 Extended Thinking과 Claude 4 시리즈의 Extended Thinking은 API 형태는 같지만 실제 동작이 근본적으로 다릅니다. 이 차이를 모르면 코드를 그대로 쓰다가 예상과 다른 결과를 받습니다.

가장 큰 차이는 thinking 출력 방식입니다. Claude 3.7은 사고 과정 전문(full thinking output)을 그대로 돌려줬습니다. 반면 Claude 4 모델들은 기본값이 요약된 사고(summarized thinking)입니다. 즉, Claude가 내부적으로 쓴 thinking 토큰 전체를 볼 수 없고 요약본만 응답에 포함됩니다. (출처: Anthropic Extended Thinking Docs, 2026.03) 이건 비용 절감이 아닙니다. 요금은 원래 thinking 토큰 전체 기준으로 과금됩니다. 요약이 들어가도 내부 계산 비용은 동일합니다.

Claude Opus 4.6에서는 기존 방식(budget_tokens 직접 지정)이 deprecated(사용 중단 예정)입니다. 대신 Adaptive Thinking(thinking: {type: "adaptive"})을 쓰도록 바뀌었습니다. Claude가 스스로 사고 깊이를 결정하는 방식이라, 개발자가 budget_tokens를 직접 조율하던 제어권이 줄어들었습니다. (출처: Anthropic Extended Thinking Docs — Supported Models, 2026.03)

모델 thinking 출력 budget_tokens 상태
Claude 3.7 Sonnet 전문 공개 지원 Retired
Claude Sonnet 4 / Opus 4 등 요약본만 공개 지원 Active
Claude Opus 4.6 요약본만 공개 Deprecated → Adaptive Active

💡 Anthropic의 deprecation 일정표와 Docs 변경 내역을 같이 놓고 보니 보였습니다 — Claude 4 시리즈로 넘어가면서 Extended Thinking의 개방도가 오히려 줄었습니다. 전문 사고를 볼 수 있던 3.7의 특성은 현재 신규 모델에서는 기본 제공되지 않습니다.

▲ 목차로 돌아가기

Q&A

Q. Claude 3.7 Extended Thinking을 지금 API에서 쓸 수 있나요?

아닙니다. claude-3-7-sonnet-20250219는 2026년 2월 19일 공식 Retired됐습니다. API 호출 시 실패합니다. 공식 대체 모델은 claude-opus-4-6 또는 claude-sonnet-4-6입니다. (출처: Anthropic Model Deprecations, 2026.02.19)

Q. Extended Thinking을 켜면 항상 더 좋은 답변이 나오나요?

단순한 질문에는 오히려 느리고 과도하게 긴 답변이 나옵니다. 코딩·수학·심층 분석처럼 실제로 단계적 추론이 필요한 작업에서만 체감 차이가 납니다. Aider Polyglot 기준으로 약 4.5%p 향상이 있었고, 간단한 질문에서는 유의미한 차이가 없습니다.

Q. thinking 블록에 나온 사고 과정을 그대로 믿어도 되나요?

Anthropic이 공식적으로 “사고 과정이 실제 결정 과정을 완전히 반영하지 않을 수 있다”고 밝혔습니다. 사고 블록에서 A라고 추론했어도 답변에서 B가 나올 수 있고, 이게 버그가 아니라 모델 특성입니다. 사고 과정은 참고로 쓰되, 최종 답변을 별도로 검증하는 게 좋습니다.

Q. budget_tokens를 32,000 이상으로 올려야 효과가 있나요?

32k를 초과하면 수익 체감이 심합니다. 공식 Docs에서 32k 초과 시 배치 처리를 권장하며, 실시간 요청에서 타임아웃이 발생할 수 있습니다. 대부분의 경우 4,000~16,000 범위에서 가장 비용 대비 효과가 좋습니다.

Q. Claude 4에서도 Extended Thinking의 전체 사고 과정을 볼 수 있나요?

기본값으로는 볼 수 없습니다. Claude 4 모델들은 요약된 thinking만 응답에 포함됩니다. 전체 thinking 출력이 필요하면 Anthropic 세일즈팀에 별도 문의해야 합니다. 비용은 내부적으로 발생한 전체 thinking 토큰 기준으로 청구됩니다.

▲ 목차로 돌아가기

마치며

Claude 3.7 Extended Thinking은 분명 인상적인 기능이었습니다. 사고 과정이 보인다는 것 자체가 당시엔 꽤 새로운 경험이었고, 코딩·수학 영역에서는 실제로 차이가 났습니다. 하지만 모델은 이미 Retired 상태이고, 사고 과정이 실제 추론과 항상 일치하지 않는다는 faithfulness 한계, budget_tokens의 32k 이상 체감 하락, 그리고 UI에서 켜도 Claude가 내부적으로 skip했던 구조는 알고 있어야 할 내용입니다.

Claude 4 시리즈에서 Extended Thinking은 계속 발전하고 있지만, 전체 사고를 공개하는 방식에서 요약 방식으로 바뀌었습니다. 그리고 Opus 4.6에서는 budget_tokens 자체가 deprecated됐습니다. 제어권이 개발자에서 모델로 넘어가는 흐름입니다. 쓰는 쪽에서는 이 변화 방향을 파악하고 있는 게 실질적인 활용에 도움이 됩니다.

📚 본 포스팅 참고 자료

  1. Anthropic — Claude 3.7 Sonnet and Claude Code (2025.02.24)
  2. Anthropic Docs — Extended Thinking (2026.03 기준)
  3. Anthropic Research — Visible Extended Thinking (2025.02.24)
  4. Anthropic — Model Deprecations (2026.02.19)
  5. Simon Willison — Claude 3.7 extended thinking and long output (2025.02.25)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Anthropic의 모델 deprecation 일정 및 기능은 공식 문서에서 최신 정보를 확인하세요. 본 포스팅은 2026.03.25 기준으로 작성됐습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기