2026.03.28 기준 / Claude 3.7 Sonnet (claude-3-7-sonnet-20250219)
Claude 3.7 확장 사고, 많이 쓸수록 더 잘할까요?
결론부터 말씀드리면, “항상 켜두면 더 좋다”는 건 틀렸습니다. 공식 발표문과 실제 토큰 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
확장 사고 모드, 실제로 어떻게 작동하나
Claude 3.7 Sonnet은 Anthropic이 2025년 2월 24일 공개한 하이브리드 추론 모델입니다. “하이브리드”라는 단어가 핵심인데, 같은 모델이 일반 응답 모드와 확장 사고 모드를 동시에 지원합니다. 별도의 추론 전용 모델을 따로 부르는 구조가 아닙니다. (출처: Anthropic 공식 발표, 2025.02.24)
확장 사고를 켜면 Claude는 최종 답변을 내놓기 전에 thinking 블록이라는 내부 추론 과정을 먼저 생성합니다. 이 과정이 사용자에게 그대로 노출되는 것이 Claude 3.7의 특징이었고, Claude 4 계열부터는 요약된 형태로만 보입니다. (출처: Anthropic 개발자 문서, docs.anthropic.com)
API에서 사용하려면 요청에 thinking: { type: "enabled", budget_tokens: N } 파라미터를 추가해야 합니다. budget_tokens의 최솟값은 1,024, 최댓값은 128,000입니다. Claude가 모든 예산을 다 쓰는 건 아니지만, 복잡한 수학 문제일수록 예산이 많을수록 정확도가 올라갑니다.
💡 공식 발표문과 API 문서를 같이 놓고 보니 이런 차이가 보였습니다 — Claude 3.7은 thinking 토큰을 출력 토큰으로 과금하지만, Claude 4 계열의 요약 사고는 원본 thinking 토큰 수로 청구되면서 눈에 보이는 토큰과 실제 청구 토큰이 달라집니다.
무료 플랜이면 쓸 수 없는 이유
무료 Claude 계정에서는 확장 사고 모드가 아예 나타나지 않습니다. 기능 자체를 숨긴 것이고, 활성화할 방법이 없습니다. Anthropic 공식 발표에는 이렇게 적혀 있습니다. “Extended thinking mode is available on all surfaces except the free Claude tier.” (출처: anthropic.com/news/claude-3-7-sonnet, 2025.02.24)
Pro, Team, Enterprise, 그리고 API 사용자는 모두 이 기능을 쓸 수 있습니다. 요금제 차이가 여기서 실질적으로 드러납니다. 무료로 Claude를 쓰면서 “생각하는 AI를 경험하고 있다”고 생각한다면, 그건 일반 응답 모드입니다.
API 가격은 입력 토큰 $3/백만, 출력 토큰 $15/백만으로 이전 모델과 동일합니다. 단, 확장 사고가 켜지면 thinking 토큰도 출력 토큰으로 계산됩니다. 128K 토큰 예산을 꽉 채운다면 그것만으로 최대 $1.92(약 2,800원)가 한 번의 요청에 발생할 수 있습니다. 단순 계산이지만, 비용 감각 없이 쓰다간 청구서에 놀랄 수 있습니다.
토큰 예산을 늘릴수록 정말 더 정확해질까
Anthropic이 공개한 AIME 2024 수학 문제 실험 결과를 보면, thinking 토큰이 늘어날수록 정확도가 로그함수적으로 상승합니다. 쉽게 말하면, 처음에는 토큰을 늘릴수록 효과가 크지만 일정 수준을 넘기면 추가 효과가 급격히 줄어듭니다. (출처: anthropic.com/news/visible-extended-thinking, 2025.02.24)
독립적인 벤치마크에서도 비슷한 결과가 나왔습니다. Aider Polyglot 리더보드 기준, Claude 3.7 Sonnet에 32K thinking 토큰을 적용하면 64.9% 달성, 사고 없는 기본 모드는 60.4%였습니다. 비용은 $36.83 vs $17.72로 두 배 이상 차이가 납니다. (출처: aider.chat 리더보드, 2025.02 기준)
GPQA(물리·화학·생물 전문 문제) 실험에서는 256개의 병렬 샘플링과 64K 사고 예산을 합산해 84.8%를 달성했습니다. 특히 물리 부문은 96.5%입니다. 이 수치는 단순히 토큰을 늘린 게 아니라 병렬 추론을 결합한 결과입니다. 토큰 예산을 늘리는 것과 병렬 추론은 전혀 다른 축입니다.
| 모드 | Aider Polyglot | 벤치마크 비용 |
|---|---|---|
| 확장 사고 32K 토큰 | 64.9% | $36.83 |
| 기본 모드 (사고 없음) | 60.4% | $17.72 |
| DeepSeek R1 + Claude 3.5 조합 | 64.0% | $13.29 |
| o1 (high) — OpenAI | 61.7% | $186.50 |
(출처: aider.chat Polyglot Leaderboard, 2025.02 기준)
DeepSeek R1 + Claude 3.5 조합이 $13.29로 Claude 3.7 확장 사고($36.83)보다 1/3 가격에 비슷한 성능을 냈습니다. 비용 대비 성과를 따질 때 무조건 토큰 예산만 늘리는 건 최선이 아닙니다.
오히려 느려지고 틀리는 경우가 있습니다
확장 사고 모드가 모든 질문에 더 좋은 건 아닙니다. 간단한 사실 확인 질문에 켜두면 Claude는 불필요하게 여러 각도를 검토하다가 오히려 답변이 길어지고 핵심을 놓치기도 합니다. 실제 비교 테스트에서 “프랑스의 수도는?”이라는 질문에 확장 사고를 켜자 파리의 역사적 의미, 대안 도시 가능성까지 검토하는 답변이 나왔습니다.
응답 속도도 문제입니다. 128K 출력 토큰 실험에서는 동일 요청에 27분이 걸린 사례가 실제로 보고됐습니다. 토큰당 약 14ms씩 쌓이기 때문에, 토큰이 많을수록 대기 시간이 선형으로 늘어납니다. (출처: Simon Willison, simonw.substack.com, 2025.02.25)
퍼즐 풀기 비교에서도 ChatGPT는 6초, Grok은 32초에 정답을 냈는데 Claude 3.7 확장 사고는 1분 가까이 걸렸지만 정확도 차이는 없었습니다. 더 오래 생각한다고 더 맞히는 건 아니었습니다. 반면 창작 글쓰기나 복잡한 코딩 디버깅에서는 확장 사고가 만든 결과물이 질적으로 달랐습니다.
💡 단순 팩트 질문과 복잡한 추론 질문은 같은 도구가 필요하지 않습니다 — 확장 사고는 도구이지, 기본 설정이 아닙니다.
사고 과정이 보인다고 다 믿으면 안 됩니다
Claude 3.7의 thinking 블록은 내부 추론을 날것 그대로 보여줍니다. 그런데 Anthropic이 공식 문서에 직접 적은 문장이 있습니다. “We don’t know for certain that what’s in the thought process truly represents what’s going on in the model’s mind.” 사고 과정이 실제 모델의 의사결정과 일치하는지 확인할 방법이 아직 없다는 뜻입니다. (출처: anthropic.com/news/visible-extended-thinking, 2025.02.24)
같은 문서에서 Anthropic은 이런 추가 언급도 했습니다. “Models very often make decisions based on factors that they don’t explicitly discuss in their thinking process.” 사고 블록에서 다루지 않은 요인들이 최종 답변에 영향을 줄 수 있다는 것입니다. 그래서 현재의 사고 과정 모니터링만으로는 모델 안전성을 보장할 수 없다고 명시했습니다.
실용적으로도 함의가 있습니다. thinking 블록이 틀린 경로로 출발해도 최종 답이 맞는 경우가 있고, 반대로 사고 과정은 완벽해 보이는데 결론이 이상한 경우도 생깁니다. 사고 과정을 정답 보장의 근거로 쓰는 건 위험합니다. 검증 가능한 수치나 코드 실행 결과로 따로 확인하는 게 안전합니다.
💡 사고 과정의 공개와 사고 과정의 신뢰성은 다른 문제입니다 — Anthropic도 이 부분을 공식적으로 아직 해결하지 못한 연구 과제라고 밝혔습니다.
언제 켜고 언제 끄는 게 실제로 유리한가
실제 사용 흐름을 보면 패턴이 명확합니다. 확장 사고가 빛을 발하는 상황은 세 가지입니다. 첫째, 코드 디버깅처럼 여러 가능성을 순서대로 배제해야 하는 경우. 둘째, 법률·계약서처럼 조건을 교차 검토해야 하는 경우. 셋째, 수학·과학 문제처럼 정답이 있고 단계적 추론이 필요한 경우.
반대로 꺼두는 게 나은 상황도 있습니다. 단순 요약, 번역, 키워드 추출처럼 최단 경로가 정답인 경우에는 사고 모드가 오히려 노이즈를 만듭니다. API 비용을 아끼려면 이 두 가지를 프롬프트 수준에서 분리하는 게 현실적입니다.
thinking 토큰 예산은 32K 이상부터는 수확 체감이 시작됩니다. Anthropic 실험에서도 “Claude generally stops short of the full budget”라고 언급했습니다. 즉, 128K를 설정해도 모델이 그 전에 스스로 멈춥니다. 실제로는 16K~32K가 비용 대비 가장 효율적인 구간입니다. (출처: Anthropic 공식 발표, 2025.02.24)
자주 묻는 질문
마치며
확장 사고 모드는 마케팅 문구처럼 쓰기 편한 기능이지만, 막상 써보면 적용 범위가 생각보다 좁습니다. 수학·코딩·복잡한 추론에서는 확실한 성능 향상이 있고, 단순 질답에서는 속도와 비용을 갉아먹는 짐이 됩니다.
가장 예상 밖이었던 점은 사고 과정이 투명하게 공개되지만 Anthropic 스스로도 “그게 실제로 어떻게 결론에 도달했는지 알 수 없다”고 공식 문서에 적어놓은 것입니다. 보이는 것이 곧 진실은 아닙니다.
실제로 활용한다면, 토큰 예산은 16K~32K에서 시작해 성능과 비용을 직접 재보는 게 낫습니다. 128K를 설정해도 모델이 알아서 멈추니 큰 숫자 자체가 의미를 갖진 않습니다. 무료 플랜이라면 지금 당장 쓸 수 없으니, Pro 이상 또는 API를 사용 중이라면 한번쯤 복잡한 코딩 문제에 켜보시길 권합니다.
📎 본 포스팅 참고 자료
본 포스팅은 Claude 3.7 Sonnet (claude-3-7-sonnet-20250219) 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치 및 요금 정보는 Anthropic 공식 자료를 기준으로 하며, 실제 청구 금액은 사용 패턴에 따라 달라질 수 있습니다.

댓글 남기기