Claude 3.7 확장 사고, 많이 쓸수록 더 잘할까요?

Published on

in

Claude 3.7 확장 사고, 많이 쓸수록 더 잘할까요?

IT / AI
2026.03.28 기준 / Claude 3.7 Sonnet (claude-3-7-sonnet-20250219)

Claude 3.7 확장 사고, 많이 쓸수록 더 잘할까요?

결론부터 말씀드리면, “항상 켜두면 더 좋다”는 건 틀렸습니다. 공식 발표문과 실제 토큰 흐름을 같이 놓고 보니 이런 차이가 보였습니다.

128K
최대 사고 토큰
$15
출력 토큰당 /1M
Free ✗
무료 플랜 미지원
45%↓
불필요 거절 감소

확장 사고 모드, 실제로 어떻게 작동하나

Claude 3.7 Sonnet은 Anthropic이 2025년 2월 24일 공개한 하이브리드 추론 모델입니다. “하이브리드”라는 단어가 핵심인데, 같은 모델이 일반 응답 모드와 확장 사고 모드를 동시에 지원합니다. 별도의 추론 전용 모델을 따로 부르는 구조가 아닙니다. (출처: Anthropic 공식 발표, 2025.02.24)

확장 사고를 켜면 Claude는 최종 답변을 내놓기 전에 thinking 블록이라는 내부 추론 과정을 먼저 생성합니다. 이 과정이 사용자에게 그대로 노출되는 것이 Claude 3.7의 특징이었고, Claude 4 계열부터는 요약된 형태로만 보입니다. (출처: Anthropic 개발자 문서, docs.anthropic.com)

API에서 사용하려면 요청에 thinking: { type: "enabled", budget_tokens: N } 파라미터를 추가해야 합니다. budget_tokens의 최솟값은 1,024, 최댓값은 128,000입니다. Claude가 모든 예산을 다 쓰는 건 아니지만, 복잡한 수학 문제일수록 예산이 많을수록 정확도가 올라갑니다.

💡 공식 발표문과 API 문서를 같이 놓고 보니 이런 차이가 보였습니다 — Claude 3.7은 thinking 토큰을 출력 토큰으로 과금하지만, Claude 4 계열의 요약 사고는 원본 thinking 토큰 수로 청구되면서 눈에 보이는 토큰과 실제 청구 토큰이 달라집니다.

▲ 목차로 돌아가기

무료 플랜이면 쓸 수 없는 이유

무료 Claude 계정에서는 확장 사고 모드가 아예 나타나지 않습니다. 기능 자체를 숨긴 것이고, 활성화할 방법이 없습니다. Anthropic 공식 발표에는 이렇게 적혀 있습니다. “Extended thinking mode is available on all surfaces except the free Claude tier.” (출처: anthropic.com/news/claude-3-7-sonnet, 2025.02.24)

Pro, Team, Enterprise, 그리고 API 사용자는 모두 이 기능을 쓸 수 있습니다. 요금제 차이가 여기서 실질적으로 드러납니다. 무료로 Claude를 쓰면서 “생각하는 AI를 경험하고 있다”고 생각한다면, 그건 일반 응답 모드입니다.

API 가격은 입력 토큰 $3/백만, 출력 토큰 $15/백만으로 이전 모델과 동일합니다. 단, 확장 사고가 켜지면 thinking 토큰도 출력 토큰으로 계산됩니다. 128K 토큰 예산을 꽉 채운다면 그것만으로 최대 $1.92(약 2,800원)가 한 번의 요청에 발생할 수 있습니다. 단순 계산이지만, 비용 감각 없이 쓰다간 청구서에 놀랄 수 있습니다.

▲ 목차로 돌아가기

토큰 예산을 늘릴수록 정말 더 정확해질까

Anthropic이 공개한 AIME 2024 수학 문제 실험 결과를 보면, thinking 토큰이 늘어날수록 정확도가 로그함수적으로 상승합니다. 쉽게 말하면, 처음에는 토큰을 늘릴수록 효과가 크지만 일정 수준을 넘기면 추가 효과가 급격히 줄어듭니다. (출처: anthropic.com/news/visible-extended-thinking, 2025.02.24)

독립적인 벤치마크에서도 비슷한 결과가 나왔습니다. Aider Polyglot 리더보드 기준, Claude 3.7 Sonnet에 32K thinking 토큰을 적용하면 64.9% 달성, 사고 없는 기본 모드는 60.4%였습니다. 비용은 $36.83 vs $17.72로 두 배 이상 차이가 납니다. (출처: aider.chat 리더보드, 2025.02 기준)

GPQA(물리·화학·생물 전문 문제) 실험에서는 256개의 병렬 샘플링과 64K 사고 예산을 합산해 84.8%를 달성했습니다. 특히 물리 부문은 96.5%입니다. 이 수치는 단순히 토큰을 늘린 게 아니라 병렬 추론을 결합한 결과입니다. 토큰 예산을 늘리는 것과 병렬 추론은 전혀 다른 축입니다.

모드 Aider Polyglot 벤치마크 비용
확장 사고 32K 토큰 64.9% $36.83
기본 모드 (사고 없음) 60.4% $17.72
DeepSeek R1 + Claude 3.5 조합 64.0% $13.29
o1 (high) — OpenAI 61.7% $186.50

(출처: aider.chat Polyglot Leaderboard, 2025.02 기준)

DeepSeek R1 + Claude 3.5 조합이 $13.29로 Claude 3.7 확장 사고($36.83)보다 1/3 가격에 비슷한 성능을 냈습니다. 비용 대비 성과를 따질 때 무조건 토큰 예산만 늘리는 건 최선이 아닙니다.

▲ 목차로 돌아가기

오히려 느려지고 틀리는 경우가 있습니다

확장 사고 모드가 모든 질문에 더 좋은 건 아닙니다. 간단한 사실 확인 질문에 켜두면 Claude는 불필요하게 여러 각도를 검토하다가 오히려 답변이 길어지고 핵심을 놓치기도 합니다. 실제 비교 테스트에서 “프랑스의 수도는?”이라는 질문에 확장 사고를 켜자 파리의 역사적 의미, 대안 도시 가능성까지 검토하는 답변이 나왔습니다.

응답 속도도 문제입니다. 128K 출력 토큰 실험에서는 동일 요청에 27분이 걸린 사례가 실제로 보고됐습니다. 토큰당 약 14ms씩 쌓이기 때문에, 토큰이 많을수록 대기 시간이 선형으로 늘어납니다. (출처: Simon Willison, simonw.substack.com, 2025.02.25)

퍼즐 풀기 비교에서도 ChatGPT는 6초, Grok은 32초에 정답을 냈는데 Claude 3.7 확장 사고는 1분 가까이 걸렸지만 정확도 차이는 없었습니다. 더 오래 생각한다고 더 맞히는 건 아니었습니다. 반면 창작 글쓰기나 복잡한 코딩 디버깅에서는 확장 사고가 만든 결과물이 질적으로 달랐습니다.

💡 단순 팩트 질문과 복잡한 추론 질문은 같은 도구가 필요하지 않습니다 — 확장 사고는 도구이지, 기본 설정이 아닙니다.

▲ 목차로 돌아가기

사고 과정이 보인다고 다 믿으면 안 됩니다

Claude 3.7의 thinking 블록은 내부 추론을 날것 그대로 보여줍니다. 그런데 Anthropic이 공식 문서에 직접 적은 문장이 있습니다. “We don’t know for certain that what’s in the thought process truly represents what’s going on in the model’s mind.” 사고 과정이 실제 모델의 의사결정과 일치하는지 확인할 방법이 아직 없다는 뜻입니다. (출처: anthropic.com/news/visible-extended-thinking, 2025.02.24)

같은 문서에서 Anthropic은 이런 추가 언급도 했습니다. “Models very often make decisions based on factors that they don’t explicitly discuss in their thinking process.” 사고 블록에서 다루지 않은 요인들이 최종 답변에 영향을 줄 수 있다는 것입니다. 그래서 현재의 사고 과정 모니터링만으로는 모델 안전성을 보장할 수 없다고 명시했습니다.

실용적으로도 함의가 있습니다. thinking 블록이 틀린 경로로 출발해도 최종 답이 맞는 경우가 있고, 반대로 사고 과정은 완벽해 보이는데 결론이 이상한 경우도 생깁니다. 사고 과정을 정답 보장의 근거로 쓰는 건 위험합니다. 검증 가능한 수치나 코드 실행 결과로 따로 확인하는 게 안전합니다.

💡 사고 과정의 공개와 사고 과정의 신뢰성은 다른 문제입니다 — Anthropic도 이 부분을 공식적으로 아직 해결하지 못한 연구 과제라고 밝혔습니다.

▲ 목차로 돌아가기

언제 켜고 언제 끄는 게 실제로 유리한가

실제 사용 흐름을 보면 패턴이 명확합니다. 확장 사고가 빛을 발하는 상황은 세 가지입니다. 첫째, 코드 디버깅처럼 여러 가능성을 순서대로 배제해야 하는 경우. 둘째, 법률·계약서처럼 조건을 교차 검토해야 하는 경우. 셋째, 수학·과학 문제처럼 정답이 있고 단계적 추론이 필요한 경우.

반대로 꺼두는 게 나은 상황도 있습니다. 단순 요약, 번역, 키워드 추출처럼 최단 경로가 정답인 경우에는 사고 모드가 오히려 노이즈를 만듭니다. API 비용을 아끼려면 이 두 가지를 프롬프트 수준에서 분리하는 게 현실적입니다.

thinking 토큰 예산은 32K 이상부터는 수확 체감이 시작됩니다. Anthropic 실험에서도 “Claude generally stops short of the full budget”라고 언급했습니다. 즉, 128K를 설정해도 모델이 그 전에 스스로 멈춥니다. 실제로는 16K~32K가 비용 대비 가장 효율적인 구간입니다. (출처: Anthropic 공식 발표, 2025.02.24)

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Claude 무료 플랜에서 확장 사고를 사용하는 우회 방법이 있나요?
없습니다. Anthropic이 무료 플랜에서 이 기능을 플랫폼 레벨에서 차단했습니다. API 키를 가진 유료 계정이거나 Pro 이상 구독이 필요합니다. (출처: anthropic.com/news/claude-3-7-sonnet)
Q2. 사고 토큰이 출력 토큰으로 과금된다면, 같은 요청도 확장 사고 켜면 훨씬 비싸지나요?
맞습니다. thinking 토큰 전체가 출력 토큰($15/백만)으로 청구됩니다. 예산을 16K로 잡더라도 최대 $0.24가 사고 과정에만 쓰일 수 있습니다. 단, Claude는 설정한 예산을 항상 다 쓰지 않으므로 실제 비용은 이보다 낮은 경우가 많습니다.
Q3. Claude 4 계열에서는 사고 과정이 왜 요약본으로만 보이나요?
악용 방지 목적입니다. Claude 3.7에서는 원문이 그대로 노출됐는데, Anthropic이 이를 “연구 프리뷰”라고 명시했고 이후 모델부터는 요약 형태로 전환했습니다. 비용 청구는 원본 thinking 토큰 기준이므로, 눈에 보이는 것보다 청구 금액이 클 수 있습니다. (출처: docs.anthropic.com)
Q4. 확장 사고 중 대화 중간에 기능을 켜고 끌 수 있나요?
한 어시스턴트 턴 안에서는 바꿀 수 없습니다. 도구 호출 루프도 하나의 턴으로 취급됩니다. 다음 사용자 메시지를 받은 뒤, 즉 새 턴이 시작될 때 모드 전환이 가능합니다. (출처: docs.anthropic.com/en/docs/build-with-claude/extended-thinking)
Q5. 사고 블록 일부가 암호화되어 “not available” 메시지가 나오는 건 왜인가요?
Anthropic 안전 시스템이 해당 사고 내용을 민감하다고 판단하면 자동으로 암호화합니다. 이 경우 Claude의 최종 답변에는 영향이 없지만 사고 과정은 노출되지 않습니다. 주로 아동 안전, 사이버 공격, 무기 관련 내용이 포함될 때 발생하며, 드문 경우라고 공식 문서에 나와 있습니다.

▲ 목차로 돌아가기

마치며

확장 사고 모드는 마케팅 문구처럼 쓰기 편한 기능이지만, 막상 써보면 적용 범위가 생각보다 좁습니다. 수학·코딩·복잡한 추론에서는 확실한 성능 향상이 있고, 단순 질답에서는 속도와 비용을 갉아먹는 짐이 됩니다.

가장 예상 밖이었던 점은 사고 과정이 투명하게 공개되지만 Anthropic 스스로도 “그게 실제로 어떻게 결론에 도달했는지 알 수 없다”고 공식 문서에 적어놓은 것입니다. 보이는 것이 곧 진실은 아닙니다.

실제로 활용한다면, 토큰 예산은 16K~32K에서 시작해 성능과 비용을 직접 재보는 게 낫습니다. 128K를 설정해도 모델이 알아서 멈추니 큰 숫자 자체가 의미를 갖진 않습니다. 무료 플랜이라면 지금 당장 쓸 수 없으니, Pro 이상 또는 API를 사용 중이라면 한번쯤 복잡한 코딩 문제에 켜보시길 권합니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Anthropic 공식 발표: Claude 3.7 Sonnet and Claude Code (2025.02.24)
  2. Anthropic: Claude’s extended thinking (2025.02.24)
  3. Anthropic 개발자 문서: Building with extended thinking
  4. Aider Polyglot Leaderboard (2025.02 기준)
  5. Simon Willison: Claude 3.7 Sonnet, extended thinking and long output (2025.02.25)

본 포스팅은 Claude 3.7 Sonnet (claude-3-7-sonnet-20250219) 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치 및 요금 정보는 Anthropic 공식 자료를 기준으로 하며, 실제 청구 금액은 사용 패턴에 따라 달라질 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기