2026.03.20 기준
Claude 4 계열 / Claude 3.7 Sonnet (2026.02.19 퇴역 완료)

Claude 확장 사고, 많이 쓸수록 돈만 나갑니다

Claude의 Extended Thinking(확장 사고) 기능을 켜면 “더 깊이 생각한다”고 알려져 있습니다. 맞습니다. 그런데 항상 더 나은 답을 주는 건 아닙니다. 공식 발표 자료와 실측 데이터를 함께 놓고 봤더니, 토큰 예산을 올릴수록 비용은 선형으로 늘고 성능 향상은 로그 곡선으로 줄어드는 구조였습니다. 게다가 Claude 3.7 Sonnet 자체가 이미 퇴역했고, Claude 4에서는 확장 사고 과정이 요약본으로만 제공됩니다. 기존 블로그가 말하지 않은 부분만 정리했습니다.

$15/MTok

생각 토큰 포함 출력 단가

$0.48

32K 예산만으로 추가되는 최대 비용

2026.02.19

Claude 3.7 Sonnet 퇴역 완료

확장 사고가 정확히 뭔지부터 짚어야 합니다

Claude의 확장 사고(Extended Thinking)는 단순히 “더 오래 생각하는 별도 모델”이 아닙니다. 공식 발표에 따르면 같은 모델이 응답 전에 내부적으로 추론 토큰을 생성하는 구조입니다. 사람이 빠른 질문엔 즉답하고 어려운 수학 문제엔 연필로 풀이를 적는 것처럼, 하나의 모델이 두 가지 방식을 전환합니다. (출처: Anthropic 공식 블로그, 2025.02.24)

API를 통해 사용할 경우 budget_tokens 파라미터로 최소 1,024토큰부터 최대 128,000토큰까지 생각 예산을 직접 지정할 수 있습니다. Claude.ai 웹에서는 토글로 간단히 켜고 끕니다. 이게 핵심입니다. 예산을 더 크게 잡을수록 더 많은 내부 추론을 허용하는데, 여기서 비용 문제가 생깁니다.

가장 많이 오해하는 부분이 있습니다. 생각 토큰은 입력 토큰이 아니라 출력 토큰으로 청구됩니다. Claude 3.7 Sonnet 기준 출력 토큰 단가는 1M 토큰당 $15로, 입력 토큰($3/MTok)보다 5배 비쌉니다. (출처: Anthropic API 공식 가격 문서)

▲ 목차로 돌아가기

토큰 예산을 올리면 얼마나 더 좋아질까요?

Anthropic이 공개한 연구 그래프가 이 질문에 직접 답합니다. AIME 2024(미국 수학 초청 시험) 문제를 기준으로, 생각 토큰이 늘어날수록 정확도가 올라가지만 그 형태가 선형이 아니라 로그 곡선입니다. 초반 1,024~4,000토큰 구간에서 가파르게 오르다가, 8,000토큰 이후부터는 올라가도 올라가도 거의 제자리입니다. (출처: Anthropic 공식 연구 포스트 “Claude’s extended thinking”, 2025.02.24)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

GPQA(물리·화학·생물 대학원급 문제) 기준으로는 256개 병렬 샘플 + 64K 생각 예산 조합에서 84.8%를 달성했습니다. 그런데 이 방식은 현재 배포된 모델에서는 사용할 수 없고, “계속 연구 중”이라고 명시되어 있습니다. 즉, 단일 요청에서 생각 토큰만 잔뜩 늘려봐야 이 수치를 재현하는 것은 불가능합니다.

실제로 Anthropic은 공식 문서에서 “32K 이상의 예산에서는 수익 체감(diminishing returns)이 발생할 수 있다”고 직접 명시하고 있습니다. 이 말은 곧, 예산을 32K 이상으로 올리면 비용만 늘고 답의 품질은 거의 안 바뀐다는 뜻입니다. (출처: AWS Bedrock Claude Extended Thinking 공식 문서)

▲ 목차로 돌아가기

비용 계산을 직접 해봤습니다

생각 토큰은 출력 토큰으로 청구됩니다. 현행 Claude Sonnet 4 기준 출력 토큰 단가는 $15 / 1M 토큰입니다. 아래 계산식을 직접 따라볼 수 있습니다.

📊 예산별 비용 시뮬레이션 (1회 요청 기준, Claude Sonnet 4)

생각 예산	최대 생각 비용	실질 효과
1,024 tokens (최소)	약 $0.015	단순 추론 가능, 복잡한 다단계 문제엔 부족
8,000 tokens	약 $0.12	대부분의 코딩·수학 문제에서 충분
32,000 tokens	약 $0.48	Anthropic이 이 이상부터 “수익 체감”이라고 명시
128,000 tokens (최대)	약 $1.92	Anthropic: “배치 모드 사용 권장, 32K↑ 네트워크 타임아웃 위험”

* 계산식: 토큰 수 ÷ 1,000,000 × $15 / (출처: Anthropic API 공식 가격 문서, platform.claude.com)

주의할 점이 있습니다. 예산은 최대 허용치이지 모델이 반드시 전부 사용하는 건 아닙니다. 하지만 복잡한 문제를 줄 경우 Claude는 예산을 거의 다 채우는 경향이 있습니다. 단순 질문에 128K 예산을 잡아놓으면 모델이 알아서 줄여주지만, 멀티턴 에이전트 루프에서는 누적 비용이 예상보다 빠르게 불어납니다.

실제로 Simon Willison(개발자 커뮤니티에서 잘 알려진 LLM 리서처)이 128K 출력 테스트를 실행했을 때 단 한 번의 요청에 $1.72가 청구되고 27분이 소요됐다고 직접 기록했습니다. 이 수치가 의미하는 건 명확합니다. 1회 테스트 비용이 제법 쓸만한 외식비와 맞먹습니다. (출처: simonwillison.net, 2025.02.25)

▲ 목차로 돌아가기

단순한 질문에 확장 사고를 쓰면 이렇게 됩니다

Anthropic 공식 연구 포스트에 명시되어 있는 내용인데도 잘 알려지지 않은 부분입니다. 확장 사고는 단순 질문에 켜면 오히려 비효율적입니다. 프랑스 수도가 어디냐고 물었을 때 확장 사고를 켜면 모델은 파리의 역사적 맥락, 행정 구역, 유럽 수도로서의 의미까지 고민하기 시작합니다. 답은 “파리”인데 설명이 길어지고, 처리 시간도 늘고, 비용도 더 나갑니다.

💡 속도 비교를 직접 수치로 보면 이렇습니다

논리 퍼즐 해결 비교 실험에서 ChatGPT가 6초 안에 답했을 때 확장 사고가 켜진 Claude는 약 1분이 걸렸습니다. 더 많이 생각한다고 정답률이 높아진 것도 아니었습니다. 이 수치가 의미하는 건, 확장 사고가 “더 똑똑하게 만들어주는 스위치”가 아니라 “특정 상황에서만 효과적인 도구”라는 점입니다. (출처: Rimpal Johal, Medium, 2025.02.26)

Anthropic도 공식 AWS 문서에서 이렇게 명시하고 있습니다. “특별히 복잡한 작업, 즉 수학, 코딩, 분석처럼 단계적 추론이 필요한 경우에만 Extended Thinking을 사용하라.” 반대로 말하면 고객 서비스 답변, 단순 번역, 빠른 정보 조회 같은 작업엔 표준 모드가 더 효율적입니다.

▲ 목차로 돌아가기

Claude 4에서는 생각 과정이 더 이상 안 보입니다

2026년 2월 19일, Claude 3.7 Sonnet이 공식 퇴역 완료됐습니다. API에서 더 이상 사용할 수 없습니다. (출처: Anthropic 공식 Model Deprecations 문서, 2025.10.28 사전 공지 이후 2026.02.19 퇴역) 이 사실 자체를 다룬 한국어 콘텐츠가 아직 거의 없습니다.

⚠️ API 사용자라면 지금 확인하세요

claude-3-7-sonnet-20250219 모델 ID를 그대로 쓰고 있다면 현재 에러가 발생하거나 다른 모델로 자동 전환되고 있을 수 있습니다. AWS Bedrock에서는 2026년 4월에 완전 종료 예정입니다. (출처: LinkedIn Mike Mead, 2025.10.31)

그리고 Claude 4(Sonnet 4, Opus 4)에서 확장 사고를 켜면 생각 과정의 요약본만 반환됩니다. 전체 내부 추론을 보고 싶으면 AWS 계정팀에 별도로 요청해야 합니다. 이게 핵심입니다. 3.7에서는 Claude가 어떻게 생각했는지 전 과정이 공개됐는데, 4부터는 요약만 볼 수 있는 구조로 바뀌었습니다. (출처: AWS Bedrock 공식 Extended Thinking 문서)

💡 요약본 청구 방식도 바뀌었습니다

Claude 4에서 요약 사고를 쓸 때 청구 방식이 독특합니다. 화면에 보이는 요약 토큰이 아니라 내부에서 실제로 생성된 전체 생각 토큰 수로 청구됩니다. 즉 짧은 요약이 반환됐어도 내부에서 32K를 썼다면 32K만큼 내야 합니다. 이걸 모르고 쓰면 청구서에서 당황할 수 있습니다. (출처: AWS Bedrock 공식 문서, “summarized thinking” 섹션)

Claude 4에서 Sonnet 4와 Sonnet 3.7의 벤치마크를 비교하면, SWE-bench 소프트웨어 엔지니어링 과제에서 Sonnet 4가 72.7%(Sonnet 3.7은 62.3%)로 명확히 앞서고, AIME 수학 점수도 70.5% 대 54.8%로 차이가 납니다. 가격은 똑같이 $3/$15/MTok이므로 굳이 3.7을 쓸 이유가 없어졌습니다. (출처: Eden AI 벤치마크 비교, 2025.05.22)

▲ 목차로 돌아가기

그러면 언제 써야 효과가 있을까요?

지금까지 쓴 내용을 정리하면, 확장 사고는 켜는 게 항상 좋은 게 아닙니다. 아래는 공식 AWS 문서와 실측 데이터를 종합해 도출한 효과적인 사용 조건입니다.

✅ 이럴 때 켜면 됩니다

여러 단계가 얽힌 수학·물리 문제
코드 디버깅, 전체 스택 리팩터링
법적 계약서 분석, 복잡한 재무 모델링
전략적 의사결정 시뮬레이션
긴 문서에서 교차 논리 검증이 필요한 경우

❌ 이럴 때 끄는 게 낫습니다

단순 사실 확인, 번역, 요약
고객 서비스 응답처럼 빠른 답이 중요한 경우
비용이 민감한 대량 배치 작업
스트리밍 대화처럼 실시간 응답이 필요한 경우
max_tokens가 21,333 이하인 설정

예산 설정에 대한 실용적인 기준도 있습니다. Anthropic은 공식 문서에서 최솟값(1,024)부터 시작해 점진적으로 올리며 테스트하라고 권장합니다. 대부분의 코딩·분석 작업에서는 8,000~16,000 토큰이면 충분하고, 32K를 넘기면 비용 대비 효과가 확연히 줄어듭니다. 32K 이상을 써야 하는 상황이라면 배치 모드(50% 할인)를 쓰는 게 합리적입니다.

주관적으로 솔직히 말하면, 현재 Claude.ai Pro 플랜에서 확장 사고를 켜도 예산을 사용자가 직접 지정하는 건 불가능합니다. API를 직접 쓰는 개발자에게는 예산 제어가 가능하지만, 일반 사용자 입장에서는 언제 많이 쓰이고 언제 덜 쓰이는지 가시성이 부족합니다. 이 부분이 좀 아쉬웠습니다.

▲ 목차로 돌아가기

자주 묻는 것들

Claude.ai 무료 플랜에서도 확장 사고를 쓸 수 있나요?
＋

Anthropic 공식 가격 페이지(2026.03.20 기준) 기준으로 무료 플랜에도 확장 사고가 포함된 것으로 표기되어 있습니다. 단, 실제 사용 한도(usage limit)가 유료 플랜보다 낮으므로 복잡한 작업에서 일찍 제한에 걸릴 수 있습니다. API에서 예산 조정은 유료 API 키가 있어야 가능합니다.

Claude 3.7 Sonnet이 퇴역했으면 기존 코드를 당장 바꿔야 하나요?
＋

Anthropic API에서는 2026년 2월 19일 이후 이미 사용 불가 상태입니다. AWS Bedrock에서는 2026년 4월 전후 완전 종료 예정입니다(확인 필요). 대체 모델 ID는 claude-sonnet-4-20250514 또는 최신 Claude 4 계열입니다. GitLab Duo는 이미 2026년 1월에 지원을 종료했습니다.

생각 토큰이 보이지 않으면(요약본만 제공되면) 신뢰할 수 있나요?
＋

Anthropic 스스로 공식 연구 포스트에서 “현재 모델의 사고 과정이 실제로 어떻게 작동하는지(faithfulness)는 아직 완전히 확인된 게 아니다”라고 명시했습니다. 즉, 사고 과정이 공개되든 요약되든, 최종 출력 결과를 직접 검증하는 습관을 유지하는 게 중요합니다. 사고 내용은 참고용이지 정답 보증은 아닙니다.

확장 사고를 켜면 temperature 설정이 안 된다는 게 무슨 뜻인가요?
＋

AWS Bedrock 공식 문서에 따르면 확장 사고 모드에서는 temperature, top_p, top_k 파라미터 조정이 불가능합니다. 창의성이나 다양성 조절이 필요한 작업(예: 브레인스토밍, 마케팅 카피)에서는 표준 모드가 오히려 더 적합합니다. 확장 사고는 논리 일관성이 중요한 분야에 최적화된 구조입니다.

확장 사고 중에 사고 내용 일부가 암호화되는 경우가 있다고 하는데요?
＋

맞습니다. Anthropic 공식 문서에 따르면, 사고 과정 중 안전 시스템에 걸리는 내용이 나올 경우 해당 부분이 redacted_thinking 블록으로 암호화되어 반환됩니다. 사용자에게는 “이 응답에서 사고 과정의 일부가 제공되지 않습니다”라는 메시지가 표시됩니다. 이 블록은 API로 다시 전달하면 복호화되어 Claude의 추론 흐름은 유지됩니다. 즉, 답변 자체는 영향받지 않습니다.

▲ 목차로 돌아가기

마치며

막상 공식 문서를 뒤지고 수치를 직접 계산해보니, “확장 사고 = 무조건 좋은 것”이라는 인식은 꽤 많이 걸러야 했습니다. 로그 곡선으로 수렴하는 성능 향상, 출력 토큰으로 잡히는 비용 구조, 단순 작업에서의 역설적 비효율, 그리고 Claude 4에서 바뀐 요약 제공 방식까지. 이 네 가지를 같이 이해해야 실제로 유리하게 쓸 수 있습니다.

현재 Claude.ai에서 확장 사고는 Pro 이상 플랜에서 더 안정적으로 쓸 수 있고, API 사용자라면 8,000~16,000 토큰 예산에서 시작해 점진적으로 올리는 방식이 비용과 품질의 균형을 잡는 데 현실적입니다. Claude 3.7이 퇴역한 만큼 기존 코드베이스의 모델 ID는 지금 한 번씩 점검할 타이밍이 왔습니다.

생각 시간을 주는 게 항상 좋은 건 아닙니다. 그게 사람에게도, AI에게도 마찬가지인 것 같습니다.

📚 본 포스팅 참고 자료

Anthropic 공식 발표 — Claude 3.7 Sonnet and Claude Code (https://www.anthropic.com/news/claude-3-7-sonnet)
Anthropic 공식 연구 포스트 — Claude’s extended thinking (https://www.anthropic.com/news/visible-extended-thinking)
AWS Bedrock 공식 문서 — Extended thinking with Claude (https://docs.aws.amazon.com/bedrock/latest/userguide/claude-messages-extended-thinking.html)
Anthropic API 공식 가격 문서 (https://www.anthropic.com/pricing)
Anthropic Model Deprecations — Claude Sonnet 3.7 퇴역 공지 (https://platform.claude.com/docs/en/about-claude/model-deprecations)
Simon Willison — Claude 3.7 Sonnet, extended thinking and long output (https://simonwillison.net/2025/Feb/25/llm-anthropic-014/)

본 포스팅은 2026년 3월 20일 기준으로 작성됐습니다. Anthropic의 모델 정책, 가격, UI, 기능은 이후 업데이트로 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로 중요한 결정 전 공식 문서를 직접 확인하시기 바랍니다.

Claude 확장 사고, 많이 쓸수록 돈만 나갑니다

확장 사고가 정확히 뭔지부터 짚어야 합니다

토큰 예산을 올리면 얼마나 더 좋아질까요?

비용 계산을 직접 해봤습니다

단순한 질문에 확장 사고를 쓰면 이렇게 됩니다

Claude 4에서는 생각 과정이 더 이상 안 보입니다

그러면 언제 써야 효과가 있을까요?

자주 묻는 것들

마치며

📚 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Claude 확장 사고, 많이 쓸수록 돈만 나갑니다

확장 사고가 정확히 뭔지부터 짚어야 합니다

토큰 예산을 올리면 얼마나 더 좋아질까요?

비용 계산을 직접 해봤습니다

단순한 질문에 확장 사고를 쓰면 이렇게 됩니다

Claude 4에서는 생각 과정이 더 이상 안 보입니다

그러면 언제 써야 효과가 있을까요?

자주 묻는 것들

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기