Sonnet 4.6 / API
TECH
Claude Sonnet 4.6 Thinking, $3인데 $25 청구되는 조건 있습니다
API를 그냥 호출하면 Adaptive Thinking이 기본값 high로 동작합니다. 생각 토큰(thinking tokens)은 출력 토큰으로 과금되고, 복잡한 요청 하나에 30,000개가 소비되면 비용이 예상의 최대 7배까지 불어납니다.
$3짜리 모델인데 요금이 왜 이렇게 나왔을까
Claude Sonnet 4.6의 공식 API 요금은 입력 토큰 $3/MTok, 출력 토큰 $15/MTok입니다. Opus 4.6($5/$25)보다 약 40% 저렴하고, 공식 발표 문서에도 “Sonnet 4.5와 동일한 가격”이라고 분명히 적혀 있습니다. (출처: Anthropic 공식 뉴스, 2026.02.17) 그런데 실제 청구서를 열어보면 기대와 다른 숫자가 찍혀 있는 사례가 속속 나오고 있습니다.
이유는 단 하나입니다. Anthropic이 Sonnet 4.6에 새로 도입한 Adaptive Thinking(적응형 사고) 기능의 기본값이 high로 설정돼 있고, 이 모드에서 발생하는 생각 토큰(thinking tokens) 전체가 출력 토큰 요금($15/MTok)으로 과금된다는 점입니다. 표에 적힌 $15는 최종 응답만의 요금이 아닙니다. 모델이 속으로 ‘생각’하는 내용까지 모두 포함된 숫자입니다.
솔직히 말하면, 이 구조를 모르고 API를 호출하는 개발자가 대다수입니다. 공식 문서 어디에도 기본값이 high라는 사실이 대문짝만하게 적혀 있지 않기 때문입니다.
Adaptive Thinking이란 무엇이고, 기본값은 어떻게 세팅돼 있나
Adaptive Thinking은 기존의 Extended Thinking(확장된 사고)를 보완하는 기능입니다. 기존 Extended Thinking은 개발자가 on/off를 직접 결정해야 했지만, Adaptive Thinking은 모델이 요청의 복잡도를 스스로 판단해 생각 토큰을 얼마나 쓸지 결정합니다. Anthropic이 Opus 4.6 발표 때(2026.02.05) 동시에 공개했고, Sonnet 4.6(2026.02.17)에도 동일하게 적용됐습니다.
💡 공식 발표문과 실제 API 동작을 나란히 놓고 보니 이런 차이가 보였습니다
공식 뉴스에서는 “적응형 사고는 모델이 스스로 판단한다”고만 설명합니다. 하지만 API 문서를 함께 보면 기본 effort 값이 high라는 점이 명시돼 있습니다 — 즉, 개발자가 아무 설정을 안 해도 모델은 항상 깊게 생각하려고 시도합니다. (출처: Caylent 공식 API 가이드, 2026.02 기준)
Anthropic은 effort 파라미터로 이 동작을 조절할 수 있도록 설계했습니다. 선택 가능한 값은 low / medium / high(기본값) / max 네 단계이며, Anthropic 자체가 공개 문서에서 “medium을 실용적인 균형점으로 권장”한다고 밝혔습니다. (출처: Anthropic 공식 Opus 4.6 뉴스, 2026.02.05)
| effort 값 | thinking 토큰 소비 | 권장 상황 | 기본값 여부 |
|---|---|---|---|
| low | 최소 | 단순 분류·추출 | — |
| medium | 적당 | 대부분의 업무용 작업 | Anthropic 권장 |
| high | 많음 | 복잡한 코딩·분석 | ⚠ API 기본값 |
| max | 최대 | 극한 추론 (HLE 등) | — |
기본값(high)이 Anthropic 권장값(medium)보다 한 단계 높다는 점 — 이게 비용 문제의 출발점입니다.
생각 토큰 30,000개가 비용에 미치는 영향 — 직접 계산
Caylent이 2026년 2월 공개한 API 분석 자료에는 이런 예시가 나옵니다. 복잡한 요청에서 Sonnet 4.6이 30,000개의 thinking 토큰을 소비할 경우, 그 항목에서만 $0.45의 추가 비용이 발생합니다($15/MTok × 0.03MTok). 최종 응답이 5,000 토큰이라면 그것만으로 $0.075. 합산하면 thinking 비중이 85%를 넘습니다.
📊 시나리오별 실제 비용 계산 (Sonnet 4.6 API 기준, 2026.02 공식 요금 적용)
조건: 입력 2,000 토큰 + thinking 30,000 토큰 + 최종 응답 5,000 토큰
- 입력 비용: 2,000 × $3/MTok = $0.006
- thinking 비용: 30,000 × $15/MTok = $0.450
- 응답 비용: 5,000 × $15/MTok = $0.075
- 합계: $0.531 — thinking 없을 때($0.081)의 약 6.6배
6.6배라는 숫자는 단순 계산입니다. 직접 따라해볼 수 있습니다. Anthropic 공식 pricing 페이지에서 Sonnet 4.6 출력 단가($15/MTok)를 확인하고, 본인 API 로그에서 thinking 토큰 수를 확인해 곱하면 됩니다. thinking 토큰이 많을수록 이 비율은 더 올라갑니다.
Reddit의 사용자 분석(r/ClaudeAI, 2026.02.18)에서는 오피스 작업 기반 실측에서 Sonnet 4.6이 160M 토큰을 소비한 Opus 4.6보다 더 많은 비용을 냈다는 사례도 보고됐습니다. 공식 단가만 보면 절대 일어날 수 없는 일인데, thinking 토큰 누적 때문에 실제로 발생했습니다.
Sonnet이 Opus보다 비싸지는 정확한 조건
Sonnet 4.6과 Opus 4.6의 표시 요금 차이는 출력 기준 1.67배입니다(Sonnet $15, Opus $25). 그런데 Sonnet 4.6이 thinking 토큰을 많이 쓸수록 이 차이가 좁아지고, 결국 역전됩니다. 역전 지점을 계산해볼 수 있습니다.
📊 두 모델의 비용이 같아지는 교차점 계산
전제: 입력 2,000 토큰, 최종 응답 5,000 토큰 (양 모델 동일)
Opus 4.6 총비용 = (2,000×$5 + 5,000×$25) / 1,000,000 = $0.135
Sonnet 4.6 총비용 = (2,000×$3 + T×$15 + 5,000×$15) / 1,000,000
두 값이 같아지는 T = 약 7,200 thinking 토큰
→ thinking 토큰이 7,200개를 넘으면 Sonnet이 Opus보다 비싸집니다.
7,200개라는 숫자가 많아 보이지만, effort high 기본값에서 복잡한 코딩이나 분석 요청을 하면 10,000~30,000개는 흔히 발생합니다. 단순한 업무용 요청에서도 5,000~8,000개가 나오는 경우가 있습니다. 이 교차점은 생각보다 쉽게 도달합니다.
반대로 말하면, thinking 토큰이 7,200개 이하라면 여전히 Sonnet이 Opus보다 저렴합니다. 즉, effort를 낮추거나 단순한 작업에는 Sonnet이 맞고, thinking 토큰이 폭발적으로 늘어나는 복잡한 추론 작업에서는 Opus를 쓰는 게 비용 대비 더 합리적일 수 있습니다.
한국어 사용자가 더 빨리 손해 보는 이유
위의 계산은 모두 영문 기준입니다. 한국어로 API를 사용하면 상황이 더 복잡해집니다. Claude 계열 모델을 포함한 대부분의 LLM에서 한국어는 영어 대비 약 3배 많은 토큰을 소비합니다. (출처: brunch @230kimi, 2026.02.20 실측 데이터)
💡 한국어 API 사용 시 실질 비용 구조 변화
한국어 입력 300자 ≈ 영문 기준 약 300~400 토큰 (영어 같은 분량은 100~130 토큰)
→ 동일한 업무를 처리해도 토큰 비용이 3배 빠르게 누적됩니다.
→ Sonnet 4.6(thinking 없이)의 손익분기점이 하루 49회에서 약 25~33회로 낮아집니다.
여기에 thinking 토큰까지 한국어로 발생하면 문제가 커집니다. 모델이 한국어 입력을 처리할 때 내부 thinking도 한국어 또는 한영 혼용으로 진행되는 경우가 있어 thinking 토큰 수 자체가 영문 대비 늘어날 수 있습니다. 이 부분은 공식 문서에서 별도 이유를 밝히지 않았습니다. 다만 한국어 입력일수록 비용 역전 교차점(7,200 thinking 토큰)에 더 빨리 도달한다는 점은 위 계산에서 바로 확인할 수 있습니다.
한국어로 Claude API를 붙이는 서비스를 운영한다면, 영문 벤치마크 기반의 “Sonnet은 Opus보다 무조건 싸다”는 통념이 실제 청구서에서는 적용되지 않을 수 있습니다.
비용을 제어하는 방법 — effort 파라미터 실전 가이드
결론부터 말씀드리면, API 요청에 effort: "medium" 파라미터 하나를 추가하는 게 가장 빠른 해결책입니다. Anthropic 공식 문서에서도 이 값을 “실용적인 균형점”으로 권장하고 있습니다. high 기본값 대신 medium으로 낮추면 thinking 토큰 소비가 유의미하게 줄어들고, 대부분의 업무용 작업에서는 품질 차이가 체감되지 않습니다.
작업 유형별로 effort 값을 달리 적용하는 것도 현실적인 방법입니다. 변수 이름 변경, 짧은 번역, 단순 분류 같은 작업은 low로도 충분합니다. 복잡한 멀티스텝 코드 리뷰나 법률 문서 분석처럼 정확도가 중요한 작업은 high나 max를 써야 합니다. 그 사이 범위 대부분은 medium으로 처리됩니다.
💡 같은 모델인데 비용이 차이 나는 경우가 생기는 이유가 여기 있었습니다
두 팀이 동일하게 Sonnet 4.6을 사용해도 한 팀은 effort를 medium으로, 다른 팀은 기본값(high)으로 운영하면 월 청구서가 2~3배 차이 날 수 있습니다. 모델 선택의 문제가 아니라 파라미터 설정의 문제입니다.
추가로 프롬프트 캐싱(Prompt Caching)을 함께 적용하면 비용을 더 줄일 수 있습니다. 반복되는 시스템 프롬프트나 컨텍스트를 캐싱하면 해당 입력 토큰의 90%를 절약할 수 있습니다. 캐시 읽기 단가는 $0.30/MTok로 표준 입력($3/MTok)의 10%입니다. (출처: MetaCTO 공식 가이드, 2026.03 기준) 단, thinking 토큰 자체에는 캐싱이 적용되지 않으므로 effort 제어가 우선입니다.
마지막으로, API 로그에서 실제 thinking 토큰 수를 정기적으로 확인하는 습관이 필요합니다. 청구서가 예상보다 많이 나왔다면 응답 객체의 usage.output_tokens와 함께 usage.cache_read_input_tokens 분류를 함께 보면 어디서 토큰이 폭증했는지 즉시 파악됩니다.
자주 묻는 질문 (Q&A)
마치며 — 총평
Claude Sonnet 4.6은 분명히 좋은 모델입니다. Opus 4.6에 근접하는 성능을 $3/$15 단가로 제공한다는 건 사실이고, Anthropic 파트너사들의 실제 평가도 긍정적입니다. 문제는 그 단가가 thinking 토큰을 포함하지 않은 숫자라는 점이고, 기본값(high)에서 API를 그대로 쓰면 실제 비용이 표시 금액과 크게 달라질 수 있다는 점입니다.
이 글에서 직접 계산해본 것처럼, thinking 토큰이 7,200개를 넘는 순간 Sonnet이 Opus보다 비싸집니다. 그 교차점은 effort high 기본값에서 복잡한 요청을 하면 생각보다 빨리 도달합니다. 한국어 환경이라면 그 시점이 더 앞당겨집니다.
지금 당장 할 수 있는 한 가지 — API 요청에 effort: "medium" 넣어두는 것. 이게 Anthropic이 권장하는 설정이고, 대부분의 업무 환경에서 비용과 품질의 균형점입니다.
본 포스팅 참고 자료
- ① Introducing Claude Sonnet 4.6 — Anthropic 공식 뉴스 (anthropic.com)
- ② Introducing Claude Opus 4.6 — Anthropic 공식 뉴스 (anthropic.com)
- ③ Claude API Pricing 2026 — MetaCTO 공식 가이드 (metacto.com)
- ④ Claude Sonnet 4.6 in Production: Cost Explained — Caylent (caylent.com)
- ⑤ 당신은 AI를 얼마나 비싸게 쓰고 있는가 — brunch @230kimi (2026.02.20, brunch.co.kr)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 요금 및 파라미터 정보는 Anthropic 공식 pricing 페이지에서 최신 내용을 직접 확인하시기 바랍니다.











댓글 남기기