Claude Sonnet 4.6, 5가지 수치로 직접 확인했습니다

Published on

in

Claude Sonnet 4.6, 5가지 수치로 직접 확인했습니다

2026.02.17 출시 기준
IT / AI
claude-sonnet-4-6

Claude Sonnet 4.6, 5가지 수치로 직접 확인했습니다

출시 발표만 보면 “Opus급 성능을 Sonnet 가격에”라는 문장만 눈에 들어옵니다. 근데 실제로 쓰다 보면 기대했던 것과 다른 지점들이 있어요. 1M 토큰 컨텍스트는 아무나 쓸 수 있는 게 아니고, 한국어로 대화하면 영문 대비 비용이 3배 뛰고, 기존 코드에서 Prefill을 쓰고 있었다면 400 에러를 만나게 됩니다. 숫자를 공식 자료에서 직접 꺼내서 확인했습니다.

72.5%
OSWorld 컴퓨터 사용
80.2%
SWE-bench Verified
59%
Opus 4.5 대비 선호도
3배
한국어 토큰 소모량

Claude Sonnet 4.6이 정확히 어느 위치인가

Claude Sonnet 4.6은 Anthropic이 2026년 2월 17일에 출시한 Sonnet 라인 최신 모델입니다. 공식 발표 첫 줄에 “most capable Sonnet model yet”이라고 나와 있습니다. (출처: Anthropic 공식 블로그, 2026.02.17)

그런데 커뮤니티에서 “Opus급 성능”이라고 많이들 이야기하는데, 공식 표현은 “approaches Opus-level intelligence”입니다. 완전히 같다는 선언이 아니라 근접한다는 표현이에요. 실제 벤치마크를 보면 그 차이가 숫자로 드러납니다.

💡 공식 발표문과 실제 벤치마크 수치를 같이 놓고 보니 이런 차이가 보였습니다
벤치마크 Sonnet 4.6 Opus 4.6 차이
SWE-bench Verified 79.6% 80.8% 1.2%p
OSWorld 컴퓨터 사용 72.5% 72.7% 0.2%p
GPQA Diamond 89.9% 91.3% 1.4%p
Finance Agent (SEC 분석) 63.3% 60.1% Sonnet 우위

(출처: Anthropic Claude Sonnet 4.6 System Card, 2026.02.17)

컴퓨터 사용에서는 Opus와 0.2%p 차이로 사실상 동급입니다. Finance Agent에서는 오히려 Sonnet이 앞서고 있어요. 가격은 Sonnet이 Opus의 60% 수준(입력 $3 vs $5 / MTok)이니까, 코딩이나 문서 분석 중심 업무라면 Sonnet으로도 충분한 경우가 많습니다. (출처: Anthropic 공식 가격 페이지)

▲ 목차로 돌아가기

컴퓨터 사용 능력: 16개월 만에 5배 성장이 가능한 이유

Sonnet 4.6에서 가장 드라마틱한 변화가 Computer Use입니다. OSWorld-Verified 기준으로 Sonnet 3.5(2024.10)가 14.9%였는데, Sonnet 4.6(2026.02)은 72.5%에 도달했습니다. 16개월 만에 약 4.9배 성장한 셈입니다. (출처: Anthropic Sonnet 4.6 System Card, Fig. 2.6.A)

모델 출시 OSWorld 점수
Sonnet 3.5 2024.10 14.9%
Sonnet 3.7 2025.02 28.0%
Sonnet 4 2025.06 42.2%
Sonnet 4.5 2025.10 61.4%
Sonnet 4.6 2026.02 72.5%
Opus 4.6 (참고) 2026.02 72.7%

(출처: Anthropic Sonnet 4.6 System Card, 2026.02.17 / Sonnet 4.5부터 OSWorld-Verified 기준 적용)

보험사 Pace는 자사 컴퓨터 사용 벤치마크에서 Sonnet 4.6이 94%를 달성했다고 밝혔습니다. 멀티탭 웹폼 작성, 복잡한 스프레드시트 탐색 등 실무 작업에서 “인간 수준”으로 평가했다는 초기 사용자 피드백도 있습니다. 다만 Anthropic이 공식적으로 “인간 수준”이라고 선언한 것은 아닙니다. 프롬프트 인젝션 방어 측면에서도 Sonnet 4.6이 Sonnet 4.5 대비 개선됐으며, Opus 4.6과 유사한 수준이라고 System Card에 나와 있습니다.

▲ 목차로 돌아가기

1M 토큰 컨텍스트, 내가 쓸 수 있는지 먼저 확인하세요

출시 직후 가장 많이 퍼진 정보가 “100만 토큰 컨텍스트”였습니다. 맞는 말이긴 한데, 전제 조건이 있습니다. Anthropic 공식 문서를 보면 1M 컨텍스트는 현재 베타이며, 일반 API 사용자 누구나 쓸 수 있는 게 아닙니다. (출처: Anthropic API 공식 문서)

⚠️ 1M 컨텍스트 사용 조건 (공식 문서 기준)
  • API 조직 등급: Usage Tier 4 이상 또는 custom rate limits 계약 조직
  • 베타 헤더 필수: anthropic-beta: context-1m-2025-08-07
  • 기본 컨텍스트는 여전히 200K 토큰
  • 200K 초과 시 입력 단가 2배, 출력 단가 1.5배 요금 적용
  • 초과분만 아니라 해당 요청의 전체 토큰에 프리미엄 요금 적용

마지막 조건이 생각보다 중요합니다. 예를 들어 500K 입력 요청을 보내면, 200K까지는 $3/MTok, 나머지 300K만 $6/MTok이 적용되는 게 아닙니다. 전체 500K에 $6/MTok이 붙습니다. 즉, 같은 500K 입력이라도 임계값(200K)을 넘기는 순간 비용이 정확히 2배가 됩니다.

💡 같은 500K 요청, 경계를 넘기면 비용이 어떻게 달라지는지 직접 계산해봤습니다
① 200K 이하 요청 (예: 150K 입력)
입력 비용: 150K × $3/MTok = $0.45

② 200K 초과 요청 (예: 500K 입력)
입력 비용: 500K × $6/MTok = $3.00
→ 같은 양 기준 비교하면: 150K $0.45 / 500K $3.00 (단가 2배)

(출처: Anthropic API 공식 가격 문서 / Apidog Claude Sonnet 4.6 Pricing 분석, 2026.02.18)

실무에서는 200K 이내로 먼저 테스트하고, 전체 코드베이스를 한 번에 넣어야 하는 케이스에서만 1M 베타를 쓰는 게 비용 효율적입니다. 처음부터 1M을 쓰면 비용 구조가 완전히 달라집니다.

▲ 목차로 돌아가기

한국어로 쓰면 비용이 3배 — 손익분기점이 달라집니다

API 가격 비교는 보통 영문 기준으로 나옵니다. 근데 한국어 사용자에게는 이 전제가 달라집니다. GPT 계열을 포함한 대형 모델들의 토크나이저는 영어 기반으로 훈련되어 있어서, 같은 내용을 한국어로 표현하면 토큰 수가 약 3배 더 많이 소비됩니다. (출처: 브런치 ‘@230kimi’, 2026.02.20 — API 가격 직접 계산 실측치)

💡 영어로 계산된 손익분기점을 한국어에 그대로 쓰면 계산이 틀립니다
Claude Sonnet 4.6 기준 (영문 대화 10턴 시뮬레이션)
— 시스템 프롬프트 200토큰 + 유저 메시지 평균 100토큰 + AI 응답 평균 400토큰 기준
— 10턴 입력 토큰 누적: 약 25,500 토큰 / 출력: 약 4,000 토큰
→ 영문 10턴 비용: 약 $0.137 (약 180원)

같은 내용을 한국어로 대화하면?
— 토큰 소모 3배 가정 시 약 $0.411 (약 540원)
— Claude Pro 월 $20 기준 손익분기점: 영문 하루 49개 → 한국어 하루 25~33개

(출처: 브런치 ‘@230kimi’, Anthropic API 가격 공식 문서 교차 계산)

하루 메시지 25~33개가 넘으면 API보다 구독이 유리합니다. 반대로 그 이하라면 구독료 $20을 내는 게 실제 사용량 대비 8배를 내는 셈일 수 있습니다. “나는 얼마나 쓰는 사람인가”를 먼저 파악하는 게 순서입니다.

Extended Thinking(사고 모드)를 자주 쓰면 이 수치가 더 내려갑니다. 복잡한 추론 질문에서 내부 사고 토큰이 output으로 과금되고, 그 양이 2~10배 뛸 수 있습니다. 사고 모드를 켜면 손익분기가 더 낮아진다는 뜻입니다.

▲ 목차로 돌아가기

Prefill 삭제: 기존 코드가 있다면 반드시 확인해야 합니다

Sonnet 4.6에서 Breaking Change가 하나 있습니다. Prefill(사전 입력)이 완전히 제거됐습니다. Prefill은 API에서 assistant 메시지 위치에 응답 시작 부분을 미리 넣어 출력 형식을 유도하던 방식인데, 4.6부터는 이 방식을 쓰면 400 에러가 발생합니다. (출처: goddaehee.tistory.com ‘Claude Sonnet 4.6 출시 리뷰’, 2026.02.17)

❌ 이런 코드가 있다면 지금 바로 확인하세요
# Sonnet 4.5까지 동작했던 코드 (4.6에서 400 에러)
response = client.messages.create(
model="claude-sonnet-4-6",
messages=[
{"role": "user", "content": "코드 리뷰해줘"},
{"role": "assistant", "content": "## 코드 리뷰\n"},  # ← 이 부분이 문제
],
)

이 외에도 Sonnet 4.5 → 4.6 마이그레이션 시 확인해야 할 변경사항이 있습니다. Thinking 파라미터 방식이 달라지고(아래 섹션 참고), 구조화 출력 파라미터 이름도 output_formatoutput_config.format으로 바뀌었습니다. Claude 3.x에서 직접 넘어오는 경우라면 새로운 stop reason(refusal, model_context_window_exceeded)도 처리 코드에 추가해야 합니다.

▲ 목차로 돌아가기

Adaptive Thinking으로 바꿔야 하는 이유

기존 Extended Thinking에서 budget_tokens를 직접 지정하던 방식은 Sonnet 4.6에서 deprecated 처리됩니다. Anthropic이 권장하는 방식은 Adaptive Thinking으로, 모델이 작업 복잡도에 맞게 사고량을 스스로 조절합니다. (출처: Anthropic 공식 발표, 2026.02.17)

💡 바꾸는 방법은 간단하지만, 기본값에서 주의할 점이 있습니다
# 변경 전 (Sonnet 4.5)
thinking={"type": "enabled", "budget_tokens": 10000}
# 변경 후 (Sonnet 4.6 권장)
thinking={"type": "adaptive"},
output_config={"effort": "medium"}  # low / medium / high 중 선택

기본값이 “high”라는 점을 주의해야 합니다. effort를 명시하지 않으면 high로 돌아가는데, Anthropic은 대부분의 사용 사례에서 medium을 명시적으로 설정할 것을 권장하고 있습니다. 설정 없이 쓰면 예상보다 높은 레이턴시와 비용이 나올 수 있어요.

코딩·분석 등 복잡한 작업에서는 medium, 빠른 응답이 필요한 경우 low로 설정하면 됩니다. Opus 4.6과 달리 Sonnet 4.6은 max effort 레벨을 지원하지 않습니다.

▲ 목차로 돌아가기

Sonnet 4.6이 실제로 유리한 조합과 그렇지 않은 조합

Claude Code 초기 테스트에서 사용자의 70%가 Sonnet 4.6을 Sonnet 4.5보다 선호했고, 59%는 당시 프리미엄 모델이던 Opus 4.5보다도 Sonnet 4.6을 선호했습니다. 그 이유로 꼽힌 것들을 보면 “코드 수정 전 컨텍스트를 먼저 읽는다”, “공유 로직을 중복 생성하지 않고 통합한다”, “성공했다고 거짓 보고하는 경우가 줄었다”가 있었습니다. (출처: Anthropic 공식 블로그, 2026.02.17)

💡 모든 작업에 Sonnet 4.6이 최선은 아닙니다 — 조합에 따라 비용이 크게 달라집니다
사용 케이스 Sonnet 4.6 Haiku 4.5 Opus 4.6
복잡한 코드 생성/리뷰 ✅ 적합 △ 가능 ○ 가능
단순 분류·라우팅 (대량) ❌ 과잉 ✅ 적합 ❌ 과잉
멀티스텝 에이전트 작업 ✅ 적합 ❌ 부족 ✅ 더 강함
대용량 문서 분석 (200K↑) △ 비용 주의 ❌ 부족 ✅ 최적
컴퓨터 사용 (UI 조작) ✅ Opus와 동급 ❌ 부족 ✅ 동급

(출처: Anthropic 공식 발표 + Apidog 비교 분석 교차 정리)

단순 분류나 대량 처리 작업은 Haiku 4.5(입력 $1/MTok)가 Sonnet 4.6($3/MTok)보다 비용이 3배 저렴합니다. 반면 컴퓨터 사용 영역에서는 Opus와 0.2%p 차이밖에 안 나기 때문에, Opus($5/MTok)를 쓸 이유가 많지 않습니다. 이 차이를 파악하고 용도별로 모델을 나눠 쓰면 비용을 60~80% 줄일 수 있다고 공식 문서에서도 밝히고 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. claude.ai 무료 플랜에서도 Sonnet 4.6을 쓸 수 있나요?
네. Anthropic 공식 발표에 따르면 claude.ai의 Free·Pro 기본 모델이 Sonnet 4.6으로 전환됐습니다. 무료 플랜에서도 파일 생성, 커넥터, 스킬, 컨텍스트 컴팩션 등이 포함됩니다. 다만 사용량 제한은 플랜마다 다릅니다. (출처: Anthropic 공식 블로그, 2026.02.17)
Q2. Sonnet 4.6과 Opus 4.6, 가격 차이가 얼마나 나나요?
Sonnet 4.6은 입력 $3/MTok, 출력 $15/MTok입니다. Opus 4.6은 입력 $5/MTok, 출력 $25/MTok이에요. 입력 기준 1.67배, 출력 기준 1.67배 차이가 납니다. 컴퓨터 사용 성능(72.5% vs 72.7%)처럼 용도에 따라 Sonnet으로도 충분한 경우가 많습니다. (출처: Anthropic 공식 가격 페이지)
Q3. 기존에 Extended Thinking을 쓰던 코드를 그냥 모델명만 바꿔도 되나요?
모델명만 바꾸면 Thinking 코드는 정상 동작하지만(기존 방식도 일단 동작), 권장 방식은 Adaptive Thinking으로 전환하는 겁니다. 더 중요한 건 Prefill 사용 여부 확인입니다. assistant 메시지에 prefill을 넣고 있었다면 4.6에서 400 에러가 발생합니다. 이 부분을 먼저 체크하세요.
Q4. 1M 토큰 컨텍스트는 언제 GA(정식 출시)가 되나요?
현재 베타 상태이며, GA 일정은 아직 공식 발표가 없습니다. 베타 헤더와 조직 등급 조건이 사라지는 시점도 공식 문서에서 별도 이유를 밝히지 않았습니다. 현재로선 Usage Tier 4 이상 조직에서만 사용 가능한 상태입니다.
Q5. Claude Code에서 Sonnet 4.6을 기본으로 쓰려면 어떻게 하나요?
Claude Code에서 모델을 지정하려면 claude --model claude-sonnet-4-6 또는 /model 명령으로 전환할 수 있습니다. 1M 컨텍스트를 Claude Code에서 쓰려면 --model "sonnet[1m]" 옵션을 사용합니다. Usage Tier 조건이 충족되지 않으면 Rate Limit 에러가 발생합니다. (출처: Claude Code 공식 문서)

마치며

Claude Sonnet 4.6은 분명 잘 나온 모델입니다. 컴퓨터 사용에서 Opus와 0.2%p 차이밖에 안 나고, Finance Agent에서는 오히려 Sonnet이 앞선다는 수치는 꽤 의미 있습니다. 문서 분석이나 코딩 중심 업무라면 더 비싼 Opus를 굳이 쓸 이유가 많지 않아요.

다만 한국어 사용자 입장에서는 “Opus급 성능”이라는 마케팅 문구보다 실제 비용 구조를 먼저 파악하는 게 중요합니다. 토큰이 영문 대비 3배 소비된다는 사실, 1M 컨텍스트가 모두에게 열려 있는 게 아니라는 사실, Prefill 제거라는 Breaking Change가 있다는 사실 — 이런 부분들이 실제 사용 경험에 영향을 줍니다.

결론부터 말하면, 코딩·컴퓨터 사용·에이전트 작업 중심이라면 Sonnet 4.6이 현재 가장 합리적인 선택입니다. 단순 반복 작업이 많다면 Haiku 4.5를, 진짜 최고 성능이 필요한 깊은 추론 작업에는 Opus 4.6을 쓰는 조합이 비용 효율적입니다.

📚 본 포스팅 참고 자료

  1. Anthropic 공식 블로그 — Introducing Claude Sonnet 4.6 (2026.02.17)
  2. Anthropic — Claude Sonnet 4.6 System Card (PDF, 2026.02.17)
  3. Anthropic 공식 가격 페이지 — Claude API Pricing
  4. Apidog — Claude Sonnet 4.6 가격 분석 (2026.02.18)
  5. 브런치 ‘@230kimi’ — 당신은 AI를 얼마나 비싸게 쓰고 있는가 (2026.02.20)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치·기능은 2026년 2월 17일 기준 Anthropic 공식 발표 및 System Card 기준입니다. 최신 정보는 Anthropic 공식 문서에서 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기