클로드 소넷 4.6: Opus급 성능을 소넷 가격에 쓰는 법

Published on

in

클로드 소넷 4.6: Opus급 성능을 소넷 가격에 쓰는 법

클로드 소넷 4.6: Opus급 성능을 소넷 가격에 쓰는 법

2026년 2월 18일 출시 · Anthropic 공식 발표 기준

클로드 소넷 4.6은 출시 즉시 AI 업계를 뒤흔들었습니다. 지금까지 Opus 모델에서만 가능했던 수준의 성능을 1/5 가격에 쓸 수 있다는 게 핵심입니다. SWE-Bench Verified 79.6%, OSWorld 72.5%라는 수치가 그 증거입니다.

SWE-Bench 79.6%
OSWorld 72.5%
컨텍스트 1M 토큰
Opus 대비 1/5 가격
GPQA Diamond 89.9%

클로드 소넷 4.6, 무엇이 달라졌나?

역대 소넷 시리즈 최고의 전면 업그레이드

클로드 소넷 4.6은 Anthropic이 2026년 2월 18일 전격 공개한 모델로, 코딩·컴퓨터 사용·장문 추론·에이전트 계획·지식 작업·디자인 등 사실상 모든 영역에서 이전 세대를 압도하는 결과를 냈습니다. 단순한 성능 향상이 아니라, 이전까지 Opus급 플래그십 모델에서만 기대할 수 있었던 수준의 실무 처리 능력을 소넷 가격대로 대중화했다는 점에서 의미가 큽니다. Anthropic 측은 “Sonnet 4.6은 지금까지 출시한 소넷 모델 중 가장 유능한 버전”이라고 공식적으로 밝혔습니다.

Claude Code 조기 사용자들의 반응이 폭발적이었던 이유

출시 전 조기 접근 사용자들은 소넷 4.6을 소넷 4.5보다 약 70%의 경우에서 선호한다고 답했습니다. 놀라운 건 심지어 Opus 4.5(2025년 11월 출시 플래그십)와 비교해도 59%의 사용자가 소넷 4.6을 택했다는 점입니다. “과도한 공학화(overengineering)가 줄었고, 멀티스텝 작업에서 지시를 끝까지 따른다”는 평가가 이어졌습니다. 이 수치들은 단순한 마케팅 문구가 아니라, 실제 사용자 선호도 실험에서 나온 결과입니다.

무료 플랜도 소넷 4.6이 기본값으로 바뀌었다

주목할 만한 변화가 하나 더 있습니다. 유료가 아닌 Free 플랜의 기본 모델도 소넷 4.6으로 업그레이드되었습니다. 무료 사용자에게 파일 생성, 커넥터, 스킬, 컨텍스트 압축(compaction) 기능까지 기본 제공하는 건 이전에 없던 일입니다. 비용을 한 푼도 내지 않아도 상당한 수준의 AI 작업이 가능해진 셈입니다.

📌 핵심 요약: 소넷 4.6은 ‘가성비 선택지’가 아닙니다. 이제 Opus를 쓸 이유가 줄었습니다. Anthropic 스스로도 “Opus는 가장 깊은 추론이 필요한 작업에만”이라고 구분 짓고 있습니다.

▲ 목차로 돌아가기

벤치마크로 보는 실제 성능 수치

숫자가 말하는 것: 모든 지표에서 Opus 4.5를 넘었다

아래 표는 클로드 소넷 4.6의 주요 벤치마크 결과를 정리한 것입니다. 특히 GPQA Diamond(대학원 수준 과학 질문)에서 89.9%를 기록한 것은 지식 기반 작업에서 전문가 수준에 근접했다는 신호입니다. SWE-Bench Verified는 실제 GitHub 이슈를 해결하는 소프트웨어 엔지니어링 벤치마크로, 79.6%는 Opus 4.6(80.8%)과 불과 1.2%포인트 차이입니다.

벤치마크 Sonnet 4.6 Opus 4.6 Sonnet 4.5
GPQA Diamond 89.9% 92.3% 83.1%
SWE-Bench Verified 79.6% 80.8% 77.2%
OSWorld (컴퓨터 사용) 72.5% 72.7% ~52%
MMMLU 89.3% 91.0% 85.7%
ARC-AGI-2 58.3% 63.1% 43.2%

※ 출처: Anthropic 공식 발표, Mashable 정리 (2026.02.18)

벤치마크 맹신은 금물, 하지만 이 수치는 다릅니다

벤치마크는 실무와 다를 수 있다는 비판이 항상 따라붙습니다. 그런데 이번 SWE-Bench는 실제 GitHub 저장소의 이슈 500개를 사람이 직접 검증한 문제들입니다. OSWorld 역시 Chrome, LibreOffice, VS Code 같은 실제 소프트웨어를 가상 환경에서 조작하는 능력을 측정합니다. 즉 이 두 지표만큼은 “실제로 쓸 수 있는가?”를 직접 반영한다고 봐도 무방합니다. 소넷 4.6이 이 두 항목에서 Opus 4.6과 사실상 동급이라는 사실은, 적어도 코딩·컴퓨터 사용 영역에서는 Opus를 대체할 수 있음을 강력히 시사합니다.

▲ 목차로 돌아가기

컴퓨터 사용 능력: 이제 진짜 쓸 만해졌다

16개월 만에 도달한 ‘인간 수준’ 컴퓨터 조작

Anthropic은 2024년 10월 일반 목적 컴퓨터 사용 모델을 세계 최초로 선보였습니다. 당시에는 “아직 실험적”이라는 단서가 붙었고, 실제로 오류가 잦았습니다. 소넷 4.6은 그로부터 불과 16개월 만에 OSWorld 72.5%를 달성했는데, 초기 모델과 비교하면 수직 상승에 가까운 개선입니다. 이제 복잡한 스프레드시트 탐색이나 여러 브라우저 탭을 오가는 다단계 웹 양식 입력에서 ‘인간 수준’의 처리 능력을 보여주고 있습니다.

API가 없는 레거시 시스템을 드디어 자동화할 수 있다

컴퓨터 사용 능력이 실무에서 가장 빛나는 순간은 구식 소프트웨어를 다룰 때입니다. 모든 기업에는 API도 없고, 현대적인 인터페이스도 없는 레거시 시스템이 하나씩은 있습니다. 예전에는 이런 시스템을 자동화하려면 별도의 커넥터를 일일이 만들어야 했습니다. 소넷 4.6은 사람처럼 화면을 보고, 마우스를 클릭하고, 키보드를 입력하는 방식으로 이런 시스템을 직접 조작할 수 있습니다. 보험사인 Pace의 사례가 이를 잘 보여줍니다. Pace는 소넷 4.6이 자사 보험 벤치마크에서 94%를 기록해 테스트한 모델 중 가장 높은 점수를 냈다고 밝혔습니다.

프롬프트 인젝션 방어 능력도 Opus 4.6 수준으로 올라왔다

컴퓨터를 직접 조작하는 AI에겐 보안이 특히 중요합니다. 악의적인 사이트가 숨겨진 명령어로 AI를 조종하는 ‘프롬프트 인젝션’ 공격이 대표적인 위협입니다. Anthropic의 안전 평가에 따르면 소넷 4.6의 프롬프트 인젝션 방어 성능은 소넷 4.5보다 크게 개선되어 Opus 4.6과 유사한 수준에 도달했습니다. 성능과 안전을 동시에 잡았다는 점이, 이 모델을 엔터프라이즈 환경에서 자신 있게 쓸 수 있는 이유 중 하나입니다.

💡 인사이트: OSWorld 점수는 소넷 4.5 대비 약 20%포인트 이상 올랐습니다. 이 속도라면 6개월 뒤 등장할 다음 모델은 컴퓨터 사용에서 숙련된 사무직 직원을 완전히 대체하는 수준에 도달할 가능성이 높습니다.

▲ 목차로 돌아가기

가격 대비 성능: 언제 Sonnet, 언제 Opus?

5배의 가격 차이, 1.2%포인트의 성능 차이

클로드 소넷 4.6의 API 가격은 입력 토큰 100만 개당 $3, 출력 100만 개당 $15입니다. Opus 4.6은 각각 $15/$75로, 소넷이 정확히 5배 저렴합니다. 그런데 SWE-Bench 기준 성능 차이는 고작 1.2%포인트(79.6% vs 80.8%)입니다. 만약 여러분이 코딩, 컴퓨터 사용, 문서 분석 중심의 작업을 한다면 소넷 4.6이 압도적으로 합리적인 선택입니다. Databricks는 실제로 “OfficeQA(기업 문서 독해 및 추론)에서 소넷 4.6이 Opus 4.6과 동일한 성능”이라고 공식적으로 밝혔습니다.

Opus가 여전히 필요한 세 가지 상황

그렇다고 Opus를 완전히 버릴 필요는 없습니다. Anthropic은 Opus 4.6이 코드베이스 전면 리팩터링, 여러 에이전트를 복합 조율하는 워크플로우, 그리고 단 한 번에 반드시 정확해야 하는 고위험 의사결정에서 여전히 우위를 보인다고 명시했습니다. 즉 “충분히 좋은 수준”이 아니라 “최고 수준이어야만 하는” 작업에서만 Opus를 쓰면 됩니다. 나머지 80~90%의 작업은 소넷 4.6으로 충분합니다.

작업 유형 추천 모델 이유
코딩·버그 수정 Sonnet 4.6 ✅ SWE-Bench Opus와 1.2% 차이, 비용 1/5
컴퓨터 자동화 Sonnet 4.6 ✅ OSWorld 72.5% vs Opus 72.7% 사실상 동급
기업 문서 분석 Sonnet 4.6 ✅ OfficeQA 기준 Opus 4.6과 동점
대규모 코드베이스 리팩터링 Opus 4.6 권장 최고 수준 추론 필요
복합 멀티에이전트 조율 Opus 4.6 권장 에이전트 팀 리더 역할

▲ 목차로 돌아가기

직장인·개발자 실전 활용 시나리오 5가지

① 엑셀·파워포인트에서 바로 MCP 연결로 외부 데이터 가져오기

소넷 4.6 업데이트와 함께 Claude in Excel이 MCP 커넥터를 지원하기 시작했습니다. S&P Global, LSEG, PitchBook, Moody’s, FactSet 같은 금융 데이터 소스를 엑셀을 떠나지 않고 Claude에게 “S&P500 편입 종목 중 부채비율 50% 이하이고 최근 12개월 영업이익 증가율 상위 10개 뽑아줘”라고 요청하면 스프레드시트에 바로 반영됩니다. 이미 claude.ai에서 MCP 커넥터를 설정했다면 Excel에서도 자동으로 동작합니다. Pro, Max, Team, Enterprise 플랜에서 사용 가능합니다.

② 100만 토큰 컨텍스트로 코드베이스 전체를 한 번에 분석

소넷 4.6의 1M 토큰 컨텍스트 창(베타)은 대형 코드베이스 전체를 단일 요청에 담을 수 있습니다. GitHub는 “대규모 코드베이스 검색이 필수적인 복잡한 코드 수정 작업에서 처음부터 뛰어난 성능”을 보인다고 평가했습니다. 실무적으로는 레거시 프로젝트의 기술 부채를 한 번에 진단하거나, 수십 개의 파일에 걸친 버그 원인을 추적하는 데 즉각 활용할 수 있습니다. 긴 세션 동안 컨텍스트가 날아가지 않도록 자동 압축(compaction) 기능도 함께 작동합니다.

③ 프론트엔드 UI를 단 한 번의 프롬프트로 프로덕션 수준으로

Triple Whale은 “프론트엔드 페이지와 데이터 리포트를 제작할 때 소넷 4.6이 완벽한 디자인 감각을 발휘하며, 이전에 테스트한 어떤 모델보다 적은 조율만으로 결과물에 도달한다”고 평가했습니다. 이전에는 몇 번의 반복 수정이 필요했던 레이아웃·애니메이션·디자인 퀄리티가 첫 번째 출력에서 프로덕션 수준으로 나오는 경우가 확연히 늘었다는 게 다수 사용자의 공통된 반응입니다. 비개발자에게도 프론트엔드 구현의 문턱이 크게 낮아졌다는 의미입니다.

④ 법률·금융 문서 심층 분석에서 Opus 수준을 Sonnet 가격으로

Harvey(법무)와 Hebbia(금융 서비스)는 각각 소넷 4.6의 문서 분석 능력에 높은 점수를 주었습니다. Harvey는 “정밀한 수치와 구조화된 비교가 필요할 때 지시에 정확히 반응하면서도, 재판 전략이나 증거 준비에서 진정으로 유용한 아이디어를 자발적으로 제안한다”고 밝혔습니다. Hebbia는 “금융 서비스 벤치마크에서 소넷 4.5 대비 응답 일치율이 크게 올랐다”고 보고했습니다. 수십, 수백 페이지 계약서·리포트·규정집을 다루는 직군에서 즉시 체감할 수 있는 변화입니다.

⑤ 비개발자도 Claude Code 해커톤 입상: 이제 코딩은 전문가 전유물이 아니다

소넷 4.6 출시와 맞물려 진행된 Claude Code 해커톤에서 변호사, 심장 전문의, 전자음악가 등 비개발자들이 수상자 500명 명단에 이름을 올렸습니다. 이건 단순한 에피소드가 아닙니다. “내가 무엇을 만들고 싶은지”만 정확히 알면, 코딩 지식 없이도 소넷 4.6이 구현까지 해준다는 것을 실제 결과로 증명한 사건입니다. 개인 사업자, 스타트업 창업자, 연구자라면 지금 당장 Claude Code 시도를 검토해 볼 이유가 생겼습니다.

▲ 목차로 돌아가기

신규 기능: 적응형 사고·컨텍스트 압축·1M 토큰

적응형 사고(Adaptive Thinking): 언제 깊게 생각할지 스스로 판단

소넷 4.6은 클로드 플랫폼에서 적응형 사고(Adaptive Thinking)와 확장 사고(Extended Thinking)를 모두 지원합니다. 적응형 사고 모드에서 모델은 문제의 복잡도를 자체적으로 평가해, 단순한 질문에는 빠르게 답하고 어려운 문제에는 더 많은 연산을 투입합니다. 사용자 입장에서는 별도 설정 없이도 최적의 속도·품질 균형을 자동으로 얻을 수 있습니다. Replit은 이 점을 언급하며 “effort 설정을 높일수록 성능이 계속 오른다”고 평가했습니다.

컨텍스트 압축(Compaction): 긴 대화도 끊기지 않는다

컨텍스트 압축은 대화가 길어져 토큰 한계에 가까워지면 이전 내용을 자동으로 요약하는 기능입니다. Claude Opus 4.6에서 먼저 도입되었고, 소넷 4.6에도 베타로 제공됩니다. 실무적으로는 하루 종일 이어지는 긴 코딩 세션이나 수십 개의 문서를 연속으로 분석하는 작업에서, 대화를 새로 시작하지 않아도 연속성이 유지됩니다. Claude Code에서는 /config 메뉴에서 직접 켜고 끌 수 있습니다.

웹 검색 도구 업그레이드: 이제 결과를 코드로 필터링한다

API의 웹 검색 및 fetch 도구가 함께 업그레이드되었습니다. 이제 검색 결과를 가져온 뒤, 관련 있는 내용만 남기도록 코드를 직접 작성하고 실행합니다. 이로써 응답 품질이 높아지고 불필요한 토큰 소비가 줄었습니다. 코드 실행, 메모리, 프로그래밍 방식 도구 호출, 도구 검색, 도구 사용 예시 기능도 모두 정식 출시(GA) 상태로 전환되었습니다.

📌 개발자 메모: API에서는 claude-sonnet-4-6 모델 문자열로 즉시 접근 가능합니다. 기존 소넷 4.5 통합을 그대로 유지하되, 가격 변동 없이 성능만 올리는 마이그레이션이 가능합니다.

▲ 목차로 돌아가기

솔직한 총평: 단점과 주의할 점

토큰 소비량이 늘었다는 실사용자 불만

Reddit 등 커뮤니티에서는 소넷 4.6이 소넷 4.5보다 토큰을 많이 소비한다는 불만이 일부 제기되고 있습니다. “프로젝트 전체를 여러 번 읽어들이고, 하지 말라고 한 것도 반복한다”는 사례가 보고되었습니다. 또 “4.5보다 결과가 오히려 안 좋다”는 소수 의견도 존재합니다. 이는 모델이 더 철저하게 컨텍스트를 파악하려 하는 과정에서 발생하는 부작용으로 해석할 수 있지만, API를 통해 대량으로 호출하는 경우 비용이 예상보다 올라갈 수 있습니다. effort 레벨을 medium이나 low로 낮추거나, 컨텍스트 압축 기능을 적극 활용하는 것이 현실적인 대응책입니다.

1M 토큰 컨텍스트는 아직 베타, 안정성 확인 필요

100만 토큰 컨텍스트 창은 현재 베타 상태입니다. 프로덕션 환경에서 대규모로 활용하기 전에 반드시 안정성을 충분히 검증하는 것이 좋습니다. 특히 토큰 한계에 근접하는 매우 긴 문서를 다룰 때는 압축 기능이 자동으로 작동하는 점을 인지하고, 요약 과정에서 중요한 세부 정보가 누락될 가능성을 고려해야 합니다.

빠른 AI 발전 속에서의 선택: 지금 이 모델이 ‘충분히 좋다’

솔직히 말하면, 소넷 4.6이 완벽한 모델은 아닙니다. Gemini 3.1 Pro나 GPT-5.3 같은 경쟁 모델들도 각각 특정 영역에서 강점을 갖고 있습니다. 하지만 가격 대비 성능, 접근성(무료 플랜 포함), 안전성, 그리고 실무 도구와의 통합성을 종합할 때 소넷 4.6은 2026년 3월 현재 가장 균형 잡힌 선택지 중 하나입니다. “아직 더 나은 모델이 나올 것”을 기다리며 지금 사용을 미루는 건 좋은 전략이 아닙니다. 6개월 뒤엔 또 다른 모델이 나옵니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1. 클로드 소넷 4.6은 무료로 쓸 수 있나요?

네, 가능합니다. Anthropic은 2026년 2월 업데이트를 통해 Free 플랜의 기본 모델을 소넷 4.6으로 변경했습니다. 무료 사용자에게도 파일 생성, 커넥터, 스킬, 컨텍스트 압축 기능이 기본 제공됩니다. 다만 하루 메시지 한도가 있으며, 한도 초과 시 Claude.ai에서 자동으로 제한이 걸립니다.

Q2. 소넷 4.6과 Opus 4.6 중 어떤 모델을 써야 하나요?

코딩, 컴퓨터 자동화, 문서 분석 등 대부분의 실무 작업에는 소넷 4.6이 충분합니다. Opus 4.6은 대규모 코드베이스 전면 리팩터링, 여러 AI 에이전트를 동시에 조율하는 복잡한 워크플로우, 단 한 번에 100% 정확해야 하는 고위험 의사결정 상황에서만 선택하는 것이 비용 효율적입니다. Opus는 소넷보다 5배 비쌉니다.

Q3. API로 소넷 4.6을 사용하는 방법은?

Anthropic API에서 모델 문자열 claude-sonnet-4-6을 사용하면 즉시 접근할 수 있습니다. 가격은 소넷 4.5와 동일하게 입력 토큰 100만 개당 $3, 출력 100만 개당 $15입니다. 기존 소넷 4.5 통합 코드의 모델명만 변경하면 별도 수정 없이 마이그레이션이 가능합니다. 자세한 내용은 Anthropic API 공식 문서를 참고하세요.

Q4. 1M 토큰 컨텍스트 창은 어떻게 활성화하나요?

소넷 4.6의 100만 토큰 컨텍스트 창은 현재 베타 상태입니다. Claude.ai와 API 모두에서 지원되지만, 베타 기능인 만큼 프로덕션 환경에서 사용하기 전에 충분한 테스트가 권장됩니다. API를 통해 사용할 경우에는 Anthropic 공식 문서에서 베타 기능 활성화 방법을 확인하시기 바랍니다.

Q5. 소넷 4.6이 GPT-5.3이나 Gemini 3.1 Pro보다 나은가요?

“어느 모델이 절대적으로 최고”라는 답은 없습니다. Gemini 3.1 Pro는 ARC-AGI-2(77.1%)와 K-POP 스타일 음악 생성 등에서 강세를 보이고, GPT-5.3은 대화 자연스러움에서 선호도가 높습니다. 반면 소넷 4.6은 컴퓨터 사용(OSWorld 72.5%), 코딩(SWE-Bench 79.6%), 보험·법률 등 구조화된 실무 업무에서 특히 경쟁력을 갖습니다. 용도에 따라 최적 모델이 다르므로, 본인의 핵심 작업 유형에서 직접 테스트해 보는 것이 가장 정확합니다.

▲ 목차로 돌아가기

마치며: 소넷 4.6이 바꾸는 것

클로드 소넷 4.6이 중요한 이유는 단순히 “성능이 좋아졌다”는 데 있지 않습니다. 진짜 의미는 AI 활용의 진입 장벽이 다시 한번 낮아졌다는 데 있습니다. 이전에는 최고 수준의 작업을 위해 Opus를 써야 했고, 그건 곧 높은 비용을 의미했습니다. 이제 그 격차가 대부분의 실무 영역에서 사실상 사라졌습니다. 무료 플랜 사용자도 파일 분석과 코딩 지원을 받을 수 있고, 개발자는 가격 변동 없이 더 나은 모델로 교체할 수 있습니다. 비개발자는 코딩 없이도 앱을 만들 수 있게 됐습니다.

물론 AI는 계속 발전합니다. 몇 달 뒤엔 또 다른 모델이 등장할 것입니다. 하지만 “더 좋은 게 나올 때까지 기다린다”는 전략은 영원히 사용을 미루는 것과 같습니다. 지금 소넷 4.6으로 실무에 AI를 통합해 보는 것, 그게 가장 현실적인 선택입니다.

▲ 목차로 돌아가기

본 콘텐츠는 Anthropic 공식 발표 및 공개된 벤치마크 자료를 기반으로 작성되었습니다. 벤치마크 수치는 테스트 환경 및 측정 방법에 따라 실제 사용 경험과 다를 수 있습니다. 모델 가격 및 기능은 Anthropic의 정책에 따라 변경될 수 있으며, 최신 정보는 anthropic.com에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기