AI 에이전트 신기록
100만 토큰 컨텍스트
Claude Opus 4.6 완전정복
석 달 만에 AI 1위 탈환한 결정적 이유
Anthropic이 2026년 2월 6일, Claude Opus 4.6을 전격 공개했습니다. 전작 Opus 4.5 출시로부터 고작 석 달. ‘0.1 버전 차이’라고 얕봤다면 오산입니다. 출시 당일 월스트리트 소프트웨어 주가는 -6% 급락했고, 법률 AI 기업 리걸줌은 하루 만에 -20%를 기록했습니다. 이 모델이 정확히 무엇을 바꿨기에 시장이 공포에 떨었는지, 지금 바로 파헤쳐 드립니다.
0.1의 거짓말 — 이번 업데이트가 사실 대격변인 이유
버전 숫자만 보면 소심한 마이너 업데이트처럼 보입니다. Claude Opus 4.6은 Opus 4.5가 출시된 2025년 11월로부터 불과 석 달 만에 공개됐습니다. 그러나 Anthropic이 선택한 0.1이라는 숫자는 겸손함의 표현이지, 성능의 한계가 아닙니다. 모델의 기본 아키텍처(뼈대)를 갈아엎은 게 아니라, 강력한 기반 위에 하이브리드 추론 레이어(Hybrid Reasoning Layer)를 새로 얹은 방식입니다. 이전 모델이 근육을 키우는 ‘벌크업’이었다면, 4.6은 그 위에 정밀한 선을 새기는 ‘데피니션’ 작업에 가깝습니다.
핵심 변화는 ‘에이전트로서의 신뢰성’입니다. 이제 Claude는 질문의 난이도를 스스로 판단해서, 즉각적으로 답할지 아니면 내부에서 길게 곱씹은 뒤 정교한 결론을 낼지 결정합니다. Anthropic 내부에서 자체 업무에 먼저 써본 결과, “가장 어려운 부분에 스스로 더 집중하고, 단순한 부분은 빠르게 처리하며, 모호한 문제에서 판단력이 좋아졌다”는 평가가 나왔습니다.
💡 개인적 관점: 버전 번호를 기준으로 AI 성능을 판단하는 습관을 버릴 때가 됐습니다. OpenAI·Google·Anthropic 모두 0.1 단위 업데이트에 파괴적 혁신을 담는 전략을 쓰기 시작했습니다. 숫자보다 어떤 벤치마크에서 얼마나 올랐는지를 직접 확인하는 것이 더 중요합니다.
적응형 사고(Adaptive Thinking) — AI가 난이도를 읽는 시대
이번 Opus 4.6의 가장 인상적인 기능은 적응형 사고(Adaptive Thinking)입니다. 기존에는 개발자가 “이 정도 생각해라”는 토큰 예산을 직접 지정해야 했습니다. 이제 Claude는 질문의 맥락을 스스로 파악해서 생각의 깊이를 조절합니다. “서울 날씨 알려줘”에는 가볍게 답하고, “이 코드베이스에서 메모리 누수 원인을 찾아줘”에는 깊이 파고듭니다. 당연하게 들리지만, 지금까지의 AI에게 이 당연함이 없었습니다.
특히 주목할 기술이 인터리브드 싱킹(Interleaved Thinking)입니다. 외부 도구를 호출하는 중간중간에 AI가 자기만의 ‘메모’를 끼워 넣는 방식으로, “잠깐, 여기서 뭔가 이상한데?”라고 스스로 되짚는 구조입니다. 복잡한 멀티스텝 업무에서 실수를 획기적으로 줄여주는 안전장치입니다.
에포트(Effort) 파라미터 — 지능과 비용의 슬라이더
개발자를 위한 새로운 옵션인 에포트(Effort) 파라미터는 Low / Medium / High(기본값) / Max 4단계로 AI의 집중도를 직접 조절할 수 있게 해 줍니다. 단순 분류 작업에는 Low, 금융·법률 분석처럼 오차 허용이 불가능한 경우에는 Max로 설정하면 됩니다. Anthropic 스스로 “기본값인 High에서 모델이 너무 깊이 생각하는 것 같으면 Medium으로 낮추라”고 권장할 정도로, 4.6은 생각을 많이 하는 편입니다. 이는 비용과 응답 속도 면에서 반드시 알아야 할 트레이드오프입니다.
| Effort 단계 | 추천 사용 상황 | 특징 |
|---|---|---|
| Low | 단순 분류, 빠른 요약 | 최저 비용, 최고 속도 |
| Medium | 일반 업무, 보통 복잡도 | 균형 잡힌 비용·품질 |
| High (기본) | 코딩, 리서치, 분석 | 확장 사고 자동 활성화 |
| Max | 금융·법률 오류 불허 작업 | 최고 정밀도, 높은 비용 |
100만 토큰 컨텍스트 — 소설 750권을 한 번에 읽는다
Claude Opus 4.6은 Opus 클래스 모델 최초로 100만 토큰 컨텍스트 윈도우(베타)를 지원합니다. 100만 토큰이면 대략 소설 750권 분량의 텍스트를 한 번에 처리할 수 있다는 의미입니다. 기업 전체 코드 저장소나 대형 법률 문서 묶음을 통째로 읽어낼 수 있는 수준입니다.
AI 모델의 오랜 약점이었던 ‘컨텍스트 부패(Context Rot)’도 큰 폭으로 개선됐습니다. 대화가 길어질수록 이전 정보를 잊어버리는 현상인데, MRCR v2 벤치마크(100만 토큰 텍스트 속 8개 정보 찾기)에서 Opus 4.6은 76%를 기록한 반면, Sonnet 4.5는 18.5%에 불과했습니다. 단순한 수치 향상이 아니라, 모델이 실질적으로 활용할 수 있는 컨텍스트의 범위 자체가 질적으로 달라진 것입니다.
컨텍스트 압축(Compaction) — AI판 회의록 자동 정리
긴 대화나 에이전트 작업에서 컨텍스트 한계에 부딪히는 문제를 해결하는 새 기능이 컨텍스트 압축(Context Compaction)입니다. 대화가 설정된 임계값에 가까워지면 자동으로 이전 맥락을 요약·압축해서 토큰 한도 없이 작업을 이어갑니다. 장시간 작업에서 AI가 “아까 뭐라고 했더라?”하고 헤매는 일이 근본적으로 줄어드는 구조입니다.
⚠️ 주의: 100만 토큰은 현재 베타 상태이며 안정성이 완전히 검증되지 않았습니다. 200,000 토큰 초과 시 프리미엄 요금(입력 $10/출력 $37.50 per MTok)이 별도 적용되므로, 비용 계획을 반드시 사전에 확인하세요.
벤치마크 성적표 — 어디서 이기고 어디서 졌나
모든 AI 모델 발표에는 화려한 숫자가 따라옵니다. 그러나 Claude Opus 4.6의 성적은 특히 눈여겨볼 만합니다. 인플레이션이 심한 코딩 벤치마크만이 아니라, 실제 경제적 가치와 직결된 지식 업무 평가에서 두드러지기 때문입니다. 단, 솔직하게 뒤처진 영역도 짚고 넘어갑니다.
| 벤치마크 | Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| GDPval-AA (경제 지식 업무) | 1,606 Elo 🥇 | 1,462 Elo | — |
| ARC-AGI-2 (추상 추론) | 68.8% 🥇 | 54.2% | 45.1% |
| Terminal-Bench 2.0 (에이전트 코딩) | 65.4% 🥇 | — | — |
| SWE-bench Verified (코딩) | 80.8% | — | — |
| BigLaw Bench (법률 추론) | 90.2% 🥇 | — | — |
| 1M MRCR v2 (롱 컨텍스트 검색) | 76% 🥇 | — | — |
솔직하게 인정하는 약점
SWE-bench Verified에서 전작 4.5(80.9%) 대비 미세하게 후퇴(80.8%)했습니다. 도구 사용 능력을 측정하는 MCP Atlas 벤치마크에서도 소폭 퇴보가 있었습니다. “모든 지표에서 압도적 우위”라는 표현은 정확하지 않습니다. 특정 코딩 시나리오에서는 여전히 기존 모델과 비슷하거나 오차 범위 내의 차이만 존재합니다. 이 점을 인지한 상태로 모델을 선택하는 것이 현명합니다.
에이전트 팀·코워크 — 월가를 패닉으로 몰아넣은 진짜 이유
Claude Opus 4.6 출시 당일 소프트웨어 업종 ETF가 -6% 급락했고, 법률 AI 기업 리걸줌은 -20%, 톰슨 로이터스는 -15.8%, 인튜잇은 연초 대비 -32%를 기록했습니다. 단순히 “AI가 똑똑해졌다”는 이유만으로 이런 반응이 나오지는 않습니다. 시장이 공포를 느낀 핵심은 두 가지였습니다. 코워크(Cowork)와 에이전트 팀(Agent Teams)입니다.
코워크는 Claude가 멀티태스킹을 자율적으로 수행하는 생산성 플랫폼입니다. 재무 분석·리서치·문서·스프레드시트·프레젠테이션까지, 기존에 전문 소프트웨어가 각각 담당하던 영역을 Claude 하나가 자율적으로 처리합니다. “법률 리서치 소프트웨어를 따로 살 필요가 있나? Claude가 하면 되는데?”라는 질문이 현실이 되기 시작한 것입니다.
에이전트 팀 — 여러 AI가 병렬로 일하는 시대
Claude Code에 도입된 에이전트 팀(Agent Teams) 기능은, 하나의 에이전트가 순차적으로 처리하던 방식에서 여러 에이전트가 동시에 병렬로 업무를 나눠 처리하는 방식으로 전환합니다. 한 에이전트가 엑셀 데이터를 분석하는 동안, 다른 에이전트는 파워포인트 시각화 초안을 잡고, 또 다른 에이전트는 코드 리뷰를 합니다. 실제 인간 팀이 일하는 방식과 구조적으로 닮았습니다.
🏢 실제 기업 도입 사례
- 라쿠텐(Rakuten): 하루 만에 GitHub 이슈 13개 자율 해결, 12개 정확한 담당자에게 배정 (50인 조직, 6개 저장소)
- SentinelOne: 수백만 줄 규모 코드베이스 마이그레이션을 절반의 시간에 완료
- 노르웨이 국부펀드(NBIM): 40건 사이버보안 조사 중 38건에서 이전 모델 압도
- Harvey(법률 AI): “도구가 아닌 유능한 법률 파트너” 평가
- Bolt.new: 물리 엔진을 단 한 번의 패스에 완전 구현(one-shot)
한계와 주의점 — 균형 잡힌 시각으로 보기
좋은 이야기만 하는 리뷰는 광고입니다. Claude Opus 4.6에도 분명한 한계와 주의해야 할 지점이 있습니다. 세 가지로 정리합니다.
첫째, 비용 문제입니다. 기본 API 요금은 입력 100만 토큰당 $5, 출력 $25로 전작과 동일하지만, 200K 토큰 초과 시 프리미엄 요율(입력 $10, 출력 $37.50)이 적용됩니다. 반면 GPT-5.2는 입력 $2, 출력 $10 수준으로, 동급 비교에서 Claude가 절반 이상 비쌉니다. Gemini 3 경량 모델은 더 낮은 요금에 경쟁력 있는 성능을 제공하고 있어, 비용 민감한 서비스에서는 신중한 판단이 필요합니다.
둘째, 과잉 추론 경향입니다. 적응형 사고 덕분에 어려운 문제에서 압도적인 성능을 보이지만, 간단한 질문에도 깊이 고민하는 탓에 불필요한 지연과 토큰 비용이 발생할 수 있습니다. Effort 설정을 Medium으로 조정하면 완화되지만, 어떤 상황에서 어떻게 조절할지 사전에 파악해야 합니다.
셋째, 보안 능력의 양날의 검입니다. Opus 4.6은 격리 환경에서 오픈소스 코드 취약점 500개 이상을 독자적으로 발견했습니다. GhostScript의 시스템 중단 결함, OpenSC의 버퍼 오버플로 취약점, CGIF의 취약점 발견 후 직접 개념 증명 코드까지 작성했습니다. 이 능력이 방어자에게만 쓰인다는 보장이 없다는 점에서, Anthropic 스스로 6개의 새 사이버보안 탐지 장치를 추가했습니다. 이 부분은 앞으로 AI 안전 정책에서 중요한 논의 지점이 될 것입니다.
Opus 4.6 vs GPT-5.2 vs Gemini 3 Pro — 누구를 선택할까
2026년 3월 현재, AI 최전선은 명확한 삼국 구도입니다. 어느 하나가 절대적으로 우월하다고 단정하기 어렵고, 사용 목적에 따라 최선의 선택이 달라집니다. 아래 표는 핵심 기준별로 세 모델을 비교한 것입니다.
| 기준 | Claude Opus 4.6 | GPT-5.2 | Gemini 3 Pro |
|---|---|---|---|
| 에이전트 코딩 | 🥇 1위 | 근접 추격 | 3위 |
| 법률·금융 지식 업무 | 🥇 압도적 | 2위 | — |
| 멀티모달 (이미지·영상) | 2위 | 2위 | 🥇 독보적 |
| 컨텍스트 윈도우 | 100만 (베타) | 128K | 🥇 200만 (네이티브) |
| API 비용(입력 기준) | $5/MTok | 🥇 $2/MTok | 가변 |
| 한국어 자연스러움 | 🥇 최상 | 우수 | 말이 많음 |
💡 결론적 조언: 에이전트형 코딩·법률·금융 분야의 고부가가치 업무라면 Opus 4.6이 현재 최선입니다. 비용 효율을 최우선으로 두거나 범용 추론이 목적이면 GPT-5.2, 멀티모달·구글 생태계 통합이 핵심이라면 Gemini 3 Pro를 선택하세요. 오늘 최선이 내일도 최선이리라는 보장은 없으니, 주기적인 비교 테스트가 필수입니다.
Q&A — 가장 많이 묻는 질문 5가지
▶ Q1. Claude Opus 4.6은 무료로 사용할 수 있나요?
Claude.ai의 Pro 또는 Max 구독 플랜에서 사용할 수 있으며, 무료 플랜에서는 제한적으로만 접근 가능합니다. API 사용 시에는 입력 $5, 출력 $25 per MTok의 요금이 발생하며, 200K 토큰 초과 시 프리미엄 요율이 적용됩니다. 모델명은 claude-opus-4-6으로 호출합니다.
▶ Q2. Opus 4.6이 Opus 4.5보다 무조건 더 좋은가요?
대부분의 벤치마크에서는 유의미한 향상이 있습니다. 그러나 SWE-bench Verified에서 전작 대비 소폭 후퇴(80.9%→80.8%)가 확인됐고, MCP Atlas에서도 약간의 퇴보가 있었습니다. “모든 측면에서 압도적으로 우월하다”는 표현은 사실과 다릅니다. 에이전트형 코딩·장문 컨텍스트·법률 추론에서는 압도적으로 향상됐으나, 단순 코딩 작업에서는 비슷한 수준입니다.
▶ Q3. 적응형 사고(Adaptive Thinking)는 모든 사용자에게 열려 있나요?
현재 API를 통한 개발자와 Claude.ai 구독자에게 제공됩니다. 기본 Effort 레벨(High)에서 확장 사고가 자동으로 작동하며, 개발자는 /effort 파라미터를 통해 Low~Max 4단계로 조절할 수 있습니다. 일반 사용자 입장에서는 Claude.ai에서 기본적으로 활성화된 상태입니다.
▶ Q4. 100만 토큰 컨텍스트, 실제로 쓸 수 있는 수준인가요?
현재 Claude Developer Platform에서만 베타로 제공됩니다. 200K 토큰 초과 시 프리미엄 요금이 부과되고, 안정성이 완전히 검증된 상태가 아닙니다. 기업용 대규모 코드베이스나 법률 문서 처리 용도로 테스트 단계 활용을 권장합니다. 컨텍스트 압축(Compaction) 기능을 함께 활용하면 비용 관리에 효과적입니다.
▶ Q5. Claude Opus 4.6이 Sonnet 4.6과 다른 점은 무엇인가요?
Opus는 클로드 패밀리의 최고 지능 모델로, 복잡한 추론·에이전트 작업·장문 컨텍스트에 특화돼 있습니다. Sonnet 4.6은 2026년 2월 17일 별도로 출시된 모델로, Opus보다 훨씬 낮은 비용으로 Opus급 지능에 근접한 성능을 제공합니다. 일상적인 문서 작성·코딩 보조라면 Sonnet 4.6이 더 합리적인 선택일 수 있습니다. Opus는 한 치의 오차도 허용되지 않는 고부가가치 업무에 최적화돼 있습니다.
마치며 — 총평
Claude Opus 4.6은 단순히 “더 똑똑한 챗봇”이 아닙니다. 적응형 사고·100만 토큰 컨텍스트·에이전트 팀이라는 세 가지 축이 맞물리면서, AI가 ‘도구’에서 ‘자율적으로 일하는 동료’로 전환되는 변곡점에 있는 모델입니다. 월스트리트가 소프트웨어 주식을 팔아치운 것은 과잉 반응이 아닐 수도 있습니다. 실제로 법률 리서치, 금융 분석, 코드베이스 관리 영역에서 전문 소프트웨어를 대체하는 사례가 이미 나타나고 있기 때문입니다.
그렇다고 맹목적인 찬양은 경계해야 합니다. 비싼 API 요금, 단순 작업에서의 과잉 추론, 아직 베타 단계인 100만 토큰 지원, 그리고 보안 능력의 양날의 검은 현실적인 한계입니다. “오늘 가장 좋은 AI가 내일도 가장 좋으리라는 보장이 없다”는 말은 이 업계에서 가장 정직한 조언입니다.
결론적으로, 에이전트형 코딩·법률·금융 같은 고부가가치 영역에서 AI의 자율 업무 처리가 필요하다면 현재 시점에서 Opus 4.6은 최선의 선택입니다. 하지만 비용 최적화가 우선이거나 멀티모달 작업 비중이 높다면, 다른 경쟁 모델을 함께 테스트해보는 것이 더 합리적입니다. AI 선택에서 ‘단 하나의 정답’을 고집하는 것은 이미 구시대적 접근법입니다.
본 포스팅은 Anthropic 공식 발표자료 및 공개된 벤치마크 데이터를 기반으로 작성됐습니다. AI 모델의 성능과 가격은 업데이트 없이 변경될 수 있으며, 정확한 최신 정보는 anthropic.com에서 확인하시기 바랍니다. 본 글은 특정 서비스의 투자·구매를 권유하지 않습니다.

댓글 남기기