Claude Opus 4.7, 가격 그대로인데 비용이 35% 오른 이유

Published on

in

Claude Opus 4.7, 가격 그대로인데 비용이 35% 오른 이유

2026.04.16 출시 / claude-opus-4-7 기준
IT · AI

Claude Opus 4.7, 가격 그대로인데 비용이 35% 오른 이유

Anthropic이 4월 16일 Claude Opus 4.7을 정식 출시했습니다. 토큰당 가격표는 4.6과 완전히 같습니다. 그런데 개발자 커뮤니티에서는 “청구서가 늘었다”는 얘기가 나오고 있어요. 새 토크나이저가 같은 입력을 최대 1.35배 더 많은 토큰으로 바꿔버리기 때문입니다. 공식 발표문과 실측 데이터를 같이 놓고 보니 이런 차이가 보였습니다.

87.6%
SWE-bench Verified
+13%
93개 코딩 태스크 해결률
3.75MP
이미지 처리 해상도
+35%
토크나이저 토큰 증가

이번 버전에서 실제로 달라진 것 4가지

Claude Opus 4.7은 2026년 4월 16일 Anthropic이 정식 공개했습니다. 출시와 동시에 claude.ai, Claude API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry에 일괄 적용됐어요. API 모델 문자열은 claude-opus-4-7입니다.

Anthropic 공식 발표문에서 실제로 변경된 핵심은 네 가지입니다. (출처: Anthropic, 2026.04.16)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

  1. 코딩 성능 — SWE-bench Pro 53.4% → 64.3%, 93개 태스크 벤치마크에서 4.6 대비 +13% 해결률 상승
  2. 비전 해상도 — 이미지 처리 한계가 1.15MP에서 3.75MP(장변 최대 2,576px)로 3배 이상 확대
  3. xhigh effort 레벨 신설 — 기존 high와 max 사이에 새 단계가 생겼고, Claude Code는 모든 플랜 기본값이 xhigh로 상향
  4. 파일 기반 메모리 개선 — 장기 세션에서 scratchpad·notes 파일을 더 안정적으로 읽고 씁니다

주목할 점은 가격이 4.6과 동일하다는 사실입니다. 입력 토큰 100만 개당 $5, 출력 100만 개당 $25. 그러나 3번 섹션에서 설명하듯 이 수치만 보면 실제 청구 구조를 오해할 수 있어요.

Instruction Following도 중요한 변화입니다. Opus 4.6이 지시를 느슨하게 해석하거나 일부를 건너뛰는 경향이 있었다면, 4.7은 지시를 문자 그대로 따릅니다. 4.6용으로 작성한 프롬프트를 그대로 쓰면 예상치 못한 동작이 나올 수 있어요. 프롬프트 재조정이 필요합니다.

▲ 목차로 돌아가기

벤치마크 수치를 그대로 믿으면 놓치는 부분

Anthropic이 공개한 14개 벤치마크 중 Opus 4.7이 이기는 항목이 많지만, 두 영역은 오히려 퇴보했습니다. 이 부분이 마케팅 자료에서 눈에 잘 띄지 않아요.

벤치마크 Opus 4.6 Opus 4.7 GPT-5.4 Mythos Preview
SWE-bench Pro (에이전틱 코딩) 53.4% 64.3% 57.7% 77.8%
SWE-bench Verified 80.8% 87.6% 80.6% 93.9%
Terminal-Bench 2.0 ⚠️ 65.4% 69.4% 75.1% 82.0%
BrowseComp ⚠️ 83.7% 79.3% 89.3% 86.9%
GPQA Diamond (대학원 수준 추론) 91.3% 94.2% 94.4% 94.6%
Finance Agent 60.1% 64.4% 61.5%
CharXiv (시각 추론) 69.1% 82.1% 86.1%

⚠️ 표시 항목은 Opus 4.7이 GPT-5.4 대비 낮음. 출처: Anthropic 공식 발표, 2026.04.16

Terminal-Bench 2.0은 GPT-5.4가 75.1%로 앞서고, BrowseComp도 4.6(83.7%)보다 낮아졌습니다. 터미널 환경 자동화나 웹 검색·리서치 워크플로 중심이라면 이 수치가 의사결정에 직결됩니다. Anthropic은 공식 문서에서 이 하락을 숨기지 않고 직접 명시했어요.

반면 CursorBench 점수는 58%에서 70%로 올랐고, Hex의 자체 벤치마크에서는 “low-effort Opus 4.7이 medium-effort Opus 4.6과 거의 같다”는 결과가 나왔습니다. 낮은 effort로 돌려도 이전 중간 effort 수준이 나온다는 뜻이에요.

▲ 목차로 돌아가기

가격표는 그대로지만 비용이 오르는 구조

이 섹션이 가장 중요합니다. “Opus 4.6과 가격 동일”이라는 말은 사실이지만 전부가 아닙니다.

Anthropic은 공식 마이그레이션 가이드에서 두 가지 변경사항이 토큰 사용량에 영향을 준다고 직접 밝혔습니다. (출처: Anthropic 공식 마이그레이션 가이드, 2026.04.16)

⚠️ 실제 비용에 영향을 주는 두 가지

① 새 토크나이저 — 동일 텍스트가 Opus 4.6 대비 1.0~1.35배 더 많은 토큰으로 변환됩니다. 콘텐츠 유형에 따라 차이가 나는데, TypeScript·JSX 코드처럼 심볼이 많은 입력이 1.35배에 가깝게 팽창합니다. 일반 한국어 문장은 거의 차이 없습니다.

② 높아진 기본 effort — Claude Code 전 플랜의 기본값이 xhigh로 상향됐습니다. 이전보다 더 많이 추론하므로 출력 토큰도 늘어납니다.

실제 측정치가 있습니다. Reddit 사용자 Joozio가 Claude Code 세션 9,667개, 어시스턴트 턴 133,087개를 직접 집계한 결과를 공개했습니다. (출처: Reddit r/ClaudeAI, 2026.04.17)

💡 9,667개 세션 실측에서 나온 세 가지 사실

  1. Prompt caching이 전체 비용의 93%를 절약했습니다. 캐싱 없이 동일 작업량을 처리했다면 $21k 대신 $91k가 청구됐을 것입니다.
  2. 토큰 낭비의 주범은 AI가 길을 헤매는 것이 아니라 인프라 오류입니다. Cloudflare 차단, 스테일 쿠키, 버전 불일치 같은 문제가 원인이었어요.
  3. TypeScript·JSX 중심 세션이 평문 위주 세션보다 일관되게 1.3~1.35배 토큰을 더 소모했습니다.

결론부터 말씀드리면: 코드베이스 위주 Claude Code 사용자라면 동일 작업량에 실질 비용이 20~35% 늘 가능성이 있습니다. 일반 대화 위주 사용자는 큰 차이를 느끼지 못할 거예요. Anthropic은 “순 효과가 유리하다”고 했지만, 이 말은 내부 코딩 평가 기준이고 Prompt caching 사용을 전제합니다.

▲ 목차로 돌아가기

비전 해상도 3배, 실제 달라지는 워크플로

Claude Opus 4.7의 비전 개선은 이번 업데이트에서 가장 저평가되는 변화 중 하나입니다. 이미지 처리 한계가 장변 기준 최대 2,576px(약 3.75MP)로 올라갔어요. Opus 4.6의 한계였던 1.15MP에서 3배 이상 확대된 수치입니다. (출처: Anthropic 공식 발표, 2026.04.16)

시각 추론 벤치마크 CharXiv에서도 69.1%에서 82.1%로 올랐습니다. 고해상도 지원이 모델 레벨에서 적용되기 때문에 API 파라미터를 바꿀 필요가 없어요. 단, 고해상도 이미지는 토큰을 더 소비합니다. 세밀한 시각 정보가 필요 없다면 이미지를 다운샘플링해서 보내면 비용을 줄일 수 있습니다.

실제로 달라지는 사용 시나리오를 세 가지로 정리했습니다.

01Computer Use 에이전트

빽빽한 UI 스크린샷 분석 정확도가 눈에 띄게 올랐습니다. XBOW의 자체 시각 정확도 벤치마크에서 Opus 4.6이 54.5%였던 것이 Opus 4.7에서 98.5%로 측정됐습니다.

02문서·다이어그램 추출

화학식, 특허 도면, 복잡한 기술 다이어그램 해석이 가능해졌습니다. Solve Intelligence 측은 생명과학 특허 워크플로에서 의미 있는 개선을 확인했다고 밝혔어요.

03UI·슬라이드·문서 생성

레퍼런스 이미지를 고화질로 읽고 그에 맞는 결과물을 생성합니다. 픽셀 단위 참조가 필요한 디자인 시안 작업에서 유용합니다.

▲ 목차로 돌아가기

GPT-5.4, Gemini 3.1 Pro와 어디서 갈리는가

2026년 4월 현재 프런티어 모델 세 개를 직접 비교해보면 확실히 갈리는 구간이 있습니다.

Opus 4.7이 앞서는 영역: 에이전틱 코딩(SWE-bench Pro 64.3% vs GPT-5.4 57.7%), 금융 분석(Finance Agent 64.4% vs GPT-5.4 61.5%), 지시 이행 정밀도. 복잡한 CI/CD 파이프라인이나 다단계 코드베이스 수정처럼 자율적으로 오래 돌아야 하는 작업이라면 Opus 4.7이 유리합니다.

GPT-5.4가 앞서는 영역: Terminal-Bench 2.0(75.1% vs 69.4%), BrowseComp(89.3% vs 79.3%). 명령행 작업과 웹 검색 기반 리서치가 중심이라면 GPT-5.4가 나은 선택일 수 있어요.

💡 가격 차이를 계산에 넣으면 상황이 바뀝니다

API 가격 기준으로 Opus 4.7은 입력 $5/M, 출력 $25/M입니다. GPT-5.4는 입력 $2.50/M, 출력 $15/M으로 저렴해요. Gemini 3.1 Pro는 입력 약 $2/M 수준입니다. 단순 토큰당 가격은 Opus 4.7이 GPT-5.4 대비 입력 2배, 출력 1.67배 비쌉니다. 새 토크나이저까지 감안하면 가격 차이가 더 벌어질 수 있어요. Instruction Following 정밀도가 반복 수정 시간을 얼마나 줄여주느냐가 프리미엄 가격의 정당성을 판단하는 기준이 됩니다. (출처: BenchLM.ai 가격 비교, 2026.04)

안전성 측면에서는 Mythos Preview가 여전히 가장 낮은 오정렬 행동 점수를 기록합니다. Opus 4.7은 4.6보다 소폭 개선됐지만, 통제 물질 관련 지나치게 상세한 안내를 제공하는 경향은 오히려 4.6보다 약간 약해졌다고 Anthropic이 직접 밝혔습니다.

▲ 목차로 돌아가기

4.6에서 4.7로 넘어갈 때 주의할 것들

Anthropic은 4.7을 4.6의 “직접 업그레이드”라고 설명하지만, 실제 이행 시 두 가지를 짚어야 합니다.

① 프롬프트 재조정

4.6용 프롬프트를 4.7에 그대로 넣으면 지시를 지나치게 문자 그대로 해석해서 예상과 다른 결과가 나올 수 있어요. 특히 여러 단계가 쌓인 복합 지시문이나 “적당히 요약해줘” 같은 모호한 표현이 달라지게 됩니다. Anthropic은 공식 마이그레이션 가이드에서 “프롬프트와 harness를 다시 조정할 것”을 권고합니다.

② 토큰 사용량 측정 먼저

바로 프로덕션 트래픽을 전환하기보다 실제 세션 샘플로 토큰 증가 폭을 먼저 측정하는 게 낫습니다. Anthropic 자체 권장 순서도 이렇습니다. effort 파라미터를 낮게 시작해서 필요한 만큼만 올리고, task budget 기능(현재 퍼블릭 베타)으로 긴 세션의 토큰 상한을 설정해두면 청구 급증을 막을 수 있어요.

📋 이번 릴리스에서 함께 추가된 기능들

  • /ultrareview 명령 — Claude Code에서 코드 변경사항을 꼼꼼히 리뷰하는 전용 세션. Pro·Max 사용자에게 무료 3회 제공
  • Auto mode (Max 사용자) — 긴 태스크를 실행할 때 Claude가 권한 결정을 대신 처리해서 중단 없이 진행
  • Task budgets (퍼블릭 베타) — 개발자가 긴 실행 중 Claude의 토큰 소비를 가이드하는 새 파라미터
  • Cyber Verification Program — 정당한 보안 연구·침투 테스트 목적 전문가를 위한 신청 프로그램

Claude Code의 xhigh 기본 effort 상향은 응답 품질을 높이지만 동시에 첫 턴부터 더 많이 추론합니다. 커뮤니티에서는 “같은 프롬프트인데 토큰이 더 나간다”는 피드백이 이미 올라오고 있어요. (출처: r/ClaudeAI, Claude Code 스레드, 2026.04.17)

▲ 목차로 돌아가기

Q&A 5가지

Q1. Claude Opus 4.7과 Mythos Preview는 어떻게 다른가요?
Mythos Preview는 Anthropic이 현재 일반 공개를 보류한 모델입니다. SWE-bench Pro 기준 Mythos는 77.8%로 Opus 4.7의 64.3%보다 높아요. 사이버 보안 능력이 너무 강해 보안 통제 검증 없이 공개하지 않기로 했다는 게 Anthropic의 설명입니다. Opus 4.7은 Mythos 대비 사이버 역량을 낮추는 방향으로 학습됐고, 실시간 사이버 차단 시스템이 적용됐습니다.
Q2. Opus 4.7을 무료 플랜에서도 쓸 수 있나요?
claude.ai 무료 플랜에서는 제한적으로 접근 가능하며, 주로 Pro·Max·Team·Enterprise 사용자에게 폭넓게 제공됩니다. API로는 claude-opus-4-7 모델명으로 바로 호출할 수 있어요. GitHub Copilot Pro+·Business·Enterprise에서도 모델 선택기에서 고를 수 있습니다.
Q3. 새 토크나이저가 한국어에도 영향을 주나요?
Reddit 실사용 보고를 보면 TypeScript·JSX처럼 심볼이 많은 코드에서 1.3~1.35배까지 팽창하고, 일반 영어 문장은 거의 차이가 없다는 결과가 나왔습니다. 한국어는 아직 공식 데이터가 없지만, 일반 텍스트에 가까운 성격이라 영향이 크지 않을 가능성이 높아요. 다만 Anthropic이 공식 답변을 내놓지 않은 부분이라 직접 측정해보는 게 정확합니다.
Q4. xhigh effort는 어떤 상황에서 써야 하나요?
Anthropic은 코딩과 에이전틱 작업에 high 또는 xhigh effort로 시작하길 권장합니다. xhigh는 high와 max 사이 새 레벨이에요. 내부 테스트 기준 xhigh에서 100k 토큰 소비 시 71% 점수가 나오는데, 이는 Opus 4.6의 max(200k 토큰) 점수와 같습니다. 즉 xhigh에서 절반 토큰으로 4.6 최대 성능을 낼 수 있다는 뜻이에요. 단순 질의응답엔 high 이하도 충분합니다.
Q5. Sonnet 4.6과 Opus 4.7 중 어떤 걸 써야 하나요?
일상적인 코딩·분석·글쓰기라면 Sonnet 4.6이 비용 대비 효율이 높습니다. Opus 4.7은 가장 어려운 코딩 태스크, 멀티에이전트 오케스트레이션, 금융·법률 분야의 복잡한 문서 분석처럼 추론 깊이가 필요할 때 진가를 발휘해요. Opus 4.7의 low effort가 Sonnet 4.6 high와 비슷한 수준이라는 벤치마크 결과도 있으니, 같은 품질이 필요하다면 Opus 4.7 low effort가 더 저렴할 수도 있습니다.

▲ 목차로 돌아가기

마치며

Claude Opus 4.7은 실제로 좋은 업그레이드입니다. 코딩 벤치마크 대부분에서 GPT-5.4를 앞서고, 비전 해상도가 3배 이상 올랐으며, 에이전틱 작업 신뢰도도 높아졌어요. 여러 기업의 실제 평가 결과가 이를 뒷받침합니다.

다만 “4.6과 가격 동일”이라는 문장만 보고 넘어가면 놓치는 게 있습니다. 새 토크나이저가 코드 중심 워크플로에서 실질 비용을 최대 35%까지 밀어올릴 수 있고, Claude Code의 기본 effort 상향도 토큰 소비를 늘립니다. Terminal-Bench 2.0과 BrowseComp에서 GPT-5.4에 뒤진다는 점도 터미널·리서치 워크플로 중심 사용자라면 챙겨야 할 숫자입니다.

4.7로 넘어갈 계획이라면 프로덕션 전환 전에 실제 세션 샘플로 토큰 증가 폭을 먼저 재보고, 4.6용 프롬프트를 점검하는 순서가 낫습니다. 좋은 모델을 제대로 쓰려면 숫자를 먼저 확인하는 게 빠릅니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. ① Anthropic — Introducing Claude Opus 4.7 (https://www.anthropic.com/news/claude-opus-4-7)
  2. ② Anthropic — Claude Opus 4.7 Migration Guide (https://platform.claude.com/docs/en/about-claude/models/migration-guide)
  3. ③ Anthropic — Claude Opus 4.7 System Card (https://anthropic.com/claude-opus-4-7-system-card)
  4. ④ GitHub Changelog — Claude Opus 4.7 is generally available (https://github.blog/changelog/2026-04-16-claude-opus-4-7-is-generally-available/)
  5. ⑤ BenchLM.ai — Claude API Pricing: Haiku 4.5, Sonnet 4.6, Opus 4.7 (2026.04) (https://benchlm.ai/blog/posts/claude-api-pricing)
  6. ⑥ Reddit r/ClaudeAI — Opus 4.7 tokenizer audit, 9,667 sessions (2026.04.17) (https://www.reddit.com/r/ClaudeAI/comments/1so22ac/)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 최신 정보는 Anthropic 공식 사이트에서 확인하세요. 본 포스팅은 공식 후원·제휴가 없는 독립 정보 콘텐츠입니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기