Grok 4.20 Beta 기준
TECH
SuperGrok Heavy, 이 조건이 아니면 $270이 낭비입니다
월 $300짜리 SuperGrok Heavy와 월 $30짜리 SuperGrok, 실제로 뭐가 다를까요? 공식 벤치마크 수치와 실사용 데이터를 같이 놓고 보니 생각보다 차이가 좁은 구간이 있었습니다. 어떤 조건일 때만 $270 차이가 납득되는지 직접 따져봤습니다.
$30과 $300, 숫자로 먼저 보겠습니다
SuperGrok Heavy는 월 $300, 연간 결제 옵션이 없습니다. 1년이면 $3,600입니다. 같은 기간 SuperGrok 스탠다드는 연간 $300, 즉 같은 돈으로 Heavy를 한 달 쓰거나, 스탠다드를 1년 내내 쓰거나가 됩니다. 이 숫자를 먼저 체감하지 않으면 나머지 비교는 의미가 없습니다.
경쟁 서비스와 놓고 보면 차이가 더 선명합니다. ChatGPT Plus는 월 $20, Claude Pro는 월 $20, Gemini Advanced도 월 $20입니다. SuperGrok은 $30, Heavy는 $300입니다. Heavy는 ChatGPT Plus의 15배, Claude Pro의 15배에 해당합니다. (출처: aitoolanalysis.com SuperGrok Subscription Price 2026, 2026.01.24)
단순히 비싸다는 게 아닙니다. 이 차이가 어떤 상황에서 납득되고, 어떤 상황에서는 전혀 합리화가 안 되는지를 보는 게 이 글의 핵심입니다.
Grok 4 Heavy가 이룬 것 — 공식 수치로만
Heavy에 탑재된 Grok 4 Heavy 모델의 벤치마크 수치는 실제로 인상적입니다. xAI 공식 발표 기준으로 정리하면 다음과 같습니다.
| 벤치마크 | Grok 4 Heavy | 비고 |
|---|---|---|
| AIME 2025 (수학 경시) | 100% | 전문 모델 최초 만점 |
| Humanity’s Last Exam | 50.7% | 50% 돌파 최초 모델 |
| USAMO 2025 (올림피아드) | 61.9% | 수학 증명 최고 성능 |
| HMMT 2025 | 96.7% | 경쟁 수학 최상위 |
(출처: xAI 공식 Grok 4 발표, x.ai/news/grok-4, 2025.07)
AIME 2025 100%는 그냥 숫자가 아닙니다. 기존 최고 모델들이 75~95%대에 머물던 시험에서 처음으로 전 문항을 맞혔다는 뜻입니다. 수학·과학 분야에서 검증 가능한 정답이 필요한 작업에서는 이 차이가 실질적으로 체감됩니다.
💡 공식 발표 수치와 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — Humanity’s Last Exam에서 Heavy(50.7%)와 일반 Grok 4(44.4%)의 격차는 6.3%p입니다. 단독 모델 기준으로 Heavy가 더 낫지만, 이 6%p가 월 $270의 값어치인지는 사용 목적에 따라 완전히 달라집니다.
단, 코딩 벤치마크는 다릅니다. SWE-bench(실제 코딩 태스크 해결률) 기준으로 Claude Opus 4.5가 80.9%를 기록하는 반면 Grok 4는 그보다 낮은 구간에 있습니다. 코딩이 주목적이라면 Heavy보다 Claude Pro($20)가 더 현실적인 선택일 수 있습니다. (출처: aitoolanalysis.com, 2026.01.24)
4.20 베타가 바꿔놓은 구도
여기서부터가 핵심입니다. 2026년 2월 17일, xAI는 Grok 4.20 Beta를 퍼블릭 베타로 공개했습니다. 이 모델의 가장 큰 특징은 멀티에이전트 구조입니다. Grok(캡틴), Harper(리서치), Benjamin(논리), Lucas(창의) — 4개의 전문화된 에이전트가 서로 토론하고 의견을 교환한 뒤 답변을 생성합니다.
그런데 이 4에이전트 시스템은 SuperGrok $30 플랜에서도 기본 접근이 가능합니다. Heavy 전용 기능이 아니라는 뜻입니다. Heavy에서는 최대 16개 에이전트 스웜(swarm)이 동작하지만, 복잡한 문장·논리 분석 대부분은 4에이전트 범위에서 이미 커버됩니다. (출처: Reddit r/singularity, Grok 4.20 Heavy 16 agents, 2026.02.18)
💡 실제로 $300 Heavy를 한 달 써본 사용자(Reddit r/grok, 2025.12.11)의 평가입니다 — “Heavy만의 장점은 이미지·영상 생성 한도와 Grok Heavy 텍스트 모델 두 가지뿐이었습니다. $300를 내면서 $30 대비 압도적인 체감을 느끼지는 못했고, 갱신은 하지 않았습니다.” 결국 그 사람도 $30 플랜으로 내려왔습니다.
4.20 베타 이전에는 Heavy만이 멀티에이전트 협업을 쓸 수 있었습니다. 그런데 베타 공개 이후 4에이전트가 스탠다드에도 풀리면서, Heavy의 실질 프리미엄이 에이전트 수(16개)와 컨텍스트 창(256K) 두 가지로 좁혀졌습니다.
Heavy가 $30보다 실제로 나은 3가지
무조건 비싸다고 나쁜 건 아닙니다. 아래 3가지는 Heavy에서만 확실히 다른 부분입니다.
4개 → 최대 16개로 확장됩니다. 단순 답변이 아니라 동시에 여러 가설을 검증해야 하는 연구·분석 작업에서 체감 차이가 납니다. 16개 에이전트가 각기 다른 방향으로 문제를 검토한 뒤 합의점을 내는 구조입니다. 복잡도가 높은 학술 분석이나 멀티스텝 프로젝트 계획에서 응답 품질이 다릅니다.
128K → 256K 토큰으로 두 배입니다. 128K는 약 250페이지 분량의 문서를 한 번에 처리하고, 256K는 500페이지가 됩니다. 법률 계약서 전체 검토, 수백 페이지 보고서 분석, 긴 코드베이스 리뷰처럼 문서량이 임계치를 넘는 작업에서만 이 차이가 직접 체감됩니다.
영상 렌더링 일일 한도가 스탠다드 100건 대비 Heavy는 500건입니다. 하루 100건 이상 AI 영상을 생성해야 하는 대규모 콘텐츠 프로덕션팀이라면 이게 핵심입니다. 단, 영상 품질을 720p로 올리면 실효 한도는 더 줄어듭니다. (출처: aitoolanalysis.com, 2026.01.24)
결론부터 말하면 — 이 세 가지 중 하나라도 일상 워크플로에서 병목이 되고 있다면 Heavy는 정당화됩니다. 그렇지 않다면 $270은 실제로 쓰이지 않는 기능에 대한 비용입니다.
Heavy를 쓰면 안 되는 상황도 있습니다
마케팅에서는 잘 안 나오는 부분인데, 2026년 2월을 기준으로 SuperGrok에는 구체적인 문제들이 있습니다. 이게 Heavy에도 동일하게 적용됩니다.
영상 생성에만 쓰려면 수학이 맞지 않습니다
720p 영상 생성 기준, 일일 실효 생성 건수는 약 10~15개입니다. Heavy 기준 월 $300 ÷ 30일 ÷ 15건 = 영상 1건당 약 $0.67입니다. 이 계산에는 콘텐츠 정책 위반으로 생성에 실패해도 쿼터를 소진하는 경우가 포함되지 않습니다. 실패 건수까지 더하면 실효 단가는 올라갑니다. 영상 생성만이 목적이라면 다른 도구를 검토하는 게 합리적입니다. (출처: aiveed.io, SuperGrok at $30/Month Is Getting Worse, 2026.02.23)
2026년 1월 이미지 사태의 여파가 남아있습니다
2025년 12월~2026년 1월 사이 xAI 이미지 생성 기능이 유해 콘텐츠 생성 문제로 국제 조사를 받았습니다. 인도, 말레이시아, 인도네시아, 아일랜드, 영국, 프랑스, 호주, EU 집행위원회 등 7개 기관·국가가 조사를 개시했습니다. 이후 콘텐츠 모더레이션이 대폭 강화되면서 마케팅 이미지, 교육용 사진 편집 같은 무관한 요청까지 차단되는 사례가 보고됩니다. 차단된 경우에도 쿼터는 소진됩니다. (출처: aitoolanalysis.com, 2026.01.24)
주의: 콘텐츠 정책 위반으로 생성이 차단되더라도 쿼터는 그대로 차감됩니다. xAI가 이 부분에 대한 공식 답변을 내놓지 않은 상태입니다.
코딩 작업이 주라면 경쟁사 대비 불리합니다
일론 머스크 본인도 X에서 코딩 분야에서는 경쟁사 대비 뒤처져 있음을 인정했습니다. (출처: X/@HoneyJamTesla, 2026.03.14) SWE-bench 기준 Claude Opus 4.5가 80.9%인데, Grok 4는 그 아래입니다. 코딩 에이전트 용도라면 $300보다 $20짜리 Claude Pro가 성능이 더 좋습니다.
요금제 전체 구조 한눈에
2026년 3월 기준 xAI 요금제 구조와 경쟁 서비스 비교입니다.
| 플랜 | 월 요금 | 모델 | 컨텍스트 | 에이전트 |
|---|---|---|---|---|
| 무료 (Grok Basic) | $0 | Grok 3 | 기본 | 없음 |
| X Premium+ | $40 | Grok 4 | 128K | 4개(베타) |
| SuperGrok | $30 | Grok 4 | 128K | 4개(베타) |
| SuperGrok Heavy | $300 | Grok 4 Heavy | 256K | 최대 16개 |
| Claude Pro (비교) | $20 | Opus 4.5 | 200K | — |
| ChatGPT Plus (비교) | $20 | GPT-5.2 | 128K | — |
(출처: aitoolanalysis.com SuperGrok Subscription Price 2026, fritz.ai Grok AI Pricing 2026)
눈에 띄는 부분이 하나 있습니다. SuperGrok $30이 X Premium+ $40보다 $10 저렴하면서도 AI 기능은 동일합니다. X 플랫폼 자체(파란 체크마크, 광고 제거, 크리에이터 수익화)가 필요 없다면 Heavy가 아니라 SuperGrok이 실질적으로 가장 합리적인 선택입니다.
Q&A — 자주 나오는 질문 5가지
마치며
SuperGrok Heavy가 $300짜리 값어치를 하는 상황은 생각보다 좁습니다. AIME 100%처럼 숫자 자체는 인상적이지만, 그 성능이 체감되는 실제 상황은 — 대규모 문서 처리(256K 초과), 하루 100건 이상 AI 영상 생성, 16개 에이전트가 필요한 연구 수준의 복잡 분석 — 이 세 가지 중 하나 이상이 실제 업무 병목인 경우로 좁혀집니다.
코딩이 주목적이라면 Claude Pro $20이 낫고, 이미지·영상만 원한다면 영상 특화 툴이 단가 면에서 유리하고, 일반적인 AI 어시스턴트 용도라면 SuperGrok $30으로도 Grok 4와 4에이전트 베타를 쓸 수 있습니다.
Heavy는 훌륭한 제품입니다. 하지만 매달 $300를 쓰기 전에 지금 실제로 어디서 막히고 있는지를 먼저 따져보는 게 맞습니다.
본 포스팅 참고 자료
- xAI 공식 Grok 4 발표 — https://x.ai/news/grok-4
- SuperGrok Subscription Price 2026 — aitoolanalysis.com
- SuperGrok at $30/Month Is Getting Worse (2026.02.23) — aiveed.io
- Reddit r/grok — SuperGrok Heavy AMA (2025.12.11) — reddit.com
- Reddit r/singularity — Grok 4.20 Heavy 16 agents (2026.02.18) — reddit.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. xAI는 요금제·기능·한도를 공지 없이 변경한 전례가 있으므로 최신 정보는 grok.com/plans에서 직접 확인하세요. 본 포스팅의 수치는 공식 발표 및 신뢰할 수 있는 1차 자료 기반이며, 추정치에는 “약” 또는 “추정”을 명시했습니다.











댓글 남기기