Grok 4.20 Beta
SuperGrok $30/월 필요
Grok 4.20 멀티에이전트, 뇌가 4개면 더 똑똑할까요?
xAI가 2026년 2월 17일 공개한 Grok 4.20은 AI 하나가 답하던 방식을 버리고, 4개의 전문 에이전트가 동시에 토론해 결론을 내놓는 구조로 바꿨습니다. “뇌가 4개니까 당연히 더 낫겠지”라는 기대, 실제 수치 앞에서 꽤 흔들립니다.
Grok 4.20 멀티에이전트란 무엇인가
xAI가 2026년 2월 17일 iOS·Android·Web 세 플랫폼에 동시 출시한 Grok 4.20 Beta는 단일 모델이 답변을 생성하던 기존 방식과 구조 자체가 다릅니다. 사용자가 질문을 입력하면 Grok, Harper, Benjamin, Lucas라는 이름의 4개 에이전트가 동시에 작동하고, 서로 검증하고 반박한 뒤 하나의 답변으로 합쳐 내보냅니다. 인터페이스 겉으로는 일반 챗봇처럼 보이지만, 추론 레이어 안에서는 4개의 관점이 병렬로 충돌하는 구조입니다.
이전 버전인 Grok 4.1이 2025년 11월 출시된 지 딱 3개월 만에 나온 업데이트입니다. xAI의 개발 속도가 공식적으로 가속되고 있다는 신호이기도 합니다. 다만 지금 출시된 Grok 4.20 Beta는 500B 파라미터 규모의 “소형” 변형이고, 전체 모델은 아직 학습 중입니다. API 공개도 2026년 3월 11일에야 이뤄졌습니다. (출처: xAI API 공식 발표, 2026.03.11)
접근하려면 SuperGrok 구독($30/월) 또는 X Premium+가 필요합니다. 무료 플랜에서는 Grok 4.20의 4-에이전트 기능을 쓸 수 없고, 공식 채널에서 무료 접근을 확인해 주지 않았습니다.
4개 에이전트가 실제로 하는 일
에이전트마다 역할이 나뉘어 있습니다. Grok(코디네이터)은 전체 대화 흐름을 유지하고 다른 에이전트가 내놓은 결과를 통합합니다. Harper(리서치 전문가)는 실시간 웹 검색과 X 플랫폼 데이터를 뒤져 팩트를 검증합니다. Benjamin(기술 전문가)은 수학·코딩·논리 추론을 담당합니다. Lucas(크리에이티브 전문가)는 창의적 관점과 대안적 시각을 추가해 답변의 균형을 맞춥니다. (출처: adwaitx.com Grok 4.20 Beta 공식 분석, 2026.02.18)
💡 공식 API 문서와 실제 서비스 화면을 함께 보니 이런 차이가 보였습니다.
사용자 화면에는 4개 에이전트의 내부 토론이 노출되지 않습니다. 최종 답변만 보입니다. 즉, 에이전트들이 어떻게 의견을 조율하는지는 결과만으론 확인할 수 없고, xAI가 공식 이유를 밝히지 않은 부분입니다.
4개 에이전트는 사용자가 수동으로 선택하는 것이 아니라, 복잡도가 충분한 질문이라면 자동으로 모두 작동합니다. 단순 질의응답보다 다단계 분석, 금융 데이터 해석, 코드 리뷰처럼 여러 관점이 필요한 작업에서 이 구조의 이점이 나옵니다. Alpha Arena(AI 모델이 실제 자본으로 주식 거래를 하는 시뮬레이션 플랫폼)에서 Grok 4.20이 상위 6개 모델 중 4개를 차지하며 유일하게 수익을 낸 것은 이 병렬 분석 구조가 실제 의사결정에서 작동했다는 사례입니다. (출처: adwaitx.com, 2026.02.18)
| 에이전트 | 전담 영역 | 핵심 역할 |
|---|---|---|
| Grok | 전체 조율 | 대화 맥락 유지 + 최종 통합 |
| Harper | 리서치·팩트체크 | 실시간 웹·X 데이터 검색·검증 |
| Benjamin | 수학·코딩·논리 | 기술 정확도 담당 |
| Lucas | 창의·균형 | 대안 관점·창작 콘텐츠 |
벤치마크 수치로 본 실력 — 기대와 다른 부분
xAI는 세계 최대 규모의 20만 GPU 클러스터(Colossus)를 운영 중이고, Grok 4를 학습할 때 훈련 컴퓨트 효율을 6배 개선했다고 밝혔습니다. 그래서 “컴퓨트 최강 xAI니까 Grok 4.20도 당연히 상위권”이라는 기대가 자연스러웠습니다. 막상 수치를 보면 얘기가 좀 달라집니다.
💡 공식 벤치마크와 Grok 4.20의 실제 수치를 나란히 놓으니 이런 차이가 보였습니다.
Artificial Analysis의 공식 측정(2026.03.12)은 Grok 4.20을 단일 에이전트 모드로 평가했습니다. 서비스 기본값이 4-에이전트 모드임에도 불구하고, 벤치마크 수치는 이를 반영하지 않았습니다. 즉 우리가 비교표에서 보는 Grok 4.20의 점수는 실제 사용 상태와 다른 조건의 수치입니다.
ARC-AGI-2는 순수 논리 추론력을 테스트하는 벤치마크로, 학습 데이터 암기로는 풀 수 없도록 설계됩니다. 여기서 Grok 4.20의 추정치는 약 16%입니다. 같은 시점 Gemini 3.1 Pro가 77.1%, Claude Opus 4.6이 68.8%를 기록한 것과 비교하면, 컴퓨트 규모와 실제 추론 점수 사이의 간극이 눈에 띕니다. (출처: Design for Online, 2026.03.14 / 벤치마크 비교표)
코딩 분야인 SWE-Bench Verified(실제 GitHub 이슈를 AI가 해결하는 테스트)에서 Claude Opus 4.6이 80.8%로 선두인 반면, Grok 4.20은 72~75% 추정에 머뭅니다. 약 6~8%p 격차입니다. 코딩 전담 에이전트(Benjamin)가 있음에도 전문 코딩 모델 대비 뒤처진다는 점은 구조 자체가 성능 보증이 아님을 보여줍니다.
| 벤치마크 | Grok 4.20 | Claude Opus 4.6 | Gemini 3.1 Pro |
|---|---|---|---|
| ARC-AGI-2 (순수 추론) | 약 16%† | 68.8% | 77.1% |
| GPQA Diamond (PhD 수준) | 약 88%† | 91.3% | 94.3% |
| SWE-Bench Verified (코딩) | 72~75%† | 80.8% | 80.6% |
| Arena Elo (실시간 거래) | 1,505~1,535 | — | — |
† Grok 4.20 공식 벤치마크는 2026.03 기준 미공개. Grok 4 기준선 추정치. (출처: Design for Online, 2026.03.14)
단, Grok 4.20이 앞서는 영역이 있습니다. 환각률(Hallucination Rate)이 동급 모델 중 가장 낮다는 커뮤니티 데이터가 있고 (출처: Reddit r/singularity, 2026.03.12), 실시간 금융 데이터 해석에서는 Alpha Arena 1위를 기록했습니다. 모든 작업에서 뒤처지는 것이 아니라, 영역별로 강점과 약점이 명확하게 갈립니다.
2M 토큰 컨텍스트, 숫자가 전부가 아닌 이유
Grok 4.20은 최대 200만(2M) 토큰 컨텍스트 창을 지원합니다. 경쟁사 Claude Opus 4.6의 기본 컨텍스트(200K)의 10배 수치고, 숫자만 보면 압도적입니다. 그런데 이 2M 토큰은 4개 에이전트가 전부 공유합니다.
💡 공식 아키텍처 문서와 실제 에이전트 설계를 교차해서 보니 이런 구조가 보였습니다.
4개 에이전트가 동시에 2M 토큰을 소비하는 구조라면, 각 에이전트가 실질적으로 활용할 수 있는 토큰은 단순 계산 시 평균 약 500K 수준입니다. 물론 에이전트가 완전히 균등하게 토큰을 나누지는 않겠지만, “2M 컨텍스트가 전부 내 문서 분석에 쓰인다”는 기대와 실제 동작 사이에는 거리가 있습니다. (출처: adwaitx.com 기술 아키텍처 분석, 2026.02.18)
또 한 가지. xAI의 공식 발표에서 2M 컨텍스트는 “select API versions”에서만 지원됩니다. 표준 구성에서는 256K 토큰이 기본입니다. (출처: adwaitx.com Grok 4.20 Agents Explained, 2026.02.18) SuperGrok 구독만으로 자동으로 2M이 활성화되는 것이 아니라, API 요청 방식에 따라 달라진다는 점도 감안해야 합니다. OpenRouter를 통해 접근할 경우 컨텍스트 설정을 별도로 확인해야 합니다. (출처: OpenRouter Grok 4.20 Multi-Agent Beta 페이지, 2026.03.12)
컨텍스트 창 비교 (2026.03 기준)
| 모델 | 기본 컨텍스트 | 최대 컨텍스트 | 비고 |
|---|---|---|---|
| Grok 4.20 | 256K | 2M | 4에이전트 공유 |
| Claude Opus 4.6 | 200K | 1M (Beta) | 단일 모델 |
| Gemini 3.1 Pro | 1M | 1M | 단일 모델, 정식 |
(출처: Design for Online 벤치마크 비교표, 2026.03.14 / adwaitx.com, 2026.02.18)
비용으로 계산하면 달라지는 그림
성능 순위에서 밀리는 것과 별개로, 가격 대비 성능 측면에서는 Grok 4.20이 다시 경쟁력을 회복합니다. API 가격은 입력 토큰 $2/M, 출력 토큰 $6/M입니다. (출처: xAI API 공식 발표, 2026.03.11) 이걸 경쟁 모델과 직접 계산해 보면 차이가 큽니다.
💰 월 2,500만 토큰 사용 시 API 비용 직접 계산 (입출력 7:3 비율 기준)
| 모델 | 입력단가 | 출력단가 | 월 예상 비용 |
|---|---|---|---|
| Grok 4.20 | $2.00 | $6.00 | 약 $80 |
| Gemini 3.1 Pro | $2.00 | $12.00 | 약 $125 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 약 $165 |
| Claude Opus 4.6 | $5.00 | $25.00 | 약 $275 |
(출처: Design for Online API 가격 비교, 2026.03.14 / xAI API 공식)
Opus 4.6과 비교하면 같은 토큰 사용량에서 Grok 4.20이 약 3.4배 저렴합니다.
Reddit 커뮤니티에서 “Claude Opus 4.5 수준의 성능을 훨씬 싼 가격에 쓸 수 있다”는 평가가 나오는 이유가 여기 있습니다. (출처: Reddit r/singularity, 2026.03.12) 최고 정확도가 필요한 작업이 아니라면, 비용 효율 측면에서 Grok 4.20은 실질적인 선택지입니다.
실제로 어떤 상황에서 쓸 만한가
솔직히 말하면, Grok 4.20은 “모든 걸 잘하는 최강 모델”보다는 특정 상황에 딱 맞는 도구에 가깝습니다. 지금 상태(2026년 3월 기준)에서 실제로 유리한 케이스는 꽤 구체적입니다.
✓실시간 데이터가 중요한 작업
Harper 에이전트가 X 플랫폼과 웹을 실시간으로 뒤지는 구조 덕분에, 금융 뉴스 요약·현재 시장 동향 분석처럼 “지금 이 순간”의 정보가 중요한 작업에서 강점이 나옵니다.
✓비용이 중요한 대량 처리 파이프라인
월 수천만 토큰 이상을 처리하는 프로덕션 환경에서, Opus 4.6 대비 3배 이상 낮은 단가는 운영 비용 차이를 크게 만듭니다. API는 OpenRouter(2026.03.12 공개)를 통해서도 접근 가능합니다.
✓멀티 관점 분석이 필요한 리서치
복잡한 사안에 대해 “반론과 지지 의견을 동시에 검토”해 달라는 작업에서, 4개 에이전트가 서로 다른 관점을 제시하고 내부적으로 교차 검증하는 구조가 실제로 작동합니다.
⚠️ 이 상황엔 다른 모델이 낫습니다
- 복잡한 코드베이스 전체를 분석할 때 — SWE-Bench 수치 기준 Claude Opus 4.6 또는 GPT-5.3 Codex가 앞섭니다.
- ARC-AGI-2형 순수 논리 추론 — 16% 대 77%의 차이는 무시하기 어렵습니다.
- 정밀 과학 계산 — GPQA Diamond에서도 Gemini 3.1 Pro(94.3%), Claude Opus 4.6(91.3%)에 못 미칩니다.
- Grok 5를 기다리는 게 나은 판단일 수도 — 지금 Grok 4.20은 500B 소형 모델이고, 전체 모델은 아직 학습 중입니다.
자주 묻는 것들
마치며 — 4개 뇌의 실체
Grok 4.20 멀티에이전트는 분명 새로운 구조를 들고 나왔습니다. 4개 에이전트가 병렬로 토론하고 내부 검증을 거친다는 아키텍처는 기존 챗봇과 개념적으로 다릅니다. 실시간 데이터 분석과 금융 판단에서 경쟁 모델을 누른 것도 사실입니다.
하지만 막상 수치를 꺼내 보면, ARC-AGI-2 약 16%, SWE-Bench 72~75%, GPQA Diamond 약 88%는 동급 최고 모델들과 비교해 한 단계 아래입니다. 2M 토큰 컨텍스트도 4개 에이전트가 함께 씁니다. 현재 출시된 것은 500B 소형 변형이고, 풀 모델은 아직 학습 중입니다.
결론은 간단합니다. API 기준 Claude Opus 4.6 대비 2.5배 싼 가격에 준수한 성능을 원한다면 Grok 4.20은 지금 당장 쓸 수 있는 선택지입니다. 최고 정확도가 필요한 코딩이나 추론이라면 아직은 다른 모델이 앞섭니다. “뇌가 4개면 더 똑똑하다”는 말, 어떤 기준으로 재느냐에 따라 답이 달라집니다.
본 포스팅 참고 자료
- Grok 4.20 Beta Multi-Agent Features — adwaitx.com (2026.02.18)
- The Best AI Models So Far in 2026 — Design for Online (2026.03.14)
- Grok 4.20 Multi-Agent Beta — OpenRouter (2026.03.12)
- Grok 4.2는 Grok 4 Heavy의 보급판인가 — 브런치 (2026년)
- Grok 4.20 Beta 0309 Reasoning Artificial Analysis score — Reddit r/singularity (2026.03.12)
본 포스팅은 2026년 3월 23일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. AI 모델의 벤치마크 수치와 가격은 업데이트에 따라 달라질 수 있으므로, 중요한 의사결정 전 공식 자료에서 최신 내용을 반드시 확인하세요.


댓글 남기기