xAI 공식 릴리스노트 기반
Grok 4.20 멀티에이전트,
4가지 수치로 확인했습니다
Grok 4.20이 “환각률 65% 감소”를 앞세워 등장했습니다. 실제로 xAI 공식 릴리스노트에 따르면 2026년 3월 10일 API 정식 출시가 이뤄졌고, 4개의 AI 에이전트가 동시에 토론한 후 답변을 내놓는 구조입니다. 그런데 벤치마크 순위표를 펼쳐보면 ARC-AGI-2에서 약 16%로 Gemini 3.1 Pro(77.1%)에 한참 뒤집니다. “가장 환각이 적다”는 모델이 왜 벤치마크 하위권일까요? 4가지 공식 수치를 직접 들여다봤습니다.
4개 에이전트가 토론하는 구조, 실제로 어떻게 작동할까요
Grok 4.20의 핵심은 단순히 “더 큰 모델”이 아닙니다. xAI 공식 문서(docs.x.ai/developers/model-capabilities/text/multi-agent, 2026.03.10 기준)에는 “다중 AI 에이전트가 실시간으로 협력하여 심층 멀티스텝 리서치를 수행한다”고 명시돼 있습니다. 같은 모델 가중치를 공유하는 4개의 전문화된 에이전트가 병렬로 작동하는 구조입니다.
각 에이전트의 역할은 분명하게 나뉩니다. Grok(Captain)은 질문을 세부 과제로 분해하고 최종 답변을 합성합니다. Harper(Researcher)는 X(트위터) 실시간 피드와 웹을 검색해 최신 사실을 수집합니다. Benjamin(Analyst)은 수학적 계산과 코드 로직을 단계별로 검증합니다. Lucas(Contrarian)는 나머지 세 에이전트의 주장에 반론을 제기하는 역할입니다. Lucas의 존재가 핵심인데, 다른 에이전트들이 같은 결론으로 수렴하려 할 때 “그게 정말 맞는지 확인했습니까?”라고 반문하도록 설계됐습니다.
사용자는 이 4개 에이전트의 토론 과정을 볼 수 없습니다. xAI 문서에 “서브에이전트의 중간 추론과 도구 호출은 암호화된다”고 나와 있습니다. 최종 답변만 전달받는 구조입니다.
환각률 65% 감소, 공식 수치가 말하는 진짜 의미
xAI가 공개한 수치에 따르면 Grok 4.20의 환각률은 Grok 4.1의 약 12%에서 약 4.2%로 줄었습니다. 정확히 65% 감소입니다. (출처: AI Maker Substack, 2026.02.24 — xAI 내부 측정치 인용) 한 에이전트가 사실을 꾸며내면 다른 에이전트가 잡아낸다는 교차 검증 구조 덕분입니다.
💡 공식 발표문과 실제 벤치마크 결과를 같이 놓고 보니 이런 차이가 보였습니다.
환각률 65% 감소는 Grok 4.1 대비 내부 비교치입니다. 절댓값으로 보면 여전히 4.2%의 환각이 발생합니다. 반면 MIT 연구팀이 실험한 멀티에이전트 토론 방식은 3개 에이전트 2라운드 기준 산술 정확도를 70%→95%로 끌어올렸습니다. (출처: MIT News, 2023) 방향은 같지만 체급이 다릅니다.
이 수치가 실용적으로 의미하는 건 간단합니다. 리서치·분석·전략 수립처럼 정확도가 속도보다 중요한 작업에서 Grok 4.20은 다른 단일 모델보다 신뢰할 수 있는 답변을 줄 가능성이 높습니다. 반대로 빠른 초안 작성이나 간단한 Q&A에서는 멀티에이전트 오버헤드가 오히려 느린 응답만 만들어냅니다.
벤치마크 꼴찌인데 실전 트레이딩에서 혼자 수익 낸 이유
Design for Online®의 2026년 2월 AI 모델 비교 리포트(2026.03.14 업데이트)에 따르면, Grok 4.20의 ARC-AGI-2 점수는 약 16%로 Gemini 3.1 Pro(77.1%), Claude Opus 4.6(68.8%)과 비교해 현저히 낮습니다. 순수한 논리 추론 능력 측면에서는 최하위권입니다.
| 모델 | ARC-AGI-2 | GPQA Diamond | Arena Elo |
|---|---|---|---|
| Gemini 3.1 Pro | 77.1% | 94.3% | — |
| Claude Opus 4.6 | 68.8% | 91.3% | — |
| GPT-5.3 Codex | 52.9% | 92.4% | — |
| Grok 4.20 | ~16%† | ~88%† | 1,505~1,535 실전 유일 수익 |
| † 공식 벤치마크 미공개, Grok 4 기준 추정치 (출처: designforonline.com, 2026.03.14) | |||
💡 벤치마크와 실전이 이렇게 벌어진 이유가 있습니다.
Alpha Arena(실제 자금 운용 AI 경쟁)에서 Grok 4.20은 참가 모델 중 유일하게 플러스 수익을 냈고, 상위 6개 자리 중 4개를 Grok 4.20 변형 모델이 차지했습니다. (출처: Design for Online, 2026.03.14) Harper 에이전트가 X(트위터) 피드를 실시간으로 읽어 시장 반응을 추적한 덕분입니다. 수학 문제 맞히기와 실시간 정보를 활용한 의사결정은 완전히 다른 능력입니다.
다시 말해, Grok 4.20이 잘하는 건 “정해진 정답이 없는 복잡한 실세계 문제”입니다. ARC-AGI-2처럼 순수 논리 퍼즐에서는 약하지만, 최신 정보와 다각도 분석이 필요한 곳에서는 다른 모델이 하기 어려운 역할을 합니다.
API 쓰려다 막히는 조건이 있습니다
Grok 4.20의 멀티에이전트 모드를 API로 연동하려면 반드시 알아야 할 제한사항이 세 가지 있습니다. xAI 공식 문서(docs.x.ai/developers/model-capabilities/text/multi-agent, 2026.03.10 기준)에 명시된 내용입니다.
GPT와 동일한 API 규격으로 연동하려면 안 됩니다. xAI SDK 또는 Responses API만 사용 가능합니다.
직접 만든 function calling 도구는 멀티에이전트 모드에서 작동하지 않습니다. web_search, x_search 등 xAI 기본 제공 도구만 씁니다.
출력 토큰 상한을 직접 제어할 수 없습니다. 비용 상한 예측이 어렵습니다.
또 하나 중요한 사실이 있습니다. 멀티에이전트 모드는 이미 무료 사용자에게 제한됐습니다. Reddit r/grok 커뮤니티(2026년 3월 기준)에서 다수 사용자가 “무료 플랜에서 멀티에이전트 옵션이 사라졌다”고 보고했습니다. xAI가 공식 이유를 별도로 밝히지 않은 부분입니다. 멀티에이전트의 높은 연산 비용을 감안하면 유료 플랜 전환 유도로 해석할 수 있습니다.
모델 ID는 정확히 이렇게 씁니다
xAI API에서 멀티에이전트를 호출할 때 모델 이름은 grok-4.20-multi-agent입니다. Oracle OCI Generative AI 서비스에서는 xai.grok-4.20-0309-reasoning, xai.grok-4.20-multi-agent-0309 형식을 씁니다. (출처: Oracle OCI 릴리스노트, 2026.03.24)
비용은 4배가 아니라 1.5~2.5배입니다 — 그 이유
4개의 에이전트가 동작하니까 당연히 비용도 4배 아닐까요? 막상 해보면 다릅니다. xAI 내부 자료 및 기술 분석(AI Maker Substack, 2026.02.24)에 따르면 실제 추론 비용은 단일 에이전트 대비 1.5~2.5배 수준입니다. 4배가 아닌 이유는 네 가지입니다.
💡 같은 가중치 공유 구조라는 점을 공식 문서와 기술 분석 자료를 교차해 보니 비용 구조가 달리 보였습니다.
4개의 별개 모델을 각각 실행하는 기존 멀티에이전트(AutoGen, CrewAI 등) 방식은 비용이 4배지만, Grok 4.20은 하나의 모델 가중치를 4개의 “페르소나 헤드”가 공유합니다. 입력 컨텍스트를 한 번만 처리하고, KV 캐시를 에이전트 간에 공유하며, 병렬 처리로 지연 시간도 줄입니다.
그러나 멀티에이전트 특성상 모든 에이전트(리더 + 서브에이전트)가 소비하는 입력·출력·추론 토큰이 모두 과금됩니다. 서브에이전트가 병렬로 도구를 호출하면 도구 호출 비용도 여러 번 청구됩니다. (출처: xAI 공식 가격 문서, docs.x.ai/developers/models, 2026.03.10) 복잡한 쿼리 하나에 웹 검색 도구를 10번 호출하면 $0.05(1k 호출당 $5 기준)가 추가됩니다.
에이전트 4개 vs. 16개, 선택 기준은 이것입니다
xAI 공식 문서는 명확하게 구분합니다. “빠른 리서치와 단일 주제 쿼리에는 4개 에이전트, 심층 리서치와 복잡한 다면적 주제에는 16개 에이전트를 써라.” API에서는 agent_count 파라미터로 4 또는 16을 선택합니다. OpenAI SDK 호환 방식에서는 reasoning.effort를 “low”/”medium”(4개) 또는 “high”/”xhigh”(16개)로 씁니다. (출처: xAI 공식 문서)
SuperGrok $30 vs Heavy $300, 어떤 경우에만 Heavy가 필요할까요
Grok 4.20에는 두 가지 구독 티어가 있습니다. SuperGrok($30/월)은 4개 에이전트 기본 모드를 제공하고, SuperGrok Heavy($300/월)는 16개 에이전트로 확장됩니다. 가격 차이가 10배인데 성능 차이도 10배일까요? 그렇지 않습니다.
| 구분 | SuperGrok $30/월 |
SuperGrok Heavy $300/월 |
|---|---|---|
| 에이전트 수 | 4개 | 16개 |
| 적합한 용도 | 일반 리서치, 분석, 코딩 | 학술 연구, 복합 전략, 다도메인 분석 |
| 응답 속도 | 빠름 | 더 느림 |
| API 월정액 별도 여부 | 구독과 API 과금은 별개 — 구독해도 API 토큰은 따로 과금 | |
16개 에이전트가 실질적으로 필요한 상황은 좁습니다. 여러 학문 영역을 동시에 분석하거나, 수십 개 소스를 교차 검증해야 하는 학술 리서치, 또는 “최대한 깊이”가 요구되는 기업 전략 수립 정도입니다. 일반 개발자나 콘텐츠 제작자가 매달 $300를 쓸 필요는 없습니다. 솔직히 말하면, SuperGrok $30에서 충분한 경우가 대부분입니다.
💡 구독과 API 과금이 분리돼 있다는 점을 놓치기 쉽습니다.
ChatGPT Plus 구독이 API 요금을 포함하지 않듯, SuperGrok 구독도 API 토큰 요금과 완전히 별개입니다. 챗 인터페이스 사용에는 구독료, API 빌드에는 별도 토큰 과금 두 가지를 동시에 납부해야 합니다. (출처: designforonline.com, 2026.03.14)
Q&A 5가지
마치며
Grok 4.20을 정리하면 이렇습니다. 벤치마크 최상위 모델은 아니고, 아직 베타 딱지를 완전히 뗀 것도 아닙니다. 그런데 환각률 65% 감소와 실전 트레이딩 유일 수익이라는 두 수치는 기존 모델들과 결이 다릅니다. “더 스마트한 단일 모델 만들기” 경쟁에서 벗어나 “서로 검증하는 팀 구조”로 방향을 바꾼 첫 번째 주류 제품입니다.
이 부분이 좀 아쉬웠습니다. Chat Completions API 미지원, 클라이언트 커스텀 도구 미지원, max_tokens 미지원이라는 세 가지 제한이 개발자 진입 장벽을 높입니다. 기존 GPT 기반 파이프라인을 그대로 이식할 수 없고, 도구 생태계도 아직 얇습니다.
결론부터 말씀드리면, X 실시간 데이터가 필요한 리서치와 다면적 분석에는 써볼 만합니다. 순수 코딩이나 논리 문제라면 현재 벤치마크 기준으로 Claude Opus 4.6이 더 안정적입니다. API 정식 출시와 전체 모델 학습 완료가 예정된 Q2 2026 이후에 성능이 얼마나 올라오는지 지켜봐야 할 모델입니다.
본 포스팅 참고 자료
- xAI 공식 릴리스노트 — https://docs.x.ai/developers/release-notes
- xAI Multi-agent 공식 문서 — https://docs.x.ai/developers/model-capabilities/text/multi-agent
- Oracle OCI Generative AI xAI Grok 4.20 릴리스노트 — https://docs.oracle.com/iaas/releasenotes/generative-ai/xAI-grok-4-20.htm
- Design for Online® 2026년 2월 AI 모델 비교 — https://designforonline.com/the-best-ai-models-so-far-in-2026/
- AI Maker Substack, Grok 4.20 멀티에이전트 분석 — https://aimaker.substack.com/p/grok-4-20-multi-agent-ai-debate-llm-council
본 포스팅은 2026년 3월 27일 기준으로 작성됐습니다. xAI Grok 4.20은 현재 베타 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. API 인터페이스는 공식 문서에 “최종 확정 전이며 변경될 수 있다”고 명시돼 있습니다. 중요한 의사결정 전 xAI 공식 문서를 반드시 확인하세요.

댓글 남기기