Grok 4.20 Beta / xAI API 기준
Grok 4.20 멀티 에이전트, 직접 써봤더니 비용이 달랐습니다
Grok 4.20 멀티 에이전트 베타가 2026년 2월 17일 공개됐습니다. 그런데 막상 써보려고 xAI 공식 문서를 뜯어봤더니, “싸다”는 표현이 조건부였습니다. 에이전트 수에 따라 토큰 소모가 기하급수적으로 커지는 구조가 문서에 딱 박혀 있었습니다.
Grok 4.20은 사실 새 모델이 아닙니다
xAI 공식 블로그(x.ai/news)에는 현재 Grok 4.20 전용 발표문이 없습니다. 공식 기록상 가장 최신 버전은 2025년 11월에 나온 Grok 4.1입니다. (출처: help.apiyi.com, 2026.02.17) 그러면 Grok 4.20은 어디서 온 걸까요?
💡 공식 API 문서와 실제 베타 출시 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
Grok 4.20은 완전히 새로운 기반 모델이 아니라, Grok 4.1의 에이전트 인스턴스를 4개 병렬 실행하는 시스템 아키텍처입니다. Reddit 분석 게시글에서 “Grok 4.20 is just four Grok 4.1 agents”라는 표현이 등장했고, xAI 공식 문서의 `grok-4.20-multi-agent` 모델명과 에이전트 수 설정 방식이 이를 뒷받침합니다. (출처: Reddit r/singularity, 2026.02.17 / xAI 공식 문서 docs.x.ai)
단일 모델보다 낫다는 주장은 이 병렬 토론 구조 덕분입니다. 에이전트들이 각자 추론하고 리더 에이전트가 종합하는 방식으로, 단일 포워드 패스에서 나오는 오류를 상호 검토로 잡아냅니다. 기반 파라미터는 그대로인데 정답률이 올라가는 셈입니다. Grok 4의 HLE(Humanity’s Last Exam) 50.7% 달성도 이런 멀티 에이전트 추론 방식의 연장선에 있습니다. (출처: x.ai/news/grok-4)
멀티 에이전트 구조, 공식 문서로 확인한 실제 작동 방식
xAI 공식 개발자 문서(docs.x.ai)에 멀티 에이전트 작동 방식이 명확하게 기술돼 있습니다. 핵심은 이겁니다. 쿼리가 들어오면 여러 에이전트가 동시에 실행되고, 리더 에이전트만 최종 응답을 사용자에게 반환합니다. 서브 에이전트의 중간 추론 과정과 툴 호출 결과는 암호화된 상태로만 포함됩니다.
각 에이전트가 할 수 있는 작업은 웹 검색(`web_search`), X 검색(`x_search`), 코드 실행(`code_execution`), 컬렉션 검색(`collections_search`) 등입니다. 이 내장 도구들은 에이전트가 자율적으로 호출 횟수를 결정합니다. 그게 중요한 포인트입니다. (출처: xAI 공식 문서 docs.x.ai/developers/model-capabilities/text/multi-agent)
| 에이전트 역할 | 담당 작업 | 공식 명칭 |
|---|---|---|
| 리더 에이전트 | 최종 답변 종합 및 반환 | Grok/Captain |
| 서브 에이전트 1 | 웹 검색 및 데이터 수집 | Harper |
| 서브 에이전트 2 | 데이터 분석 및 교차 검증 | Benjamin |
| 서브 에이전트 3 | 결과 종합 및 가설 검증 | Lucas |
출처: nextbigfuture.com (2026.02.17), xAI 공식 문서
실제로 써본 사람들의 반응은 갈립니다. 복잡한 리서치 쿼리에서는 단일 모델보다 훨씬 깊은 답변이 나오지만, 간단한 질문에도 4개 에이전트가 전부 돌아가며 응답 속도가 느려지는 경험이 많았습니다. (출처: Reddit r/ArtificialInteligence, 2026.03.11)
비용이 예상보다 많이 나오는 진짜 이유
Grok 4.20 멀티 에이전트 API의 표면 가격은 입력 토큰 1M당 $2, 출력 토큰 1M당 $6입니다. (출처: OpenRouter, 2026.03.12) Grok 4 기본 모델($3/$15)보다 확실히 쌉니다. 그런데 여기서 놓치면 안 되는 게 있습니다.
⚠️ 공식 문서에 그대로 쓰여 있는 내용입니다. “리더 에이전트와 서브 에이전트 모두가 소모하는 모든 토큰이 청구됩니다 — 입력, 출력, 추론 토큰 전부.” 그리고 “에이전트가 자율적으로 도구를 몇 번 호출할지 결정하므로, 단일 쿼리의 비용은 쿼리 복잡도에 따라 크게 달라집니다.” (출처: xAI 공식 문서 docs.x.ai/developers/models, 2026.03.22 기준)
이걸 수치로 풀어보면 이렇습니다. 단일 에이전트가 1,000토큰을 쓰는 쿼리를 4개 에이전트가 동시에 처리하면 최소 4,000토큰부터 시작합니다. 거기에 각 에이전트의 추론 토큰과 도구 호출까지 더해지면 실제 청구 토큰이 단일 모델 대비 10~20배까지 불어날 수 있습니다. $2/$6이라는 단가에 방심했다가 청구서 보고 놀라는 구조입니다.
도구 호출 비용도 따로 붙습니다. 웹 검색과 X 검색은 1,000회당 $5이고, 파일 첨부 검색은 1,000회당 $10입니다. (출처: xAI 공식 문서 docs.x.ai/developers/models) 여러 에이전트가 각자 독립적으로 도구를 호출하면, 도구 비용만으로도 예산을 초과하는 시나리오가 실제로 발생합니다.
4개 vs 16개 에이전트, 어떻게 골라야 할까요
공식 문서에 두 가지 설정이 명시돼 있습니다. 4개 에이전트는 `agent_count=4`, 16개 에이전트는 `agent_count=16`으로 지정합니다. OpenAI SDK 호환 방식에서는 `reasoning.effort`를 “low”/”medium”으로 넣으면 4개 에이전트, “high”/”xhigh”로 넣으면 16개 에이전트가 됩니다. (출처: xAI 공식 문서)
💡 공식 문서 권장 사용 패턴을 실제 시나리오에 대입해보니 선택 기준이 뚜렷했습니다.
4개 에이전트: 빠른 조사, 집중 쿼리 — “빠른 리서치와 집중 질문에는 4개 에이전트를 사용하세요.”
16개 에이전트: 심층 리서치, 복잡한 다면 주제 — “심층 리서치와 복잡한 다면 주제에는 16개 에이전트를 사용하세요.”
(출처: xAI 공식 문서 docs.x.ai/developers/model-capabilities/text/multi-agent)
현실적으로는 16개 에이전트가 부담스러운 경우가 많습니다. 토큰 소모가 4개 에이전트 대비 기하급수적으로 늘어납니다. 단순 계산만 해도 같은 쿼리에 16개 에이전트가 붙으면 최소 4배 이상의 토큰이 소모됩니다. 문서에 “더 많은 에이전트는 더 깊고 철저한 리서치를 제공하지만 토큰 사용량과 응답 지연이 증가합니다”라고 직접 나와 있습니다. 대부분의 실사용 시나리오에서 4개 에이전트부터 시작하고 필요할 때만 16개로 올리는 방식이 합리적입니다.
OpenAI SDK로 그냥 연결하면 막히는 이유
기존에 OpenAI API 방식으로 xAI를 연결해 쓰던 개발자라면 주의할 점이 있습니다. Grok 4.20 멀티 에이전트 모델은 OpenAI Chat Completions API를 지원하지 않습니다. xAI SDK의 Responses API를 통해서만 사용할 수 있습니다. 이 내용은 공식 문서에 제한 사항으로 명시돼 있습니다. (출처: xAI 공식 문서 docs.x.ai, 제한 사항 섹션)
클라이언트 사이드 커스텀 도구(함수 호출 방식)도 현재 지원하지 않습니다. `web_search`, `x_search` 등 xAI 내장 도구와 원격 MCP 도구만 가능합니다. `max_tokens` 파라미터도 무시됩니다. 기존 단일 모델 프로젝트를 멀티 에이전트로 마이그레이션하려면 SDK 전환과 코드 수정이 필요하다는 뜻입니다.
💡 같은 “Grok 4.20” 이름 아래에도 단일 에이전트와 멀티 에이전트가 별도 모델 ID로 분리돼 있습니다.
단일 에이전트: grok-4.20-beta
멀티 에이전트: grok-4.20-multi-agent
무심코 멀티 에이전트 모델을 단일 에이전트처럼 쓰려다 API 오류를 만나는 사례가 실제로 보고됩니다. (출처: xAI 공식 문서)
Grok 4.20이 실제로 강한 영역 vs 과장된 부분
강점으로 실제 데이터가 붙는 부분을 먼저 봅니다. Alpha Arena Season 1.5 라이브 주식 트레이딩 대회에서 Grok 4.20 변형 모델 4개가 상위 6위 안에 들었고, 유일하게 수익을 낸 모델이었습니다. 약 +34.59%의 수익률을 기록했고, GPT-5와 Gemini 3 Pro는 손실을 기록했습니다. (출처: nextbigfuture.com, 2026.02.17) 실시간 X 데이터 스트림 접근이 이 특수한 영역에서 구조적 우위를 만든다고 볼 수 있습니다.
ForecastBench 글로벌 AI 예측 리더보드에서는 2위를 기록했습니다. GPT-5, Gemini 3 Pro, Claude Opus 4.5를 앞선 수치입니다. 예측 추론 능력은 실제로 경쟁력 있는 영역입니다. (출처: nextbigfuture.com)
반면 과장된 부분도 있습니다. 머스크가 X에서 “코딩 성능에서 경쟁사에 뒤처져 있다”고 직접 인정했습니다. (출처: X @HoneyJamTesla, 2026.03.14) 한국어 처리 품질에 대한 공식 벤치마크도 없고, 실사용 후기에서 한국어 응답의 할루시네이션이 여전하다는 지적이 나옵니다. 그리고 한 가지 더, 지식 컷오프 날짜가 2024년 11월입니다. 도구 없이는 2024년 11월 이후 정보를 모릅니다. (출처: xAI 공식 문서 docs.x.ai)
| 구분 | 강점 | 한계 |
|---|---|---|
| 리서치 | 멀티 에이전트 심층 조사 | 비용 예측 어려움 |
| 실시간성 | X 데이터 실시간 접근 | 도구 없으면 2024.11 이후 모름 |
| 코딩 | 복잡한 엔지니어링 질문 | 경쟁사 대비 뒤처짐 (머스크 인정) |
| 한국어 | – | 공식 벤치마크 없음 |
| API 호환성 | xAI SDK 환경에서 안정적 | OpenAI Chat Completions 불가 |
자주 나오는 질문
마치며
Grok 4.20 멀티 에이전트는 꽤 영리하게 설계된 시스템입니다. 기반 모델은 그대로 두고 에이전트를 병렬로 돌려서 정확도를 높이는 방식은, 새 모델을 처음부터 학습시키는 것보다 빠르게 성능을 올리는 실용적인 선택입니다.
다만 비용 구조는 표면 단가만 보고 판단하면 안 됩니다. 모든 에이전트의 모든 토큰이 청구된다는 공식 문서의 표현을 가볍게 보다가 예산을 초과하는 사례가 생깁니다. 도구 호출 비용까지 합산하면 단일 복잡한 쿼리 하나가 생각보다 훨씬 비쌀 수 있습니다. 써보기 전에 사용량 모니터링부터 설정해두는 게 맞습니다.
실시간 X 데이터 접근과 예측 추론 영역에서의 경쟁력은 실제 데이터로 뒷받침됩니다. 트레이딩, 뉴스 분석, 실시간 트렌드 파악 같은 용도라면 Grok 4.20이 다른 모델보다 구조적으로 유리한 건 맞습니다. 반면 코딩과 한국어 처리에서는 아직 기대만큼은 아닙니다. 머스크 본인도 그렇게 말했습니다.
본 포스팅 참고 자료
- xAI 공식 멀티 에이전트 개발자 문서 — https://docs.x.ai/developers/model-capabilities/text/multi-agent
- xAI 모델 및 가격 공식 문서 — https://docs.x.ai/developers/models
- xAI Grok 4 공식 발표문 — https://x.ai/news/grok-4
- OpenRouter Grok 4.20 멀티 에이전트 베타 가격 — https://openrouter.ai/x-ai/grok-4.20-multi-agent-beta
- Grok 4.20 4-에이전트 협업 분석 — nextbigfuture.com (2026.02.17)
본 포스팅 작성 이후 xAI의 서비스 정책·UI·가격·기능이 변경될 수 있습니다. Grok 4.20은 현재 베타 상태이며 API 인터페이스가 최종 확정되지 않았습니다. 작성 기준일: 2026년 3월 22일 / Grok 4.20 Beta (grok-4.20-multi-agent) 기준.


댓글 남기기