2026.03.30 기준
Grok 4.20 Multi-agent Beta 0309
xAI 공식 문서 기반

Grok 4.20 멀티에이전트,
“4배 비싸다”는 말은 틀렸습니다

xAI가 2026년 2월 17일 공개 베타를 시작한 Grok 4.20은 단일 모델이 아닙니다. 4개의 AI 에이전트가 병렬로 돌아가며 서로 토론한 뒤 하나의 답변을 내놓는 구조인데, 많은 사람들이 “에이전트가 4개면 비용도 4배 아니야?”라고 묻습니다. 직접 xAI 공식 문서를 뜯어봤더니, 그 계산이 완전히 틀렸습니다.

65%

환각률 감소
(4.1→4.20)

$2/1M

입력 토큰 가격
(멀티에이전트 동일)

최대 컨텍스트
토큰 수

4→16

에이전트 수
(일반→Heavy)

Grok 4.20 멀티에이전트란 정확히 무엇인가

Grok 4.20 멀티에이전트는 xAI가 2026년 2월 17일 공개 베타로 출시한 AI 시스템입니다. 이름에 “4.20”이 붙었지만 Grok 4 시리즈의 단순 버전 업그레이드가 아니에요. 구조 자체가 달라졌습니다. 단일 모델이 하나의 답변을 출력하는 방식에서 벗어나, 복잡한 질문이 들어오면 복수의 에이전트가 병렬로 돌아가며 내부 토론을 거친 뒤 최종 답변을 내놓습니다.

xAI 공식 릴리스 노트(2026.03.10)에 따르면 API에는 grok-4.20과 grok-4.20-multi-agent 두 가지 모델이 동시에 올라왔습니다. 멀티에이전트는 공식 설명에서 “Realtime Multi-agent Research”라는 이름으로 표기되는데, 여러 에이전트가 실시간으로 협력해 깊이 있는 다단계 리서치 작업을 수행하는 것이 핵심 목적입니다. (출처: xAI 공식 릴리스 노트, docs.x.ai/developers/release-notes)

💡 공식 릴리스 노트와 공식 문서를 같이 놓고 보면 이 시스템이 기존과 어떻게 다른지 보입니다. 단순히 “여러 AI를 쓴다”는 게 아니라, 동일한 가중치를 가진 모델을 서로 다른 역할로 병렬 실행하는 방식이에요. 이게 바로 비용 계산이 일반인의 예상과 달라지는 핵심 이유입니다.

xAI Colossus 슈퍼클러스터(GPU 20만 대 이상)에서 훈련됐으며, 컨텍스트 창이 최대 200만 토큰입니다. 이전 Grok 4.1의 256K 토큰 대비 약 8배 확장된 수치인데, 장문 문서 분석이나 긴 코드베이스를 다루는 작업에서 체감 차이가 납니다.

▲ 목차로 돌아가기

4개 에이전트의 역할이 따로 있습니다

멀티에이전트라고 해서 같은 AI가 4번 반복 실행되는 게 아닙니다. 각 에이전트는 동일한 Grok 4 계열 가중치를 공유하지만, 다른 시스템 프롬프트와 다른 목적으로 실행됩니다. xAI와 외부 분석에서 공개된 역할은 다음과 같습니다.

Grok (Captain)

질문을 하위 작업으로 분해하고 나머지 세 에이전트에게 배분. 최종 답변을 합성하는 리더 역할.

Harper (Researcher)

웹 검색과 X 실시간 피드 데이터를 수집. 팀 내에서 누군가 주장을 하면 현재 데이터 기준으로 검증.

Benjamin (Analyst)

수학 계산, 코드 검증, 단계별 논리 추론 전담. 연산이나 코드 경로에서 오류를 라인 단위로 확인.

Lucas (Contrarian)

반론 전담. 나머지 세 에이전트의 결론에 이의를 제기하고 대안 관점과 놓친 시나리오를 찾아내는 역할.

네 에이전트는 동시에 병렬로 실행됩니다. Harper가 데이터를 찾는 동안 Benjamin이 계산을 검증하고, Lucas가 반론을 준비합니다. 사용자에게는 Leader인 Grok이 합성한 최종 답변만 노출되고, 나머지 세 에이전트의 중간 과정은 기본적으로 암호화되어 숨겨집니다. 원하면 xAI SDK에서 use_encrypted_content=True로 설정하면 전체 중간 과정을 볼 수 있습니다. (출처: xAI 공식 Multi-agent 문서, docs.x.ai/developers/model-capabilities/text/multi-agent)

Lucas(반론 에이전트)의 존재가 이 시스템에서 가장 주목할 만한 부분입니다. “동의해주는 AI”가 아니라 “틀릴 가능성을 찾아내는 AI”가 시스템 안에 내장되어 있다는 뜻이에요. 이 구조 덕분에 환각률이 Grok 4.1 대비 약 12%에서 4.2%로 떨어졌습니다. 수치로는 65% 감소인데, 한 에이전트가 잘못된 수치를 만들면 다른 에이전트가 포착하는 내부 피어 리뷰가 작동하기 때문입니다. (출처: xAI 공식 발표, nextbigfuture.com 분석 보고서, 2026.02.17)

▲ 목차로 돌아가기

비용이 4배가 안 되는 이유가 공식 문서에 있습니다

가장 많은 오해가 여기서 생깁니다. “에이전트 4개가 돌아가면 토큰도 4배 아닌가?”라는 질문인데, 막상 xAI 공식 가격 문서를 보면 모델 자체의 토큰 단가는 멀티에이전트라고 해서 따로 높게 설정되어 있지 않습니다.

모델	입력 토큰 (1M당)	출력 토큰 (1M당)	컨텍스트
grok-4.20-multi-agent	$2.00	$6.00	2M 토큰
grok-4.20 (단일)	$2.00	$6.00	2M 토큰
grok-4 (이전)	$3.00	$15.00	256K 토큰

출처: xAI 공식 모델 가격 페이지 (docs.x.ai/developers/models), OpenRouter Grok 4.20 Beta 가격 페이지 (2026.03.12 기준)

단가 자체는 같습니다. 그럼 왜 실제 청구액이 더 나올까요? 4개 에이전트가 각각 토큰을 소비하기 때문입니다. 여기서 핵심이 있는데, xAI 공식 분석에 따르면 4개 에이전트가 동일 prefix 캐시와 입력 컨텍스트를 공유하므로 실제 추가 비용은 단일 패스의 1.5~2.5배 수준입니다. (출처: nextbigfuture.com 2026.02.17 분석 보고서) 이것이 “4배”가 아니라는 근거입니다.

💡 공식 발표문과 실제 토큰 구조를 같이 놓고 보니 이런 차이가 보였습니다. 에이전트가 4개라고 해서 입력 토큰이 4배로 복사되는 게 아니라, 공유된 입력 위에서 각 에이전트가 추론 토큰과 출력 토큰만 추가로 소비하는 구조입니다. 즉, 쿼리 복잡도에 따라 실제 비용은 달라지지만, “무조건 4배”라는 말은 구조를 오해한 계산입니다.

한편 xAI 공식 문서는 “리더 에이전트와 서브 에이전트 모두가 소비한 입력 토큰, 출력 토큰, 추론 토큰이 전부 청구된다”고 명시합니다. 웹 서치·X 서치 등 서버사이드 툴을 함께 쓰면 호출 건당 $5/1,000회가 추가되기 때문에, 복잡한 멀티소스 리서치 쿼리에서는 툴 호출 비용이 토큰 비용보다 더 커질 수 있습니다. 이 부분이 실제 비용 계산에서 많이 놓치는 부분입니다.

▲ 목차로 돌아가기

16 에이전트 Heavy 모드, 파라미터 하나로 바뀝니다

기본 멀티에이전트 설정은 4개 에이전트지만, xAI 공식 문서는 최대 16개 에이전트 구성도 지원한다고 명시하고 있습니다. SuperGrok Heavy($30/월) 구독자가 사용하는 무거운 설정인데, API에서는 파라미터 하나로 제어됩니다. 이 부분이 한국어 자료에 거의 나오지 않는 내용입니다.

# 4 에이전트 (기본)
chat = client.chat.create(
model="grok-4.20-multi-agent",
agent_count=4,  # 빠른 리서치·집중 쿼리
)
# 16 에이전트 (Heavy)
chat = client.chat.create(
model="grok-4.20-multi-agent",
agent_count=16,  # 심층 리서치·복합 주제
)

OpenAI SDK나 REST API를 쓸 때는 reasoning.effort 파라미터로 에이전트 수를 제어합니다. "low"나 "medium"이면 4개, "high"나 "xhigh"이면 16개로 전환됩니다. (출처: xAI Multi-agent 공식 문서, docs.x.ai/developers/model-capabilities/text/multi-agent)

설정	에이전트 수	용도	상대 비용
low / medium	4개	집중 쿼리·빠른 리서치	기준
high / xhigh	16개	복합 주제·심층 학술 분석	더 높음

16개 에이전트 모드는 4개 모드보다 탐색 가설 수가 훨씬 많아지고 교차 검증도 깊어지지만, 토큰 소비도 비례해서 늘어납니다. xAI 공식 문서는 “16 에이전트 설정은 4 에이전트보다 토큰 소비가 현저히 많으므로 쿼리 복잡도에 맞게 선택할 것”을 권장합니다. 단순 사실 확인 질문에 Heavy 모드를 쓰는 건 비용 낭비입니다.

▲ 목차로 돌아가기

쓰면 안 되는 조합이 있습니다 — API 사용 시 함정

Grok 4.20 멀티에이전트를 API로 쓸 때 기존 OpenAI 스타일의 코드를 그대로 가져다 쓰면 예상치 못한 에러를 만나게 됩니다. xAI 공식 문서에 명시된 제약 사항인데, 실제로 써보기 전에는 모르기 쉬운 내용입니다.

⚠️ 멀티에이전트 모델에서 지원되지 않는 파라미터 (공식 문서 기준)

OpenAI Chat Completions API 미지원 — xAI SDK 또는 Responses API만 사용 가능합니다.
max_tokens 파라미터 미지원 — 이 파라미터를 넣으면 무시됩니다.
클라이언트사이드 커스텀 툴 미지원 — 함수 콜링(function calling) 방식의 커스텀 툴은 현재 안 됩니다.
원격 MCP 툴은 지원 — 빌트인 툴(web_search, x_search, code_execution)과 리모트 MCP 서버 툴은 사용 가능합니다.

실제로 가장 많이 걸리는 함정은 Chat Completions API 문제입니다. 기존 OpenAI나 Claude와 연동하던 코드를 그대로 Grok 멀티에이전트에 붙이면 작동하지 않습니다. xAI SDK를 별도로 설치하거나 Responses API 형식으로 전환해야 하는데, 이걸 모르고 “Grok 멀티에이전트가 안 된다”고 포기하는 경우가 생깁니다. (출처: xAI 공식 Multi-agent 제한 사항, docs.x.ai/developers/model-capabilities/text/multi-agent)

또 하나 놓치기 쉬운 부분이 있습니다. 서브 에이전트의 중간 추론·툴 호출 결과는 기본적으로 암호화 처리됩니다. 리더 에이전트의 최종 답변과 툴 호출만 응답으로 돌아오는 것이 기본값이에요. 중간 과정 전체를 보려면 앞서 언급한 use_encrypted_content=True 옵션을 명시적으로 설정해야 합니다. 멀티턴 대화를 구현할 때 이전 에이전트 컨텍스트를 유지하려면 이 옵션이 필수입니다.

▲ 목차로 돌아가기

ChatGPT, Claude와 이 부분에서 실질적으로 다릅니다

“멀티에이전트라는 말만 다르고 결국 똑같은 거 아니냐”는 시각이 있습니다. 실제로 GPT-5.4나 Claude Opus 4.6도 내부 추론 단계에서 자기검토를 하긴 합니다. 그럼에도 구조적으로 다른 지점이 있습니다.

항목	Grok 4.20 Multi-agent	GPT-5.4	Claude Opus 4.6
내부 구조	4~16 에이전트 병렬 토론	단일 모델 추론	단일 모델 추론
실시간 X 피드 연동	네이티브 지원	별도 툴 필요	별도 툴 필요
환각률 (공식 발표)	약 4.2%	공식 미발표	공식 미발표
Chat Completions API	미지원	지원	지원
컨텍스트 창	2M 토큰	1M 토큰	약 200K 토큰

출처: xAI 공식 문서, OpenAI 공식 릴리스 노트(2026.03.17), mindstudio.ai Grok 4.20 vs Claude Opus 4.6 비교 분석(2026.03)

실시간 X(트위터) 데이터 연동은 Grok 4.20만이 가진 구조적 강점입니다. Harper 에이전트가 X 피드에서 하루 약 6,800만 개의 영어 트윗을 실시간으로 참조할 수 있는 구조인데, 이 덕분에 Alpha Arena(AI 주식 트레이딩 대회)에서 4개의 Grok 4.20 변형 모델이 상위 6위 중 4자리를 차지하며 GPT, Gemini 모두를 앞섰습니다. 해당 대회에서 Grok 4.20은 1만 달러를 1만 1천~1만 3천 달러로 불렸고, 경쟁 모델들은 손실을 기록했습니다. (출처: nextbigfuture.com 2026.02.17)

반면 Claude Opus 4.6은 긴 문서 처리와 복잡한 추론 합성에서 더 강하다는 평가를 받고 있습니다. 소스 평가, 복잡한 합성, 장문 문서 처리에서 Grok 4.20보다 일관되게 높은 결과를 보인다는 것이 여러 실사용 비교에서 나오는 공통적인 피드백입니다. (출처: mindstudio.ai, Grok 4.20 vs Claude Opus 4.6 for Real-Time Search 비교 보고서, 2026.03)

정리하면, 최신 뉴스나 X 트렌드를 기반으로 한 분석, 금융·투자 관련 실시간 리서치에서는 Grok 4.20 멀티에이전트가 강점을 보입니다. 반면 학술 논문 분석, 법률 문서 검토처럼 긴 문서를 정교하게 파고드는 작업에서는 Claude가 아직 유리하다는 게 현재 시점의 솔직한 비교입니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. Grok 4.20 멀티에이전트는 무료로 쓸 수 있나요?

grok.com에서의 사용은 SuperGrok 구독($30/월)이나 X Premium+에서 접근 가능합니다. API 사용은 xAI API 키를 발급받아 토큰 단위로 과금되며, 멀티에이전트 모델 자체에 별도 구독료가 추가되지는 않습니다. 단, 4 에이전트가 동시에 토큰을 소비하므로 단일 모델보다 실제 청구 금액은 더 나옵니다. API 무료 크레딧은 신규 가입 시 콘솔(console.x.ai)에서 확인하세요.

Q2. 4개 에이전트가 서로 다른 답을 낼 때 최종 답은 어떻게 결정되나요?

리더 역할의 Grok(Captain) 에이전트가 나머지 세 에이전트의 분석 결과를 종합해 최종 답변을 작성합니다. 중간 토론 과정은 사용자에게 노출되지 않고, 리더 에이전트의 최종 답변과 해당 에이전트의 툴 호출 내역만 응답으로 전달됩니다. 에이전트 간 충돌이 생기면 리더가 가장 근거가 강한 쪽을 채택하는 방식입니다.

Q3. GPT-5.4나 Claude로 비슷한 구조를 직접 만들 수 있나요?

Andrej Karpathy가 오픈소스로 공개한 LLM Council 프로젝트를 활용하면 가능합니다. 여러 모델에 같은 질문을 보내고, 각 모델이 다른 모델의 답변을 리뷰한 뒤, “Chairman” 모델이 최종 합성하는 방식입니다. OpenRouter로 API 접근이 가능하면 직접 구성할 수 있습니다. 다만 Grok 4.20처럼 X 실시간 피드 연동이나 하드웨어 최적화된 병렬 실행은 자체 구성으로 재현하기 어렵습니다.

Q4. 배치(Batch) API로 멀티에이전트도 50% 할인 적용되나요?

xAI 공식 Batch API 페이지에 따르면, 텍스트 언어 모델 기준으로 배치 API 사용 시 표준 가격의 50% 할인이 적용됩니다. 다만 공식 문서에서 멀티에이전트 모델에 대한 배치 API 지원 여부를 별도로 명시하지 않았습니다. 실제 사용 전 xAI 콘솔에서 해당 모델의 배치 API 가용 여부를 직접 확인하는 것을 권장합니다.

Q5. 지식 컷오프(Knowledge Cutoff)는 언제인가요?

Grok 3 및 Grok 4 계열 모델의 지식 컷오프는 2024년 11월입니다. (출처: xAI 공식 모델 문서, docs.x.ai/developers/models) 컷오프 이후 정보는 Harper 에이전트가 웹서치·X서치 툴을 통해 실시간으로 보완하는 구조입니다. 단, 툴 없이 쿼리를 보내면 2024년 11월 이후 사건은 알 수 없습니다.

▲ 목차로 돌아가기

마치며

Grok 4.20 멀티에이전트를 정리하면서 가장 인상적이었던 건 Lucas의 존재입니다. 틀릴 가능성을 전담하는 에이전트를 아예 시스템 설계에 박아넣은 건데, 이게 환각률 65% 감소라는 수치로 이어졌습니다. “더 똑똑한 단일 모델”을 만드는 방향이 아니라 “서로를 견제하는 팀”을 만드는 방향 — 솔직히 이쪽이 훨씬 현실적인 접근이라는 생각이 들었어요.

단, Chat Completions API 미지원이나 커스텀 툴 제한처럼 현재 베타 단계의 제약도 분명히 있습니다. 기존 GPT나 Claude 기반 워크플로우에 바로 붙이려면 SDK 전환 비용이 생깁니다. 실시간 X 피드를 기반으로 한 리서치·분석에서는 현재 경쟁 모델 중 명확하게 앞서고, 심층 학술 문서 분석에서는 Claude가 아직 강합니다. 어느 한 도구가 모든 걸 해결하지는 않습니다.

멀티에이전트 패턴이 이번에 처음 제품으로 나왔지만, Karpathy의 LLM Council 오픈소스나 학계 연구를 보면 이 방향이 앞으로 AI 시스템의 표준이 될 가능성이 높습니다. ChatGPT, Claude도 6~12개월 안에 비슷한 구조를 내놓을 가능성이 있어요. 그때 “이미 써봤다”는 경험이 있으면 선택이 훨씬 쉬워질 겁니다.

📎 본 포스팅 참고 자료

xAI 공식 릴리스 노트 — docs.x.ai/developers/release-notes
xAI Multi-agent 공식 기능 문서 — docs.x.ai/developers/model-capabilities/text/multi-agent
xAI 공식 모델 & 가격 페이지 — docs.x.ai/developers/models
nextbigfuture.com — xAI Launches Grok 4.20 (2026.02.17) — nextbigfuture.com
artificialanalysis.ai — Grok 4.20 Beta 0309 모델 분석 — artificialanalysis.ai
mindstudio.ai — Grok 4.20 vs Claude Opus 4.6 실시간 검색 비교 — mindstudio.ai

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문의 가격·스펙은 2026년 03월 30일 xAI 공식 문서 기준이며, 이후 업데이트 내용은 xAI 공식 페이지에서 확인하시기 바랍니다. 본 포스팅은 특정 서비스의 가입이나 구매를 권유하지 않습니다.

Grok 4.20 멀티에이전트,
“4배 비싸다”는 말은 틀렸습니다

Grok 4.20 멀티에이전트란 정확히 무엇인가

4개 에이전트의 역할이 따로 있습니다

비용이 4배가 안 되는 이유가 공식 문서에 있습니다

16 에이전트 Heavy 모드, 파라미터 하나로 바뀝니다

쓰면 안 되는 조합이 있습니다 — API 사용 시 함정

ChatGPT, Claude와 이 부분에서 실질적으로 다릅니다

자주 묻는 질문 5가지

마치며

📎 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Grok 4.20 멀티에이전트, 4배 비싸다는 말은 틀렸습니다

Grok 4.20 멀티에이전트,“4배 비싸다”는 말은 틀렸습니다

Grok 4.20 멀티에이전트란 정확히 무엇인가

4개 에이전트의 역할이 따로 있습니다

비용이 4배가 안 되는 이유가 공식 문서에 있습니다

16 에이전트 Heavy 모드, 파라미터 하나로 바뀝니다

쓰면 안 되는 조합이 있습니다 — API 사용 시 함정

ChatGPT, Claude와 이 부분에서 실질적으로 다릅니다

자주 묻는 질문 5가지

마치며

📎 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Grok 4.20 멀티에이전트,
“4배 비싸다”는 말은 틀렸습니다