Grok 4.20, 4에이전트 체계 공식 문서에서 확인했습니다

Published on

in

Grok 4.20, 4에이전트 체계 공식 문서에서 확인했습니다

2026.03.10 정식 라이브
xAI 공식 문서 기준
Grok 4.20 Multi-agent 포함

Grok 4.20, 4에이전트 체계 공식 문서에서 확인했습니다

결론부터 말씀드리면 — Grok 4.20은 하나의 AI가 똑똑해진 게 아닙니다. 4개의 전문 에이전트가 병렬로 토론하고 합의해서 답을 냅니다. 이 구조가 뭘 바꾸는지, 비용은 어떻게 달라지는지, 공식 문서에서 직접 확인한 내용만 정리했습니다.

4개
병렬 에이전트
200만
토큰 컨텍스트
78%
비환각률(Grok 4.20)
$30/월
SuperGrok 구독

Grok 4.20이 나온 시점과 정식 라이브 배경

Grok 4.20은 2026년 2월 17일 공개 베타로 처음 나왔고, 3월 3일 Beta 2를 거쳐 2026년 3월 10일에 API와 함께 정식 라이브됐습니다. xAI 개발자 릴리스 노트(docs.x.ai/developers/release-notes)에 “Grok 4.20 and Grok 4.20 Multi-agent are live — Mar 10″이라고 명시돼 있습니다.

타이밍이 흥미롭습니다. 같은 주에 GPT-5.4가 출시(3월 5일)되며 대부분의 시선을 가져갔는데, 그 5일 뒤에 xAI가 조용히 Grok 4.20을 API에 올렸습니다. 일론 머스크는 3월 9일 X에서 “Grok 4.20은 웃기다”라고 한 줄 올렸고, 같은 날 커스텀 에이전트 기능을 공식 발표했습니다.

버전명 “4.20”이 미국의 특정 날짜 문화(4월 20일)를 노린 작명이라는 분석이 많습니다. 실제로 머스크는 “Grok 4.20 is hilarious”라고 직접 표현했고, 숫자 유머를 의도적으로 브랜드 아이덴티티로 쓰는 xAI의 성격이 반영됐습니다. 재미있는 이름이지만 아키텍처는 실제로 상당히 달라진 버전입니다.

▲ 목차로 돌아가기

4개 에이전트가 병렬로 토론한다는 구조의 실체

Grok 4.20의 가장 큰 변화는 단일 모델에서 멀티에이전트 협업 시스템으로 아키텍처가 바뀐 것입니다. 내부적으로 Grok, Harper, Benjamin, Lucas라는 이름의 4개 전문 에이전트가 복잡한 질문에 병렬로 투입됩니다.

💡 공식 발표문과 실제 동작 흐름을 같이 놓고 보니 이런 차이가 보였습니다

에이전트들이 각자 웹 검색·데이터 분석·결과 합성을 담당하고, 리더 에이전트가 최종 합의 답변을 냅니다. 이때 하위 에이전트의 중간 추론 과정은 암호화되어 기본적으로 사용자에게 노출되지 않습니다. 공식 문서에서 “Only the leader agent’s output is returned”라고 명시됩니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent).

설정도 두 가지입니다. 4에이전트 모드는 집중적인 질문에, 16에이전트 모드는 복잡한 다면적 주제에 적합합니다. API 기준으로 4에이전트는 `reasoning.effort`를 `”low”` 또는 `”medium”`으로, 16에이전트는 `”high”` 또는 `”xhigh”`로 지정합니다.

이 구조가 기존 단일 모델과 다른 결정적 차이는, 질문 하나에 에이전트들이 각각 독립적으로 도구를 호출하고 추론한다는 점입니다. 병렬 팩트체크와 교차검증이 실제로 답변 품질을 올리는 방식입니다. 단, 그 대가는 토큰 비용입니다 — 이건 섹션 4에서 따로 다룹니다.

▲ 목차로 돌아가기

성능 수치, 어떤 건 1위고 어떤 건 뒤처지는가

xAI와 외부 리뷰들이 공유한 수치를 보면 Grok 4.20의 강점이 특정 영역에 집중돼 있다는 게 보입니다.

벤치마크 Grok 4.20 순위 비고
Alpha Arena 주식 트레이딩 1위 +10~34% 수익, 경쟁사는 마이너스
ForecastBench 예측 정확도 2위 GPT-5.4·Gemini 3 Pro·Claude Opus 4.5 모두 추월
복합지능지수(IQ 벤치) 48점 GPT-5.4·Gemini 3.1 Pro에 뒤처짐
비환각률 78% Grok 4.1 대비 65% 감소에서 추가 개선

💡 같은 수치를 다른 각도에서 보면 그림이 달라집니다

비환각률 78%는 뒤집으면 100번 중 22번은 여전히 틀린 정보를 확신 있게 말할 수 있다는 뜻입니다. Grok 4.1이 이미 기존 대비 65% 줄였고 Grok 4.20이 추가 개선했지만, 완전히 사라진 문제가 아닙니다. 특히 고부가 업무에 쓸 때 검증이 여전히 필수입니다.

ForecastBench 2위는 실질적으로 인상적인 수치입니다. 이 벤치마크는 실세계 예측 문제를 다루는데, 정답 여부를 시간이 지나야 확인할 수 있는 구조입니다. 단순 지식 암기와 다른 능력이 필요하고, Grok 4.20은 X 실시간 데이터 접근과 멀티에이전트 교차검증이 이 영역에서 유리하게 작용했습니다.

▲ 목차로 돌아가기

‘에이전트 많을수록 좋다’는 말이 비용 앞에서 달라지는 이유

멀티에이전트 구조의 실제 비용 구조를 공식 문서(docs.x.ai/developers/models)에서 직접 확인했더니 생각보다 복잡합니다.

Grok 4.20의 API 기본 가격은 입력 토큰 100만 개당 $2, 출력 토큰 100만 개당 $6입니다. 언뜻 보면 저렴합니다. 그런데 멀티에이전트 모드를 쓰면 이야기가 달라집니다. 공식 문서에는 이렇게 적혀 있습니다: “All tokens consumed by both the leader agent and sub-agents are billed — a single multi-agent request may use significantly more tokens than a standard single-agent request.”

💡 겉보기 가격과 실제 청구액 사이의 거리

4에이전트 모드에서 질문 하나가 리더 + 서브 에이전트 각각의 추론 토큰·도구 호출 비용을 모두 쌓습니다. 16에이전트 설정을 쓴다면 이론상 최대 16배의 토큰이 소모될 수 있습니다. 도구 호출(웹 검색·X 검색)은 1,000회당 $5 별도 과금이 추가됩니다(출처: xAI API 가격 페이지, 2026.03 기준).

간단한 계산 예시입니다. 복잡한 리서치 쿼리 하나에 각 에이전트가 입력 5만 토큰 + 출력 2만 토큰을 소비하고, 웹 검색을 20회 호출한다고 가정합니다. 4에이전트 기준이면 토큰 비용만 약 4×(0.05×$2 + 0.02×$6) = $0.88이고, 검색 도구 비용은 20×$0.005 = $0.10이 됩니다. 쿼리 하나에 약 $1. 하루 100쿼리를 돌리면 월 $3,000 규모입니다. SuperGrok 월정액 $30은 일반 사용자 기준이고, API 대량 활용 시 비용 계산은 반드시 먼저 해야 합니다.

다만 Batch API를 활용하면 표준 가격의 50%가 적용됩니다. 실시간 응답이 필요 없는 대량 처리 작업이라면 Batch API가 현실적인 선택입니다(출처: docs.x.ai/developers/advanced-api-usage/batch-api).

▲ 목차로 돌아가기

공식 문서에 적힌 제한 — 아무도 말 안 하는 3가지

Grok 4.20을 소개하는 글들이 공통적으로 4에이전트 구조와 ForecastBench 순위를 강조하는 반면, 공식 문서의 Limitations 섹션은 조용히 지나갑니다. 직접 읽어보면 꽤 실질적인 내용이 있습니다.

공식 문서 기준 Grok 4.20 Multi-agent 제한사항

제한 1Chat Completions API 미지원 — 멀티에이전트 모델은 OpenAI 호환 Chat Completions API에서 작동하지 않습니다. xAI SDK 또는 Responses API만 지원합니다. GPT-4o 기준으로 연동해 놓은 기존 코드베이스를 그대로 가져오면 에러가 납니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent, Limitations 섹션).

제한 2커스텀 함수 도구(client-side tools) 미지원 — 멀티에이전트 모드에서는 사용자가 직접 만든 함수 호출 도구를 붙일 수 없습니다. xAI가 제공하는 내장 도구(web_search, x_search, code_execution 등)와 Remote MCP 도구만 쓸 수 있습니다. 자체 RAG 파이프라인이나 커스텀 API 연동을 계획했다면 단일 Grok 4.20 모델로 전환해야 합니다.

제한 3학습 데이터 컷오프가 2024년 11월 — xAI 공식 모델 문서에는 “The knowledge cut-off date of Grok 3 and Grok 4 is November 2024″라고 명시돼 있습니다. Grok 4.20도 같은 계열이므로 동일하게 적용됩니다. X 실시간 검색 도구를 켜지 않으면 2024년 11월 이후 사건·정보는 모릅니다. “실시간이다”는 인상과는 다른 부분입니다(출처: docs.x.ai/developers/models).

커스텀 지침 글자 수도 Beta 1의 12,000자에서 Beta 2 이후 4,000자로 줄었습니다. xAI는 이유를 별도로 밝히지 않았습니다. 정교하게 구성해 놓은 에이전트 설정이 있다면 축약이 필요합니다.

▲ 목차로 돌아가기

X 데이터 실시간 학습, 장점 뒤의 구조적 함의

Grok 4.20이 경쟁 모델과 가장 선명하게 구분되는 지점 중 하나가 X(트위터) 플랫폼과의 실시간 연결입니다. 하루 약 6,800만 건의 영문 트윗이 Grok의 세계 모델 업데이트에 쓰입니다. ForecastBench 2위, Alpha Arena 주식 트레이딩 1위가 우연이 아닌 이유입니다.

💡 X 데이터 활용 구조를 공식 정책 문서와 함께 놓고 보면

xAI Privacy Policy와 X 이용약관에는 공개 X 게시물·참여 메타데이터·공개 프로필이 xAI와 공유될 수 있다고 명시돼 있습니다. 사용자가 Grok 데이터 학습을 opt-out해도, “배포된 모델이 정상 사용 과정에서 상호작용으로부터 학습하는 것”은 opt-out이 막지 못한다고 X Help Center에 나옵니다.

이는 X를 사용하는 한 Grok 학습에 데이터가 들어간다는 구조입니다. 좋게 보면 피드백 루프가 가장 빠른 AI이고, 비판적으로 보면 사용자가 통제하기 어려운 데이터 수집 구조입니다.

이 구조는 Grok이 주당 업데이트를 공약할 수 있는 이유와도 직결됩니다. 다른 모델들이 분기 단위 릴리즈 주기를 갖는 것과 달리, Grok 4.20은 실사용 트래픽 피드백 → 자동 평가 → RL 업데이트 → 점진 배포 루프를 빠르게 돌립니다. 머스크가 “Rapid Learning Architecture”라고 표현한 부분입니다.

단, 이 빠른 학습 주기는 동시에 일관성 리스크이기도 합니다. 오늘 동작하던 방식이 다음 주에 달라질 수 있다는 뜻이기도 하기 때문입니다. 프로덕션 환경에 Grok 4.20을 연동한다면 버전 고정(`grok-4.20-YYYYMMDD` 형식)을 공식적으로 지원하는지 먼저 확인해야 합니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Grok 4.20을 무료로 쓸 수 있나요?
2026년 3월 기준 Grok 4.20은 SuperGrok(월 $30) 또는 X Premium+ 구독자에게만 제공됩니다. 무료 플랜에서는 이전 버전만 사용 가능합니다. API 접근은 별도 xAI Console에서 신청해야 합니다.
Q2. GPT-5.4와 Grok 4.20 중 어떤 게 더 낫나요?
용도에 따라 다릅니다. 실시간 예측, 금융 데이터 분석, 빠르게 변하는 뉴스 기반 리서치는 Grok 4.20이 구조적 강점을 갖습니다. 일반적인 코딩·논리 추론·창의 작문은 복합지능지수 기준에서 GPT-5.4가 현재 앞서 있습니다. 두 모델을 동시에 쓰는 것도 현실적인 선택입니다.
Q3. 멀티에이전트 모드는 어떤 경우에 쓰면 좋나요?
여러 출처를 동시에 교차 검증해야 하는 심층 리서치, 복잡한 주제의 다각도 분석, 실시간 데이터 기반 예측이 적합합니다. 단순한 질의응답이나 빠른 요약은 일반 Grok 4.20으로 충분하고, 멀티에이전트 모드는 비용이 배수로 늘어납니다.
Q4. Grok 4.20이 한국어를 잘 처리하나요?
X 플랫폼 데이터가 압도적으로 영문 중심(약 6,800만 영문 트윗/일)이라 실시간 학습 데이터에서 한국어 비중이 낮습니다. 기본 한국어 이해는 Grok 4 계열의 훈련 데이터 덕에 가능하지만, 한국 특화 최신 정보나 뉘앙스 표현은 아직 제한적이라는 사용자 평이 많습니다.
Q5. Grok 4.20과 Grok 4 Heavy는 다른 건가요?
Grok 4 Heavy는 제한적으로 제공되던 최상위 멀티에이전트 실험 버전이고, Grok 4.20은 그 병렬 에이전트 구조를 더 넓은 사용자에게 제공하는 후속 버전입니다. 브런치 분석(2026.02)에서 “Grok 4.20 = Grok 4 Heavy의 보급판”으로 해석하는 시각이 있는데, 아키텍처 방향성에서는 타당한 설명입니다.

▲ 목차로 돌아가기

마치며

Grok 4.20을 정리하고 나서 드는 생각은, 이 모델은 “만능 AI”가 아니라 특정 상황에서 눈에 띄게 강한 AI라는 겁니다. 실시간 예측·주식 트레이딩·다면적 리서치라는 영역에서는 현재 최상위 수준이지만, 일반 추론 벤치마크에서는 GPT-5.4나 Gemini 3.1 Pro에 아직 뒤처집니다.

멀티에이전트 구조가 흥미롭긴 한데, 비용이 배수로 뛰는 구조라는 점과 Chat Completions API 미지원이라는 기술적 제약은 실무 연동 전에 반드시 확인해야 합니다. “에이전트가 4개니까 4배 좋다”가 아니라 “에이전트가 4개니까 4배 비쌀 수 있다”가 현실에 가깝습니다.

매주 업데이트되는 구조라 지금 이 글을 읽는 시점에 이미 다른 Beta가 나왔을 수도 있습니다. xAI 개발자 릴리스 노트(docs.x.ai/developers/release-notes)를 직접 구독해 두는 게 가장 정확한 방법입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. xAI 개발자 릴리스 노트 — docs.x.ai/developers/release-notes
  2. xAI Multi-agent 공식 문서 — docs.x.ai/developers/model-capabilities/text/multi-agent
  3. xAI 모델 & 가격 페이지 — docs.x.ai/developers/models
  4. NextBigFuture — XAI Launches Grok 4.20 (2026.02.17) — nextbigfuture.com
  5. AdwaitX — Grok 4.20 Beta 2 Update (2026.03.04) — adwaitx.com

본 포스팅은 2026년 3월 23일 기준 공식 문서 및 공개 정보를 바탕으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격 및 기능은 xAI 공식 문서(docs.x.ai)에서 최신 내용을 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기