Grok 4.20, 공식 수치로 4가지 확인했습니다

Published on

in

Grok 4.20, 공식 수치로 4가지 확인했습니다

2026.03.20 기준
Grok 4.20 Beta 0309 기준
xAI 공식 문서 기반

Grok 4.20, 공식 수치로 4가지 확인했습니다

xAI가 2026년 2월 17일 공개 베타를 시작하고, 3월 10일 Enterprise API에 정식 투입한 Grok 4.20. “4개의 AI가 토론해서 답한다”는 구조가 말만 그럴듯한 건지, 실제 비용과 한계는 어디서 걸리는지 공식 문서를 직접 뜯어봤습니다.

78%
비환각률 (Artificial Analysis)
48점
복합 지능 지수 (경쟁사 대비 낮음)
$2/$6
입력/출력 토큰 단가(1M당)
2M
최대 컨텍스트 윈도우

Grok 4.20이 기존 모델과 다른 점 — 구조부터 다릅니다

Grok 4.20의 핵심은 단일 모델이 아니라는 것입니다. xAI 공식 문서(docs.x.ai/developers/model-capabilities/text/multi-agent)는 “Grok(Captain), Harper, Benjamin, Lucas”라는 이름을 가진 4개의 전문화된 에이전트가 실시간으로 병렬 협업한다고 명시하고 있습니다. 이 중 Captain 역할의 에이전트가 나머지 세 에이전트의 논의를 종합해 최종 응답을 만들어냅니다.

솔직히 말하면 처음에는 “그냥 마케팅 용어 아닐까” 싶었습니다. 그런데 공식 SDK 문서를 보면 agent_count 파라미터로 4개 또는 16개를 직접 설정할 수 있고, 각 에이전트가 독립적으로 web_search, x_search, code_execution 도구를 호출한다고 명시돼 있습니다. 단일 요청에서 복수 에이전트가 동시에 도구를 호출하니 토큰 소모가 단순 합산이 아닌 곱셈으로 늘어납니다.

xAI가 밝힌 훈련 배경은 이렇습니다. Colossus 슈퍼클러스터의 수십만 개 GPU를 사용했고, X(트위터) 피드에서 하루 약 6,800만 건의 영어 트윗을 실시간 데이터로 흡수하는 구조를 갖췄다고 합니다. 이 실시간 데이터 흡수 구조가 ForecastBench 2위를 가능하게 한 핵심 요소입니다. 다른 모델이 훈련 컷오프에 묶여 있을 때, Grok 4.20은 X 검색 도구와 결합해 오늘 오후의 뉴스로도 추론할 수 있다는 의미입니다.

▲ 목차로 돌아가기

환각률 65% 감소, 그런데 복합 지능 지수는 왜 낮을까요

💡 공식 발표 수치와 독립 벤치마크 결과를 나란히 놓고 보니 이런 간격이 보였습니다.

xAI와 독립 평가 기관 Artificial Analysis의 수치를 같이 보면 흥미로운 간격이 생깁니다. Grok 4.20의 비환각률은 78%로, Grok 4.1 대비 약 65% 개선된 수치입니다(출처: Artificial Analysis 독립 평가, 2026.03.09 기준). 에이전트 간 교차 검증이 실제로 작동한다는 증거입니다.

그런데 같은 기관의 복합 지능 지수(Intelligence Index)는 48점입니다. GPT-5.4나 Gemini 3.1 Pro와 비교하면 한참 낮습니다. 이 수치가 의미하는 것은 분명합니다. “사실을 틀리게 말하는 빈도”는 줄었지만, “복잡한 추론 문제를 얼마나 잘 푸느냐”는 여전히 경쟁사에 뒤처진다는 뜻입니다. 멀티에이전트 구조가 환각을 줄이는 데는 효과적이지만, 순수 추론 능력을 끌어올리는 데는 충분하지 않다는 해석이 가능합니다.

또 하나 확인되는 점은 아직 베타라는 사실입니다. xAI 공식 문서는 “This feature is currently in beta. The API interface and behavior may change as we iterate”라고 명시하고 있습니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent). 실제로 3월 3일 Beta 2가 나왔고, 주간 업데이트를 공언한 상태라 수치 자체가 계속 바뀔 수 있습니다. 지금 시점의 벤치마크를 절대 기준으로 삼기엔 이릅니다.

📊 Grok 4.20 주요 벤치마크 (Grok 4.20 Beta 0309 기준)

항목 수치 의미
복합 지능 지수 48점 GPT-5.4·Gemini 3.1 Pro 대비 낮음
코딩 지수 42.2점 코딩 특화 모델 대비 열위
에이전틱 지수 68.7점 멀티에이전트 태스크에서 강점
GPQA Diamond 88.5% 대학원 수준 과학 추론
τ²-Bench 96.5% 대화형 에이전트 벤치마크 1위권

출처: Artificial Analysis 독립 평가, OpenRouter 및 DesignForOnline 집계 (2026.03.12 기준)

▲ 목차로 돌아가기

멀티에이전트를 켰더니 토큰이 이렇게 나갔습니다

💡 단순한 질문 하나에 333,000 입력 토큰이 소모된 실제 사례가 기록돼 있습니다. 이 숫자가 어떤 의미인지 바로 계산해봤습니다.

Reddit r/openrouter에는 Grok 4.20 멀티에이전트 베타가 “농담 프롬프트 하나에 333,000 입력 토큰을 소모했다”는 실제 사례가 게시됐습니다(2026.03.14 기록). 이 수치를 공식 API 단가에 대입하면 결과가 나옵니다.

💰 실측 비용 계산 (공식 단가 기준)

입력 단가: $2.00 / 1M 토큰 (출처: xAI 공식 가격 페이지, docs.x.ai/developers/models)

333,000 입력 토큰 × $2.00 / 1,000,000 = $0.666 (입력만)

출력 단가: $6.00 / 1M 토큰이므로, 응답까지 합산하면 요청 1건에 $1~2 이상 소모 가능

→ 하루 100회 질의 기준: 월 $3,000~6,000 이상 발생 가능 (추정, 요청 복잡도에 따라 크게 변동)

xAI 공식 문서는 이 구조를 명확히 설명합니다. “모든 에이전트(leader + sub-agents)가 소모하는 입력 토큰, 출력 토큰, 추론 토큰이 전부 과금된다. 서버 측 도구 호출도 각 에이전트가 독립적으로 실행하므로 단일 요청에서 총 도구 호출 수가 크게 늘어날 수 있다”고 나와 있습니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent, Pricing 섹션). 즉, 16개 에이전트를 켜면 단일 web_search 호출이 아니라 최대 16개 에이전트 각각이 독립적으로 검색을 실행할 수 있습니다. web_search 도구 단가는 $5 / 1,000 호출입니다(출처: docs.x.ai/developers/models, Tool Pricing).

막상 써보면 이 단계에서 멈추는 경우가 많습니다. API를 처음 연동할 때 비용 한도 설정을 따로 해두지 않으면, 복잡한 리서치 요청 하나에 예상치 못한 청구가 들어올 수 있습니다. SillyTavern AI 커뮤니티에서는 “에이전트들이 대부분 과도하게 추론을 반복해서 ~700토큰짜리 응답에 수천 토큰이 쌓인다”는 경험도 보고되고 있습니다(r/SillyTavernAI, 2026.03.14).

▲ 목차로 돌아가기

공식 문서가 명시한 사용 불가 조건들

Grok 4.20 멀티에이전트가 지원하지 않는 조건들을 공식 문서에서 직접 확인했습니다. 이 부분이 기존 블로그에서 잘 다뤄지지 않는 지점입니다. OpenAI Chat Completions API 형식으로 요청을 보내면 작동하지 않습니다. xAI SDK 또는 Responses API만 지원합니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent, Limitations 섹션).

max_tokens 파라미터도 작동하지 않습니다. 출력 길이를 제한하려 해도 이 파라미터는 무시됩니다. 응답 길이 예측과 비용 통제가 단일 모델 대비 훨씬 어렵다는 의미입니다. 클라이언트 측 커스텀 함수(function calling)도 현재 지원되지 않습니다. 빌트인 도구(web_search, x_search, code_execution)와 원격 MCP 도구만 사용 가능합니다.

⚠️ 공식 문서 기준 현재 미지원 항목 (2026.03.20 기준)

  • OpenAI Chat Completions API 형식 → xAI SDK 또는 Responses API 전환 필요
  • max_tokens 파라미터 → 무시됨 (비용 상한 설정 불가)
  • 클라이언트 측 함수 호출(function calling) → 미지원
  • sub-agent 중간 추론 결과 확인 → use_encrypted_content 옵션 없으면 암호화 상태로만 전달
  • logprobs 필드 → 무시됨

출처: xAI 공식 문서 Limitations 섹션 (docs.x.ai/developers/model-capabilities/text/multi-agent)

이 부분이 좀 아쉬웠습니다. GPT-5.4나 Claude Sonnet 4.6처럼 기존 OpenAI 호환 API 구조에 익숙한 개발자라면 통합 과정에서 예상치 못한 장벽을 만납니다. 특히 기존 프로덕션 코드베이스에 ChatCompletions 형식이 깊이 박혀 있다면 Grok 4.20 멀티에이전트로 전환 비용이 상당합니다.

▲ 목차로 돌아가기

Grok 4.20이 실제로 강한 영역은 따로 있습니다

💡 복합 지능 지수와 에이전틱 지수를 같이 놓고 보면, 이 모델이 어디에 쓰일 때 값어치를 하는지가 선명해집니다.

ForecastBench 2위, Alpha Arena Season 1.5 1위. 이 두 결과가 같이 나오는 모델은 Grok 4.20이 유일합니다(출처: nextbigfuture.com, 2026.02.17). Alpha Arena는 실제 자금으로 진행되는 AI 트레이딩 대회입니다. Grok 4.20 변형 4개가 상위 6개 중 4개를 차지했고, 경쟁 모델들이 손실을 기록할 때 유일하게 수익을 냈습니다. 이 결과의 핵심은 X 실시간 피드 기반 감성 분석과 15분 단위 가격 신호를 결합하는 구조입니다.

에이전틱 지수 68.7점은 τ²-Bench 96.5%와 함께 봐야 합니다. τ²-Bench는 대화형 에이전트 평가 벤치마크인데, 여기서 1위권 수치가 나온다는 것은 멀티턴 리서치 작업에서 컨텍스트 유지와 도구 호출 정확도가 높다는 의미입니다. 기대했던 것과 달랐던 부분은 코딩 지수(42.2점)였습니다. 코드 작성 자체보다 리서치·예측·에이전트 조율에 더 최적화된 모델이라는 것이 수치로 확인됩니다.

결론부터 말씀드리면, Grok 4.20은 “코딩 어시스턴트”나 “범용 챗봇”으로 쓸 때보다 실시간 정보 기반 리서치·예측·다면 분석이 필요한 작업에서 비용 대비 가치가 높아집니다. 반대로 단순 질의응답이나 코드 생성만 필요하다면 Grok 4.1 Fast($0.20/1M 입력)가 비용 면에서 훨씬 유리합니다.

▲ 목차로 돌아가기

4 에이전트 vs 16 에이전트, 어떻게 고를까요

공식 문서는 4 에이전트와 16 에이전트의 차이를 reasoning.effort 파라미터로 조절한다고 설명합니다. low 또는 medium이면 4 에이전트, high 또는 xhigh이면 16 에이전트가 동작합니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent, Configuration 섹션). 16 에이전트는 “상당히 더 많은 토큰을 소모한다”고 공식 문서가 직접 경고하고 있습니다.

생각보다 간단합니다. 단일 도메인 집중 질문(예: 특정 기술 스택의 구현 방법)은 4 에이전트로도 충분합니다. 복수 도메인 교차 분석(예: 거시 경제 지표 + 기업 재무 + 실시간 뉴스 + 규제 동향을 동시에 분석)이 필요할 때만 16 에이전트를 쓰는 게 맞습니다. 아무 이유 없이 xhigh를 켜두면 비용만 수배로 늘어납니다.

📋 에이전트 수 선택 기준 (공식 문서 + 실사용 교차 분석)

구분 4 에이전트 16 에이전트
reasoning.effort low / medium high / xhigh
적합한 작업 집중형 리서치, 단일 주제 분석 복합 도메인 교차 분석
상대적 비용 낮음 크게 높음
주의점 max_tokens 무효, 비용 모니터링 필수 토큰·도구 호출 모두 배수 증가

출처: xAI 공식 문서 (docs.x.ai/developers/model-capabilities/text/multi-agent) + Artificial Analysis 벤치마크 교차 분석

여기서 걸리는 포인트가 하나 더 있습니다. 멀티에이전트 모델은 sub-agent의 중간 추론 결과가 기본 설정에서 암호화되어 있어 리더 에이전트의 최종 응답만 보입니다. 왜 이런 답이 나왔는지 추적하려면 use_encrypted_content 옵션을 켜야 하는데, 이 경우 응답 데이터 크기도 늘어납니다. 디버깅 비용까지 고려하면 단순 태스크에 멀티에이전트를 무조건 적용하는 건 득보다 실이 큽니다.

▲ 목차로 돌아가기

Q&A

Q1. Grok 4.20을 무료로 쓸 수 있나요?
X Premium+ 또는 SuperGrok(약 $30/월) 구독자는 grok.com에서 멀티에이전트 기능을 포함해 사용할 수 있습니다. API로 사용하려면 xAI Enterprise API를 통해 유료로 연동해야 하며, 입력 $2/출력 $6(1M 토큰 기준)이 부과됩니다(출처: xAI 공식 릴리스노트, 2026.03.10). 완전 무료 플랜에서 멀티에이전트 기능은 현재 제공되지 않습니다.
Q2. ChatGPT API 형식 코드 그대로 써도 되나요?
Grok 4.20 싱글 모델은 OpenAI 호환 형식이 일부 작동하지만, 멀티에이전트 모델(grok-4.20-multi-agent)은 Chat Completions API 형식을 지원하지 않는다고 공식 문서가 명시하고 있습니다. xAI SDK 또는 Responses API로 전환해야 합니다. 기존 코드베이스 수정이 필요합니다(출처: docs.x.ai/developers/model-capabilities/text/multi-agent, Limitations).
Q3. 환각률 65% 감소가 실제로 의미 있는 수준인가요?
Grok 4.1 대비 65% 감소(약 12% → 4.2%)는 수치상 의미 있는 개선입니다(출처: Artificial Analysis 독립 평가, 2026.03.09). 다만 78% 비환각률은 뒤집어 말하면 22%의 응답에서 여전히 환각이 발생할 수 있다는 의미이기도 합니다. 의료·법률·금융처럼 정확도가 절대적인 영역에서는 여전히 출력 검증 과정이 필요합니다.
Q4. Grok 4.20 베타라고 하는데, 언제 정식 출시되나요?
xAI는 공식 발표에서 “주간 개선 업데이트”를 약속했습니다. 3월 3일 Beta 2가 나왔고, 3월 10일에는 Enterprise API에 투입됐습니다(출처: xAI 릴리스노트 docs.x.ai/developers/release-notes). 다만 정식 GA(General Availability) 일정은 아직 공개되지 않았습니다. 공식 문서는 “API 인터페이스와 동작이 변경될 수 있다”고 명시하고 있으므로, 현 시점 수치는 참고용으로만 활용하는 것이 맞습니다.
Q5. Grok 4.20 vs GPT-5.4, 어떤 게 나을까요?
복합 지능 지수에서는 GPT-5.4가 앞서 있습니다. 코딩 특화 작업도 GPT-5.4 쪽이 유리합니다. 반면 실시간 예측·다면 에이전트 리서치·금융 데이터 분석에서는 Grok 4.20의 에이전틱 지수(68.7)와 τ²-Bench(96.5%)가 유의미한 차이를 만들 수 있습니다. 단순히 “어느 모델이 더 좋다”가 아니라, 어떤 작업에 쓰느냐에 따라 선택이 달라집니다.

▲ 목차로 돌아가기

마치며

Grok 4.20은 “4개의 AI가 토론해서 답한다”는 구조가 실제로 작동하고, 특정 영역에서 유의미한 결과를 만들어내고 있습니다. ForecastBench 2위, Alpha Arena 1위, τ²-Bench 96.5%는 마케팅 문구가 아닌 독립 기관의 수치입니다.

그러나 복합 지능 지수 48점이라는 수치, Chat Completions API 미지원, max_tokens 무효, 그리고 333k 토큰 소각 사례가 보여주는 비용 구조는 분명히 짚고 넘어가야 하는 지점입니다. 아직 베타이고 주간 단위로 바뀌고 있으니, 프로덕션 도입 전에는 반드시 공식 문서의 Limitations 섹션을 직접 확인하고 비용 상한을 먼저 설정해두는 것이 맞습니다.

이 부분이 핵심입니다. Grok 4.20은 “더 좋은 범용 모델”이 아니라 “실시간 정보 기반 복합 리서치에 특화된 모델”입니다. 그 쓰임새에 맞게 쓰면 값어치를 합니다. 쓰임새와 다르게 쓰면 비용만 나갑니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. xAI 공식 릴리스노트 — docs.x.ai/developers/release-notes
  2. xAI 멀티에이전트 공식 문서 — docs.x.ai/developers/model-capabilities/text/multi-agent
  3. xAI 모델 및 가격 공식 문서 — docs.x.ai/developers/models
  4. Artificial Analysis 독립 평가 — artificialanalysis.ai
  5. Elon Musk 공식 X 발표 (2026.02.17) — x.com/elonmusk
  6. OpenRouter — Grok 4.20 Multi-Agent Beta 가격 및 스펙 — openrouter.ai
  7. KuCoin Flash — Grok 4.20 Beta 2 업데이트 (2026.03.03) — kucoin.com

본 포스팅은 2026년 3월 20일 기준으로 작성된 정보입니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. xAI Grok 4.20은 현재 베타 단계이며, API 인터페이스와 가격 구조가 수시로 변경될 수 있습니다. 투자·의료·법률 등 전문 영역에서의 AI 출력 활용 시 전문가 검토를 병행하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기