Grok 4.20 Beta 0309 기준
xAI 공식 문서 검증
Grok 4.20 멀티에이전트, 4명이 답한다는 게 진짜일까요?
벤치마크 순위는 GPT-5.4에 한참 밀립니다. 그런데 실거래 AI 경쟁에서 유일하게 수익을 낸 모델이 Grok 4.20입니다. 이게 말이 되는 얘기인지, 공식 문서와 실측 데이터로 직접 확인했습니다.
4명의 에이전트가 동시에 달려드는 구조
Grok 4.20 멀티에이전트는 2026년 2월 17일 xAI가 공개 베타로 출시한 모델입니다. 핵심은 이름 그대로 ‘하나의 AI가 답하는 게 아니다’는 구조입니다. 실제로 xAI 공식 문서(docs.x.ai 멀티에이전트 문서)를 보면, 요청 하나에 여러 에이전트가 병렬로 실행되고, 리더 에이전트가 최종 답을 종합하는 구조라고 명시돼 있습니다.
4개의 에이전트는 각자 역할이 다릅니다. 리더인 Grok(Captain)이 전체를 조율하고, Harper가 실시간 검색과 팩트 검증을, Benjamin이 수학·코딩·논리 추론을, Lucas가 창의적 관점과 가독성 최적화를 맡습니다. 이 4명이 각자 분석한 뒤 내부 토론을 거쳐 모순이 있으면 서로 수정하고, 최종 결론을 리더가 합칩니다.
💡 공식 발표문과 실제 작동 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 각 에이전트의 중간 추론 과정은 기본 응답에 포함되지 않습니다. 암호화된 형태로만 저장되고, SDK에서 use_encrypted_content=True를 설정할 때만 볼 수 있습니다. 즉, 에이전트들이 어떻게 토론했는지는 기본 상태에선 알 수 없습니다. (출처: xAI 공식 문서, 2026.03)
에이전트 수는 4개 또는 16개로 설정할 수 있습니다. API 파라미터로는 agent_count=4 또는 agent_count=16으로 지정합니다. 16개 에이전트는 더 깊은 분석을 하지만 그만큼 토큰 사용량이 급격히 늘어납니다 — 이 토큰 비용 문제는 뒤에서 구체적인 수치로 다룹니다.
벤치마크에서 밀리는데 실거래에서 이긴 이유
Artificial Analysis Intelligence Index 기준으로 Grok 4.20 Beta(추론 모드)는 48점입니다. 같은 기준으로 Gemini 3.1 Pro Preview와 GPT-5.4는 각각 57점입니다. 수치만 보면 9점 차이, 단순히 “뒤처진 모델”처럼 보입니다. (출처: Artificial Analysis Intelligence Index, 2026.03 기준)
그런데 이 벤치마크에 포함된 AA-Omniscience 비-할루시네이션율에서는 얘기가 달라집니다. Grok 4.20은 78%로 현재까지 테스트된 모든 모델 중 가장 낮은 할루시네이션 비율을 기록했습니다. 다시 말해, 모르는 걸 모른다고 하는 비율이 가장 높습니다. (출처: the-decoder.com, Artificial Analysis Omniscience 테스트, 2026.03.12)
💡 Alpha Arena 실거래 AI 경쟁에서 Grok 4.20의 초기 체크포인트가 평균 12.11% 수익을 기록하며 유일하게 흑자를 냈습니다. GPT-5.4, Claude, Gemini는 모두 손실이었습니다. 이 결과는 “종합 지능 지수”가 높다고 실전에서 반드시 이기는 건 아님을 보여주는 사례입니다. (출처: help.apiyi.com Grok 4.20 Beta Guide, 2026.02.17)
실거래에서 Grok 4.20이 우세했던 이유는 X 플랫폼의 실시간 데이터 독점 접근이 크게 작용했습니다. Harper 에이전트는 하루 약 6,800만 건의 영문 X 포스트를 밀리초 단위로 처리해 시장 심리를 가격 신호로 변환합니다. 이 기능은 xAI의 X 플랫폼 소유권에서 비롯된 구조적 이점으로, 다른 모델이 복제하기 어렵습니다. 단, 이 기능은 API에서 x_search 툴을 명시적으로 활성화해야만 작동합니다.
멀티에이전트를 쓰면 토큰 요금이 이렇게 나옵니다
결론부터 말씀드리면, 멀티에이전트 모드는 단순히 “한 모델을 쓰는 것보다 좀 더 비싼” 수준이 아닙니다. 공개된 데이터 기준으로 단일 에이전트 시스템의 토큰 효율은 1,000토큰당 67.7 성공인 반면, 하이브리드 멀티에이전트는 13.6으로 떨어집니다. 같은 결과를 내기 위해 약 5배 더 많은 토큰을 씁니다. (출처: LinkedIn The Shift Newsletter, 멀티에이전트 토큰 효율 분석)
| 항목 | Grok 4.20 멀티에이전트 | GPT-5.4 (단일) |
|---|---|---|
| 입력 토큰 (1M당) | $2.00 | $2.50 |
| 출력 토큰 (1M당) | $6.00 | $15.00 |
| 웹 서치 툴 호출 | $5 / 1,000건 (별도) | 포함 |
| 컨텍스트 윈도우 | 2,000K 토큰 | 1,050K 토큰 |
| Intelligence Index | 48점 | 57점 |
표에서 눈에 띄는 건 웹 서치 툴 호출 비용입니다. xAI 공식 문서에 따르면 web_search와 x_search는 각각 1,000건당 $5가 토큰 비용과 별도로 청구됩니다. 멀티에이전트 모드에서 4개의 에이전트가 각자 독립적으로 검색을 호출하면, 단일 요청 1건에 서치 비용이 4배로 불어날 수 있습니다. (출처: docs.x.ai Tools Pricing, 2026.03)
⚠️ 실사용 함정: Reddit 실사용 후기에서 “에이전트들이 단순한 질문에도 과도하게 생각해서 7,000토큰을 소모했다”는 보고가 있었습니다. 복잡한 질문이 아닌 일상적인 질의에 멀티에이전트를 사용하면 비용 대비 효과가 떨어질 수 있습니다. (출처: Reddit r/SillyTavernAI, 2026.03.15)
공식 문서에 적혀 있는 지원 안 되는 기능들
xAI 공식 문서를 직접 보면 멀티에이전트 모드에서 작동하지 않는 기능 목록이 명확히 있습니다. 흔히 간과하기 쉬운 부분이라 정리가 필요합니다.
공식 문서 기준 멀티에이전트 미지원 항목 (2026.03 기준)
- OpenAI Chat Completions API 미지원 — 멀티에이전트 모델은 xAI SDK 또는 Responses API로만 호출해야 합니다. OpenAI 호환 방식으로 연결하면 작동하지 않습니다.
- 클라이언트 측 커스텀 툴 미지원 — 함수 호출(Function Calling)과 커스텀 툴을 직접 정의해 사용하는 방식이 현재 지원되지 않습니다. xAI 내장 툴(web_search, x_search 등)만 사용 가능합니다.
- max_tokens 파라미터 미지원 — 출력 길이를 제한하는 max_tokens 설정이 적용되지 않습니다.
- logprobs 필드 무시 — logprobs를 설정해도 무시되며 오류 없이 그냥 건너뜁니다.
이 중 가장 실질적인 영향을 주는 건 OpenAI Chat Completions API 미지원입니다. 기존에 GPT 계열 모델을 사용하던 개발자들은 보통 OpenAI 호환 엔드포인트로 통합해 사용합니다. 그런데 Grok 4.20 멀티에이전트는 이 방식이 안 됩니다. 연동 방식을 새로 짜야 한다는 의미입니다. (출처: docs.x.ai 멀티에이전트 Limitations 섹션, 2026.03)
또 한 가지 간과하기 쉬운 점은 지식 컷오프입니다. 공식 문서에 따르면 Grok 4 계열의 학습 데이터 컷오프는 2024년 11월입니다. 서치 툴을 켜지 않으면 2024년 11월 이후 사건은 모릅니다. 멀티에이전트가 “최신 정보를 자동으로 다 안다”는 인식은 정확하지 않습니다. (출처: docs.x.ai/developers/models, 2026.03)
4에이전트와 16에이전트, 뭘 골라야 할까요
xAI 공식 문서는 이 두 가지 설정에 대해 명확한 기준을 제시하고 있습니다. 4에이전트는 reasoning.effort: "low" 또는 "medium"에 해당하고, 16에이전트는 "high" 또는 "xhigh"입니다. (출처: docs.x.ai 멀티에이전트 Configuration 섹션, 2026.03)
집중적이고 빠른 리서치, 단일 도메인 질문, 비용 효율이 중요한 상황에 적합합니다. 일반 업무의 80%는 이걸로 충분합니다.
여러 도메인을 가로지르는 복합적인 분석, 학술 리서치, 절대적인 깊이가 필요한 상황에 씁니다. 토큰 비용이 크게 올라가는 걸 감수해야 합니다.
SuperGrok($30/월) 또는 X Premium+ 구독자는 grok.com 모델 셀렉터에서 “Grok 4.20 Beta” 옵션을 선택해 바로 사용할 수 있습니다. API 개발자는 grok-4.20-multi-agent-beta-0309를 모델명으로 지정합니다. 현재 OpenRouter에서도 입력 $2/1M, 출력 $6/1M 조건으로 접근 가능합니다. (출처: OpenRouter Grok 4.20 Multi-Agent Beta)
솔직히 말하면, 현재 시점에서 Grok 4.20 멀티에이전트가 GPT-5.4보다 “전반적으로 더 낫다”고 하기는 어렵습니다. Intelligence Index 기준으로 9점 차이는 무시하기 어렵고, OpenAI 호환 API를 쓰는 기존 워크플로에 바로 끼워 넣을 수도 없습니다. 하지만 팩트 정확도가 중요한 리서치 작업, 또는 X 플랫폼 실시간 데이터가 필요한 케이스에서는 현재 경쟁자가 없는 구조적 강점을 갖고 있습니다. 어떤 상황에서 쓰느냐가 결국 결정적입니다.
Q&A
마치며
Grok 4.20 멀티에이전트는 “4명이 동시에 답한다”는 구조가 실제로 작동하는 모델입니다. 할루시네이션 비율이 가장 낮다는 수치, 실거래 AI 경쟁에서 유일하게 수익을 낸 사례는 무시하기 어렵습니다. 특히 X 플랫폼 실시간 데이터를 활용하는 시나리오에서는 다른 모델이 따라가기 어려운 구조적 이점이 있습니다.
반면 벤치마크 전반에서의 Intelligence Index 열세, OpenAI 호환 API 미지원, 멀티에이전트 모드에서의 토큰 효율 저하(단일 대비 약 5배 토큰 소모)는 현실적인 제약입니다. 툴 호출 비용이 토큰 비용과 별도로 붙는다는 것도 예산 계획 시 빠뜨려선 안 됩니다.
지금 당장 GPT-5.4에서 갈아타야 할 만큼 전면적으로 우세한 모델은 아닙니다. 하지만 팩트 정확도가 최우선인 리서치 작업, 실시간 시장 정보를 다루는 케이스에서는 현재 가장 현실적인 선택지 중 하나입니다. 베타 딱지가 떼어지고 커스텀 툴 지원이 추가된다면 이야기가 달라질 수 있습니다.
본 포스팅 참고 자료
※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Grok 4.20은 현재 베타 단계로 API 인터페이스와 가격 정책이 공지 없이 변경될 수 있습니다. 모든 수치는 2026.03.19 기준이며, 최신 정보는 xAI 공식 문서에서 확인하시기 바랍니다. 본 포스팅은 정보 제공 목적으로 작성되었으며 특정 서비스 사용을 권장하는 의도가 없습니다.


댓글 남기기