Grok 4.20 멀티에이전트, 비싸다는 말이 절반만 맞는 이유

Published on

in

Grok 4.20 멀티에이전트, 비싸다는 말이 절반만 맞는 이유

2026.03.10 공식 출시
grok-4.20-multi-agent 기준
TECH

Grok 4.20 멀티에이전트, 비싸다는 말이 절반만 맞는 이유

에이전트가 4개면 비용도 4배일 거라는 생각, 막상 공식 문서를 열어보면 다릅니다. 하지만 16에이전트 모드는 진짜로 무섭게 나오고, Chat Completions API는 아예 안 됩니다.

$2/$6
입력/출력 백만 토큰당
65%
할루시네이션 감소율
2M
컨텍스트 윈도우 (토큰)

에이전트 4개인데 비용이 4배가 아닌 이유

Grok 4.20 멀티에이전트를 처음 봤을 때 드는 첫 번째 반응은 “그럼 요금도 4배잖아?”입니다. 솔직히 저도 그렇게 생각했습니다. 근데 직접 공식 문서를 확인해보니 그렇지 않습니다.

💡 공식 발표문과 실제 아키텍처 설명을 같이 놓고 보니 이런 차이가 보였습니다

4개 에이전트가 같은 모델 가중치를 공유하고, xAI의 Colossus 인프라에서 동일한 프리픽스 캐시와 입력 컨텍스트를 공유합니다. 그래서 실제 한계 비용은 단일 패스 대비 1.5~2.5배 수준입니다. (출처: AI Maker Newsletter, Ilia Karelin, 2026.03.25)

그리고 공식 API 요금 자체가 Grok 4($3/$15)보다 오히려 낮습니다. Grok 4.20 기본 요금은 입력 토큰 백만 개당 $2, 출력 토큰 백만 개당 $6입니다. (출처: OpenRouter, 2026.03.12 기준 / xAI 공식 콘솔) 요금이 낮아진 건데, 이걸 “비싸다”고만 받아들이면 절반이 틀린 겁니다.

단, 함정이 있습니다. 멀티에이전트 모드에서는 리더 에이전트와 서브 에이전트 전체가 소비하는 토큰이 모두 과금됩니다. 툴콜도 각 에이전트가 독립적으로 호출하기 때문에 쿼리 하나에 web_search가 여러 번 실행될 수 있습니다.

▲ 목차로 돌아가기

4명의 에이전트가 실제로 하는 일

Grok 4.20 멀티에이전트는 복잡한 쿼리를 받으면 동시에 4개의 에이전트를 가동합니다. 이름도 있습니다. 역할도 공식 문서와 아키텍처 설명에서 구체적으로 확인할 수 있습니다.

에이전트 역할 핵심 임무
Grok (Captain) 리더 태스크 분해, 배분, 최종 답변 합성
Harper 리서처 웹·X 실시간 검색, 수치·출처 검증
Benjamin 애널리스트 수학·코드·논리 검증, 계산 재확인
Lucas 반론가 대안 시각 탐색, 약점·맹점 지적

4개가 동시에 생각하고, 서로 반박하고, 리더가 최종 합성합니다. 흥미로운 건 Lucas의 존재입니다. xAI는 이 에이전트를 아예 “반박하도록 훈련”했습니다. 팀에서 유일하게 “이거 맞아?”라고 물어보는 역할이라고 보면 됩니다.

이 구조 덕분에 할루시네이션 비율이 Grok 4.1의 약 12%에서 약 4.2%로 낮아졌습니다. 65% 감소. (출처: AI Maker Newsletter / xAI 공식 발표, 2026.02.17) 단순 성능 향상이 아니라 구조 자체를 바꿔서 얻은 결과입니다.

▲ 목차로 돌아가기

4에이전트 vs 16에이전트, 뭐가 다를까

API에서 에이전트 수를 직접 고를 수 있습니다. xAI SDK 기준으로 agent_count=4 또는 agent_count=16으로 설정합니다. OpenAI SDK를 쓰면 reasoning.effort로 조정합니다.

구분 4에이전트 16에이전트
SDK 파라미터 agent_count=4 agent_count=16
reasoning.effort low / medium high / xhigh
적합한 쿼리 집중형·빠른 리서치 복잡한 다면 분석
구독 플랜 SuperGrok / Premium+ SuperGrok Heavy ($30/월)

16에이전트는 단순히 이름 붙은 페르소나 16개가 아닙니다. 같은 전문화 패턴을 더 많은 수로 병렬 확장한 구조입니다. 더 많은 가설을 동시에 탐색하고, 상호 검증 루프도 깊어집니다.

문제는 토큰입니다. 16에이전트 설정은 4에이전트보다 토큰 사용량이 “유의미하게 많다”고 공식 문서에 직접 경고하고 있습니다. (출처: xAI 공식 Multi-agent 문서, docs.x.ai, 2026.03.10) 실제 Reddit 사용자들도 멀티에이전트 모드에서 700토큰짜리 답변을 받는 동안 추론 토큰이 수천~수만 개 소모됐다고 보고합니다. 추론 토큰도 동일 요금으로 과금됩니다.

▲ 목차로 돌아가기

모르면 꽤 당황하는 API 제약 사항

Grok 4.20 멀티에이전트를 API로 붙이려고 할 때, 기존 Grok 코드를 그대로 가져오면 안 됩니다. 공식 문서에 명시된 제약을 먼저 봐야 합니다.

💡 대부분의 Grok 튜토리얼이 다루지 않는 부분을 공식 문서에서 직접 확인했습니다

❌ Chat Completions API 미지원 — Grok 4.20 멀티에이전트는 OpenAI 호환 Chat Completions API에서 동작하지 않습니다. xAI SDK 또는 Responses API를 써야 합니다.

❌ client-side 툴·커스텀 툴 미지원 — 직접 만든 함수 툴(function calling)은 지금 지원하지 않습니다. web_search, x_search, code_execution 같은 xAI 내장 툴과 Remote MCP만 됩니다.

❌ max_tokens 미지원 — 응답 길이 제한 파라미터가 통하지 않습니다. 비용 상한 설정이 불가합니다.

⚠️ logprobs 무시됨 — logprobs 파라미터를 넣어도 응답에 포함되지 않습니다. (출처: xAI 공식 Multi-agent 문서, docs.x.ai)

특히 Chat Completions API 미지원은 기존 OpenAI 호환 코드베이스를 쓰는 팀이라면 마이그레이션 비용이 생긴다는 뜻입니다. 단순히 모델명만 바꿔서는 동작하지 않습니다. 이유는 공식 문서에서 별도로 밝히지 않았습니다.

▲ 목차로 돌아가기

실제 요금이 얼마나 나오는지 직접 따져봤습니다

요금 계산은 직접 해봐야 감이 옵니다. 공식 문서의 숫자를 가져다 쌓아봤습니다.

📌 기본 토큰 요금 (2026.03 기준, OpenRouter 확인)

모델 입력 (1M 토큰) 출력 (1M 토큰)
Grok 4.20 $2.00 $6.00
Grok 4 (비교) $3.00 $15.00
GPT-4.1 mini (비교) $0.40 $1.60

📌 실제 비용 계산 시나리오 (4에이전트, web_search 3회 사용)

가정: 입력 10만 토큰 + 출력 5만 토큰 + 추론 토큰 15만 토큰 + web_search 3회

• 입력: 100,000 ÷ 1,000,000 × $2.00 = $0.20

• 출력: 50,000 ÷ 1,000,000 × $6.00 = $0.30

• 추론: 150,000 ÷ 1,000,000 × $6.00 = $0.90

• web_search 3회: 3 ÷ 1,000 × $5.00 = $0.015

총계: 약 $1.415 / 요청 1건

추론 토큰이 전체 비용의 63%를 차지합니다. 멀티에이전트 모드에서는 각 에이전트가 독립적으로 추론 토큰을 소모하기 때문에 쿼리 복잡도가 올라갈수록 이 비율이 더 커집니다.

16에이전트로 올리면? xAI 문서에서 “significantly more tokens”라고 표현합니다. 공식 배수는 공개되지 않았습니다. 다만 Reddit 실사용 기록을 보면 추론 토큰이 단순 4에이전트 대비 3~5배 이상 나온 사례가 확인됩니다. 이 점을 모르고 SuperGrok Heavy를 API에 붙이면 예상 외로 나올 수 있습니다.

▲ 목차로 돌아가기

Grok 4 대비 어떤 상황에서 유리한가

Grok 4.20 멀티에이전트를 쓸 이유가 명확한 상황과 그렇지 않은 상황을 구분하는 게 중요합니다.

💡 Grok 4와 Grok 4.20을 나란히 놓고 비교하니 용도가 갈렸습니다

✅ Grok 4.20이 유리한 경우: 팩트 정확도가 중요한 리서치, 코드 검증, 다중 출처 비교 분석처럼 “틀리면 안 되는” 쿼리. 할루시네이션 비율이 낮아서 후처리 비용이 줄어드는 경우라면 토큰 비용이 더 나와도 전체 비용은 낮아집니다.

⚠️ Grok 4 또는 단일 모델이 나은 경우: 빠른 응답이 필요한 챗봇, 간단한 텍스트 생성, max_tokens 제어가 필요한 워크플로우, 기존 Chat Completions API 코드베이스를 바꾸기 어려운 경우.

Grok 4의 지식 컷오프는 2024년 11월입니다. (출처: xAI 공식 문서) 이는 Grok 4.20도 동일합니다. 실시간 정보가 필요하면 어차피 web_search 툴을 켜야 하는데, 이때 멀티에이전트의 병렬 검색 능력이 빛납니다. Harper가 실시간 데이터를 당기는 동안 Benjamin이 수치를 검증하는 방식이 순차 단일 모델보다 빠릅니다.

Batch API도 씁니다. Grok 4.20을 배치로 돌리면 토큰 비용 50% 할인이 적용됩니다. (출처: xAI Batch API 문서) 단, 이미지·영상 생성은 배치에서 할인 없이 표준 요금 그대로 과금됩니다. 배치는 텍스트 모델에만 반값이 적용됩니다.

▲ 목차로 돌아가기

자주 묻는 질문

Grok 4.20 멀티에이전트는 grok.com에서도 바로 쓸 수 있나요?

SuperGrok 또는 Premium+ 구독에서 기본 4에이전트 모드로 사용할 수 있습니다. 16에이전트는 SuperGrok Heavy($30/월)가 필요합니다. API로 쓰려면 xAI SDK 또는 Responses API를 써야 하고, OpenAI 호환 Chat Completions API는 지원하지 않습니다.
서브 에이전트들이 어떤 내용을 논의했는지 볼 수 있나요?

기본 설정에서는 리더 에이전트의 최종 답변과 툴콜만 돌아옵니다. 서브 에이전트의 중간 추론과 툴콜은 암호화된 형태로 응답에 포함됩니다. xAI SDK에서 use_encrypted_content=True를 설정하면 멀티턴 대화를 이어갈 때 이 컨텍스트를 유지할 수 있습니다.
도구를 쓰지 않아도 멀티에이전트 효과가 있나요?

됩니다. 공식 문서에 “Without Built-in Tools” 패턴이 별도로 설명돼 있습니다. 도구 없이도 에이전트들이 각자의 지식과 추론으로 토론하고 합성합니다. 다만 실시간 정보가 필요하면 web_search를 함께 써야 합니다.
Batch API로 멀티에이전트도 50% 할인되나요?

텍스트 토큰에 한해 50% 할인이 적용됩니다. 배치 API는 즉각 응답이 아니라 최대 24시간 내 처리입니다. 멀티에이전트 모드에서 배치를 쓰면 추론 토큰과 입출력 토큰 모두 반값이지만, 서버사이드 툴콜 비용은 할인되지 않습니다.
4에이전트와 16에이전트 비용 차이가 실제로 얼마나 나나요?

xAI 공식 문서는 “significantly more tokens”라고만 표현하고 정확한 배수는 공개하지 않았습니다. 실사용자 기록을 보면 추론 토큰 기준으로 3~5배 이상 차이가 난 사례가 있습니다. 복잡한 쿼리일수록 격차가 더 커지는 경향이 있습니다. 먼저 4에이전트로 테스트해서 비용을 확인한 다음, 정확도가 더 중요한 경우에만 16으로 올리는 게 낫습니다.

▲ 목차로 돌아가기

마치며

Grok 4.20 멀티에이전트를 한 줄로 정리하면, “정확도가 필요한 쿼리에서는 기존 단일 모델보다 합리적인 선택일 수 있지만, 비용 구조를 모르면 예상보다 많이 나올 수 있다”입니다.

비용이 4배라는 말은 절반만 맞습니다. 기본 토큰 단가는 Grok 4보다 오히려 낮습니다. 하지만 추론 토큰이 쌓이는 속도, 툴콜 중복 과금, 16에이전트에서 터지는 비용은 진짜 고려해야 합니다. max_tokens가 안 되니 비용 캡도 없습니다. Chat Completions API가 안 되니 기존 코드베이스를 그대로 쓸 수도 없습니다.

개인적으로는 4에이전트 기본 설정에서 충분히 써보고, 비용이 감당된다면 16에이전트로 올리는 순서를 권합니다. 지금 베타 상태라 API 인터페이스가 앞으로 바뀔 수 있다는 점도 공식 문서에 명시돼 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. xAI 공식 Release Notes (docs.x.ai)
  2. xAI 공식 Multi-agent 문서 (docs.x.ai)
  3. xAI 공식 Models and Pricing (docs.x.ai)
  4. OpenRouter — Grok 4.20 Beta 요금 (2026.03.12)
  5. AI Maker Newsletter — Grok 4.20 아키텍처 분석 (2026.03.25)

본 포스팅은 2026년 3월 28일 기준으로 작성됐습니다. xAI Grok 4.20은 현재 베타 상태이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. API 인터페이스 변경 및 브레이킹 체인지 가능성이 공식 문서에 명시돼 있으므로, 실 적용 전 xAI 공식 문서를 반드시 재확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기