Llama 4 Scout, 1GPU면 된다고요? 이 숫자 먼저 보세요

Published on

2026년 4월 1일

2025.04.05 공개 기준
Meta AI 공식 블로그
MoE 아키텍처

Llama 4 Scout, 1GPU면 된다고요?
이 숫자 먼저 보세요

Meta가 2025년 4월 5일 기습 공개한 Llama 4 Scout는 “단일 H100 GPU, 10M 토큰 컨텍스트, 무료 오픈소스”라는 세 가지 수식어로 화제가 됐습니다. 그런데 공식 문서를 직접 열어보면 이 세 문장 사이에 쉽게 지나치는 조건들이 붙어 있습니다. 숫자부터 먼저 확인하고 판단해도 늦지 않습니다.

109B

Scout 총 파라미터

10M

토큰 컨텍스트 (공식 주장)

32위

Maverick 공개버전 LMArena 실순위

Scout와 Maverick, 뭐가 어떻게 다른가

Llama 4는 세 모델 가족으로 구성됩니다. 현재 다운로드 가능한 Scout와 Maverick, 그리고 아직 훈련 중인 Behemoth입니다. Scout와 Maverick은 같은 17B 활성 파라미터를 공유하지만 구조가 완전히 다릅니다. (출처: Meta AI 공식 블로그, 2025.04.05)

항목	Scout	Maverick
활성 파라미터	17B	17B
총 파라미터	109B	400B
전문가(Expert) 수	16개	128개
공식 컨텍스트	10M 토큰	1M 토큰
단일 GPU 가동	H100 1대 (INT4 조건)	H100 DGX 호스트 1대
API 비용 (Meta 추산)	약 $0.3/Mtok	약 $0.19~0.49/Mtok

두 모델 모두 MoE(Mixture-of-Experts) 아키텍처 덕분에 토큰 처리 시 전체 파라미터가 아닌 일부만 활성화됩니다. Scout는 16개의 전문가 중 하나를, Maverick은 128개 중 하나를 씁니다. 활성 파라미터가 같아도 총 파라미터가 4배 차이나는 이유가 여기 있습니다.

▲ 목차로 돌아가기

10M 컨텍스트, 공식 문서에 조건이 붙어 있습니다

💡 공식 발표문과 실제 배포 환경을 같이 놓고 보니 이런 간극이 보였습니다. 10M이라는 숫자가 얼마나 현실과 거리가 있는지를 Meta 본인의 노트북 코드에서 확인할 수 있었습니다.

Scout의 10M 토큰 컨텍스트는 기술적으로 사실입니다. 다만 공식 GitHub 예제 노트북(build_with_llama_4.ipynb)에는 이렇게 적혀 있습니다. “1.4M 토큰 컨텍스트를 처리하려면 H100 GPU 8대가 필요합니다.” (출처: meta-llama/llama-cookbook, GitHub)

현실은 더 빡셉니다. Groq, Fireworks 같은 서드파티 서비스들은 Scout의 컨텍스트를 최대 128,000토큰으로 제한했고, Together AI는 328,000토큰을 지원했습니다. (출처: Simon Willison 블로그, simonwillison.net, 2025.04.05) 1만 개 단위로 자른 거지, 1천만이 아닙니다.

실측 데이터 요약

1.4M 토큰 → H100 8대 필요 (Meta 공식 노트북 기준)
32k 토큰 초과 시 추론 품질 저하 보고 다수 (Reddit/LocalLLaMA, 2025.04.06)
20,000토큰 문서 요약 시 “반복 루프” 오류 실측 사례 (Simon Willison, 2025.04.05)

10M은 모델이 기술적으로 처리 가능한 상한선이지, 실용적인 권장 범위가 아닙니다. 컨텍스트를 늘릴수록 GPU 메모리 요구량이 선형이 아니라 훨씬 가파르게 늘어납니다.

▲ 목차로 돌아가기

“무료 오픈소스”인데 왜 돈이 필요한가

💡 라이선스는 무료지만 하드웨어 비용은 무료가 아닙니다. Scout와 Maverick의 자체 호스팅 비용을 공개된 GPU 단가 기준으로 직접 따져봤습니다.

Llama 4는 Llama 커뮤니티 라이선스로 배포됩니다. 다운로드와 사용은 무료지만, 자체 서버에서 돌리려면 하드웨어가 필요합니다. tokencost.app이 정리한 자체 호스팅 비용 추산은 아래와 같습니다. (출처: tokencost.app, 2026.03.26 기준)

📊 자체 호스팅 비용 비교 (H100 온디맨드 기준)

Scout (INT4 양자화)

~$2,500

/월 (H100 1대)

Maverick

~$20,000

/월 (H100 8대)

Scout는 INT4 양자화를 적용했을 때 H100 단일 GPU에서 가동됩니다. INT4 없이 풀 웨이트로 돌리면 메모리 요구량이 216GB + KV 캐시가 추가로 필요합니다. (출처: RunPod 기술 블로그, 2025.04.09) 쉽게 말해, 완전한 품질로 Scout를 쓰려면 H100 여러 대가 필요합니다.

API로 사용할 경우 Scout는 약 $0.3/Mtok, Maverick은 $0.19~$0.49/Mtok(분산추론 기준 $0.19, 단일 호스트 기준 $0.30~$0.49)입니다. (출처: llama.com 공식 페이지) Maverick이 더 저렴할 수 있는 역설적인 구조입니다.

▲ 목차로 돌아가기

ELO 1417이 진짜가 아니었던 사정

Meta는 공식 블로그에 “Llama 4 Maverick 실험적 채팅 버전이 LMArena에서 ELO 1417을 기록했다”고 썼습니다. (출처: Meta AI 공식 블로그, 2025.04.05) 2위 자리였습니다. 그런데 ‘실험적 채팅 버전’이라는 수식어가 문제였습니다.

LMArena 발표 (2025.04.08)

“Meta가 제출한 버전(Llama-4-Maverick-03-26-Experimental)은 일반에 공개된 버전과 달리 인간 선호도에 최적화된 커스텀 모델이었습니다. 이 버전은 이모지를 많이 쓰고 긴 답변을 생성하는 방식으로 투표에서 유리했습니다.” (출처: LMArena 공식 발표문 및 The Register, 2025.04.08)

LMArena가 이후 Hugging Face에서 실제 공개 버전(Llama-4-Maverick-17B-128E-Instruct)을 직접 테스트하자 순위가 2위에서 32위로 내려갔습니다. 2위에서 32위는 30단계 차이입니다. (출처: coolenjoy.net, LinkedIn 슬래시닷 인용)

이 사건 이후 LMArena는 “제출 모델이 반드시 공개 배포 버전과 동일해야 한다”는 정책을 명문화했습니다. Meta의 이름 있는 실수가 업계 전반의 평가 기준을 바꾼 셈입니다. (출처: dig.watch, 2025.04.09)

▲ 목차로 돌아가기

실제로 쓸 수 있는 상황은 따로 있습니다

💡 출시 당시 논란과 별개로, Llama 4 Scout가 실제로 쓸 만한 영역을 공식 벤치마크 수치와 교차해 보니 이런 그림이 나왔습니다.

Scout의 공식 강점은 세 영역입니다. 이미지 그라운딩, 긴 문맥 단순 검색, 그리고 멀티모달 입력입니다. Meta 공식 벤치마크에서 Scout는 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1보다 높은 점수를 냈습니다. (출처: Meta AI 공식 블로그, 2025.04.05)

단, 이 수치는 벤치마크 기준입니다. 같은 기간 Reddit/LocalLLaMA 커뮤니티의 실사용 테스트에서는 400B 파라미터 모델인 Maverick이 코딩에서 32B 모델인 Qwen-QwQ-32B와 비슷한 수준이라는 평가가 나왔습니다. (출처: r/LocalLLaMA, 2025.04.06)

Scout가 진짜 강점을 보이는 케이스는 이렇습니다. 이미지와 텍스트를 동시에 넣어야 하는 멀티모달 파이프라인, 100K~256K 토큰 범위의 문서 검색(단순 키워드 인출), 그리고 단일 H100으로 비용을 제한해야 하는 스타트업 환경입니다. 복잡한 추론이나 긴 문맥 기반 창작·코딩은 현재 기준에서 기대와 결과의 간극이 큽니다.

▲ 목차로 돌아가기

Scout vs Maverick, 어떤 기준으로 고를까

Behemoth에서 지식을 증류해서 만든 두 모델은 목적 자체가 다릅니다. Scout는 단일 GPU에서 돌아가는 경량 멀티모달 어시스턴트, Maverick은 128개 전문가로 더 풍부한 추론을 처리하는 범용 모델입니다.

✅ Scout가 맞는 경우

이미지 + 텍스트 동시 처리 파이프라인
200K 토큰 내외 문서 단순 검색
GPU 비용을 H100 1대로 제한해야 할 때
200개 언어 다국어 앱 빌드

✅ Maverick이 맞는 경우

범용 챗봇·AI 어시스턴트
코딩·수학 추론이 중심인 서비스
GPT-4o 대체 비용 절감 목적
API 비용을 토큰당으로 최적화할 때

Maverick의 API 비용이 $0.19/Mtok(분산추론 기준)이라는 점은 주목할 만합니다. GPT-4o가 $5~$10/Mtok 수준임을 감안하면 비용 효율만큼은 압도적입니다. 다만 현재 공개 API를 통해 Maverick을 쓰는 경우 배포 서비스마다 성능 편차가 있다는 점은 반드시 직접 테스트로 확인해야 합니다.

▲ 목차로 돌아가기

자주 묻는 질문 Q&A

Q1. Llama 4 Scout를 개인 PC에서 돌릴 수 있나요?

일반 소비자용 GPU(RTX 4090 등)로는 풀 웨이트(Full Weights) 실행이 어렵습니다. Scout의 총 파라미터가 109B이기 때문에 최소 216GB VRAM이 필요합니다. INT4 양자화 적용 시 단일 H100(80GB) 기준으로 가능하지만, H100은 서버용 GPU입니다. Ollama를 통한 경량 버전은 가능하지만 성능이 제한됩니다. (출처: RunPod 기술 블로그, 2025.04.09)

Q2. Llama 4 Behemoth는 언제 나오나요?

Meta는 2025년 4월 공개 당시 “아직 훈련 중”이라고 밝혔습니다. 2조 개에 가까운 파라미터를 가진 모델로, 공개 시점은 Meta가 별도 발표를 내놓지 않았습니다. 2025년 4월 29일 LlamaCon에서 추가 정보를 공유할 예정이라고 언급했습니다. (출처: Meta AI 공식 블로그, 2025.04.05)

Q3. LMArena 논란 이후 Maverick 성능은 어떻게 됐나요?

공개 버전이 LMArena에 등록된 후 32위를 기록했습니다. 실험 버전이 2위를 차지한 것과 대조적입니다. Meta는 “다양한 커스텀 변형을 실험한다”고 입장을 냈지만, 공개 버전과 아레나 제출 버전이 달랐던 점에 대해서는 공식 해명을 내놓지 않았습니다. (출처: The Register, 2025.04.08)

Q4. 10M 컨텍스트를 실제로 쓸 수 있는 방법이 있나요?

현재 상용 서비스에서 10M 전체를 지원하는 곳은 없습니다. 1.4M 토큰 수준도 H100 8대가 필요합니다. 자체 인프라를 가진 기업이라면 분산 추론 설정으로 대용량 컨텍스트에 접근할 수 있지만, 이 경우 비용과 지연 시간 모두 크게 늘어납니다. 실용적인 상한선은 현재 256K 내외로 보는 시각이 많습니다.

Q5. Scout와 Maverick의 한국어 지원 수준은 어떤가요?

Llama 4는 200개 언어로 사전 학습됐고, 그 중 한국어를 포함한 100개 이상의 언어는 각각 10억 토큰 이상의 데이터를 포함합니다. 전체적으로 Llama 3보다 10배 많은 다국어 토큰을 학습했습니다. (출처: Meta AI 공식 블로그, 2025.04.05) 한국어 성능은 이전 세대 대비 개선됐지만, 코딩·수학 추론에서 영어 대비 품질 차이가 있다는 것이 실사용 후기의 공통된 의견입니다.

▲ 목차로 돌아가기

마치며

Llama 4 Scout는 “단일 GPU + 10M 컨텍스트 + 무료”라는 조합이 마케팅적으로는 맞지만, 실제 배포 환경에서는 각각에 조건이 붙습니다. 1GPU는 INT4 양자화와 제한된 컨텍스트 기준이고, 10M은 H100 여러 대를 전제로 하며, 무료는 라이선스 한정이고 인프라 비용은 별개입니다.

솔직히 말하면, 출시 직후 논란은 컸습니다. LMArena 순위 사건은 오픈소스 AI 벤치마크 생태계 전체에 경각심을 줬고, 결과적으로 평가 기준이 더 엄격해지는 계기가 됐습니다. 그 자체로 의미 있는 변화입니다.

Scout가 실제로 강한 건 이미지 그라운딩, 멀티모달 처리, 200K 내외 문서 검색입니다. 그 범위를 벗어난 기대치를 가지고 접근하면 실망이 옵니다. 어떤 모델이든 공식 벤치마크 숫자보다 자신의 실제 워크로드에서 직접 테스트하는 것이 가장 정직한 평가 방법입니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 시점 기준이며 Meta, LMArena, 각 서비스의 정책에 따라 달라질 수 있습니다. 투자·기술 도입 결정 전 공식 문서를 반드시 최신 버전으로 확인하시기 바랍니다.

오픈소스LLM, Llama4Scout, LLM호스팅비용, Maverick비교, MetaAI

Llama 4 Scout, 1GPU면 된다고요? 이 숫자 먼저 보세요

Llama 4 Scout, 1GPU면 된다고요?
이 숫자 먼저 보세요

Scout와 Maverick, 뭐가 어떻게 다른가

10M 컨텍스트, 공식 문서에 조건이 붙어 있습니다

“무료 오픈소스”인데 왜 돈이 필요한가

ELO 1417이 진짜가 아니었던 사정

실제로 쓸 수 있는 상황은 따로 있습니다

Scout vs Maverick, 어떤 기준으로 고를까

자주 묻는 질문 Q&A

마치며

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Llama 4 Scout, 1GPU면 된다고요? 이 숫자 먼저 보세요

Llama 4 Scout, 1GPU면 된다고요?이 숫자 먼저 보세요

Scout와 Maverick, 뭐가 어떻게 다른가

10M 컨텍스트, 공식 문서에 조건이 붙어 있습니다

“무료 오픈소스”인데 왜 돈이 필요한가

ELO 1417이 진짜가 아니었던 사정

실제로 쓸 수 있는 상황은 따로 있습니다

Scout vs Maverick, 어떤 기준으로 고를까

자주 묻는 질문 Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기

Llama 4 Scout, 1GPU면 된다고요?
이 숫자 먼저 보세요