Llama 4 Scout 10M 토큰, 실제론 131K입니다

Published on

in

Llama 4 Scout 10M 토큰, 실제론 131K입니다

2025.04.05 출시 기준
Llama 4 Scout 17B-16E-Instruct
2026.03.31 작성

Llama 4 Scout 10M 토큰, 실제론 131K입니다

Meta가 Llama 4 Scout를 발표하면서 가장 크게 내세운 숫자가 바로 10,000,000 토큰입니다. “역대 오픈소스 모델 최대 컨텍스트”라는 문구가 쏟아졌죠. 막상 써보면 다릅니다. Groq을 비롯한 실제 서비스 제공사에서는 131K 토큰으로 제한되어 있고, 공식 커뮤니티에서도 이를 인정했습니다. 그 이유와, 그럼에도 Llama 4 Scout를 써야 하는 경우와 쓰지 말아야 할 경우를 공식 수치 기반으로 정리했습니다.

10M
공식 발표 컨텍스트
131K
실제 서비스 제공 한도
109B
총 파라미터 수
80GB+
로컬 실행 최소 VRAM

Llama 4 Scout가 뭔지 — 30초 요약

Meta가 2025년 4월 5일 공개한 Llama 4 Scout는 활성 파라미터 17B, 전문가 모듈(Expert) 16개로 구성된 MoE(Mixture of Experts) 아키텍처 모델입니다. 총 파라미터는 109B이지만, 추론 시 실제로 활성화되는 건 17B뿐이라 같은 크기의 Dense 모델보다 추론 비용이 낮습니다. (출처: Meta AI 공식 블로그, 2025.04.05)

Llama 3 시리즈와 결정적으로 다른 점이 두 가지입니다. 첫째, 처음부터 이미지와 텍스트를 함께 처리하는 네이티브 멀티모달 구조를 채택했습니다. 둘째, 컨텍스트 길이가 Llama 3의 128K에서 10M으로 껑충 뛰었다고 발표했습니다. 후자가 이 모델을 둘러싼 논란의 핵심입니다.

가격은 공식 API 기준 입력 토큰 $0.15/M, 출력 토큰 $0.60/M입니다. (출처: anotherwrapper.com LLM Pricing, 2026.03.11) GPT-4o mini보다 저렴하고, Groq을 통해 무료로도 쓸 수 있습니다.

💡 공식 발표문과 실제 서비스 사양을 나란히 놓고 보니, 숫자가 꽤 다릅니다. 공식 스펙 10M, 실제 Groq 서비스 131K — 같은 모델을 가리키는 서로 다른 숫자입니다.

▲ 목차로 돌아가기

10M 컨텍스트, 왜 실제로는 131K인가

숫자가 76배 줄어드는 이유

공식 스펙은 10M(1,000만 토큰)이지만, Groq 공식 커뮤니티에서는 “Llama Scout는 현재 131K 컨텍스트 윈도우로만 실행됩니다. 사실 어떤 서비스 제공사도 전체 10M 컨텍스트 윈도우로 실행하지 않습니다”라고 직접 밝혔습니다. (출처: Groq Community, 2025.06.19) 10M 대신 131K. 76분의 1 수준입니다.

기술적인 이유는 메모리 구조에 있습니다. Groq의 LPU는 연산 속도를 위해 모든 데이터를 SRAM에 올려놓는 방식을 씁니다. 빠르지만 용량이 극히 제한적입니다. 10M 컨텍스트를 완전히 담으려면 파라미터 저장 메모리 외에 몇 배 이상의 추가 메모리가 필요한데, 현재 어떤 클라우드 서비스도 이를 경제적으로 제공하지 못합니다. (출처: Reddit r/LocalLLaMA, 2025.04.06 스레드 내 엔지니어 설명)

💡 아키텍처를 보면 왜 이런 간극이 생기는지 보입니다. Llama 4 Scout는 32개 레이어 + 슬라이딩 윈도우 어텐션(크기 4096)을 사용하는데, 슬라이딩 윈도우의 이론적 최대 어텐션 범위가 32 × 4096 = 약 131,072 토큰입니다. 10M은 이 구조를 넘어서는 특수 추론 기법을 써야 가능한 수치인데, 상용 인프라에서 이를 실시간으로 처리하는 건 현재 사실상 불가능합니다.

로컬에서도 쓸 수 없습니다

“오픈웨이트니까 내 컴퓨터에서 돌리면 되지 않나?” 하는 생각이 드실 수 있습니다. 현실은 다릅니다. 4비트 양자화 버전조차 최소 80GB VRAM이 필요합니다. (출처: KDnuggets, 2025.04.05) NVIDIA H100 한 장이 약 $20,000~$30,000 수준인 장비입니다. 일반 게이밍 GPU(RTX 4090, 24GB VRAM)로는 애초에 실행이 되지 않습니다.

Llama 시리즈가 오픈소스 LLM 생태계의 상징이 될 수 있었던 건 7B, 13B 같은 소형 모델을 중심으로 누구나 로컬에서 실험할 수 있었기 때문입니다. Llama 4 Scout의 최소 모델이 109B(활성 17B)라는 사실은, 이 라인업에서 “로컬 실행”이라는 개념 자체가 이미 사라졌다는 뜻입니다.

▲ 목차로 돌아가기

LMArena 2위 스캔들 — 공개된 모델이 아니었습니다

Llama 4 공개 직후 LMArena(챗봇 아레나) 리더보드에서 2위를 차지했다는 소식이 퍼졌습니다. 인상적인 숫자였지만, 이후 공개된 사실은 달랐습니다. LMArena 공식 트위터(@lmarena_ai)는 “아레나에서 평가된 Llama 4 버전은 (a) 공개 배포된 Scout나 Maverick이 아니며, (b) 인간 선호도 점수를 높이도록 별도 튜닝된 버전”이라고 밝혔습니다. (출처: @lmarena_ai 공식 트위터, 2025.04.08)

Meta 측은 이를 “인간 선호도 최적화”라고 설명했습니다. 벤치마크 조작이라고 보기는 어렵지만, 실제로 다운로드해서 쓸 수 있는 모델과 점수를 낸 모델이 다르다는 점은 사용 결정 전에 알아야 할 사항입니다. 직접 사용해볼 Scout/Maverick과 아레나 2위 모델은 다른 물건입니다.

💡 LMArena ELO 1417이라는 수치와 직접 사용 가능한 모델의 수치는 별개입니다. 아레나 점수를 보고 쓸 모델을 결정했다면, 실제 쓸 모델의 성능은 따로 확인해야 합니다.

▲ 목차로 돌아가기

벤치마크 수치 직접 비교 — 어디서는 1등, 어디서는 꼴찌

Llama 4 Scout를 평가한 벤치마크 결과는 어떤 지표를 보느냐에 따라 극명하게 갈립니다. Meta 공식 블로그에서 제시한 벤치마크에서는 Gemma 3, Gemini 2.0 Flash-Lite, Mistral 3.1을 상회한다고 밝혔습니다. (출처: Meta AI 공식 블로그, 2025.04.05)

벤치마크 Llama 4 Scout 비고
GPQA Diamond 57.2% Gemma 3 대비 우세
MMLU 79.6% 일반 지식 종합
MATH 61.2% 수학 추론
MMMU (멀티모달) 69.4% 이미지+텍스트 이해
Fiction.liveBench (긴 맥락 이해) 하위권 긴 텍스트 실질 이해력 평가에서 최하위
Aider 코딩 벤치마크 (Maverick 기준) 15.6% Qwen2.5-Coder-32B(16.4%)보다 낮음

수치를 교차해서 보면 패턴이 보입니다. 표준 벤치마크(MMLU, GPQA 등)에서는 클래스 최상위권을 기록하지만, 실제 사용 패턴에 가까운 긴 맥락 이해나 실전 코딩 작업에서는 기대에 못 미칩니다. 같은 모델, 다른 지표, 정반대의 결론이 나옵니다. (출처: dev.to/maximsaplin Llama 4 리뷰, 2025.04.08 / anotherwrapper.com, 2026.03.11)

특히 코딩 에이전트 목적으로 쓰려 한다면 수치를 꼭 짚어야 합니다. LiveBench 코딩 점수에서는 Claude 3.5 Sonnet을 앞서지만, 실제 코드 변경을 다루는 Aider 벤치마크에서는 32B 파라미터짜리 Qwen 모델보다 낮습니다. 벤치마크와 실무 작업의 간극이 이 모델에서 특히 크게 나타납니다.

▲ 목차로 돌아가기

무료로 쓰는 3가지 방법 — 플랫폼별 실제 차이

Llama 4 Scout는 로컬 실행이 사실상 불가능하지만, 클라우드 서비스를 통해 무료로 접근하는 방법이 세 가지 있습니다. 플랫폼마다 실제 사용 조건이 다르니 직접 확인해 봤습니다.

① Meta.ai
공식 채팅 인터페이스

meta.ai에서 계정 없이도 Llama 4 모델을 바로 체험할 수 있습니다. 텍스트와 이미지 입력이 모두 가능하고, WhatsApp·Instagram Direct와 연동됩니다. 단, 한국 IP에서는 접속이 제한될 수 있으며 API 키는 제공되지 않습니다.

적합한 경우: 빠른 체험·멀티모달 테스트

② Groq
초고속 추론 · API 무료 티어

console.groq.com에서 가입 후 신용카드 없이 API 키와 플레이그라운드를 모두 무료로 씁니다. 처리 속도가 매우 빠르지만, 앞서 언급한 대로 컨텍스트가 131K로 제한됩니다. 분당 토큰 한도(TPM)도 300,000으로 제한됩니다.

적합한 경우: API 연동 개발·빠른 응답이 필요한 작업

③ OpenRouter
무료 모델로 API 접근

openrouter.ai에서 Llama 4 Maverick을 무료 모델로 제공합니다. Scout도 별도 요청 없이 사용 가능하며, 하나의 API 키로 여러 LLM을 전환할 수 있습니다. 컨텍스트 한도는 제공 경로에 따라 달라지므로 요청 전 개별 확인이 필요합니다.

적합한 경우: 멀티 모델 비교 · 개발 환경 구성

세 경로 모두 무료지만, API 연동 실험 목적이라면 Groq가 가장 빠르고 안정적입니다. 단순 채팅 체험이라면 meta.ai가 제일 간편합니다. 긴 문서를 다루는 작업에는 131K 제한이 걸리는 Groq보다 OpenRouter 경로가 나을 수 있습니다.

▲ 목차로 돌아가기

이 모델이 맞는 경우와 아닌 경우

스펙과 벤치마크를 교차 분석하면 Llama 4 Scout가 실제로 잘 맞는 상황과 아닌 상황이 꽤 명확하게 나뉩니다.

✅ 이런 경우엔 적합합니다

  • 이미지와 텍스트를 함께 처리하는 작업
  • 저비용 API 연동이 필요한 프로덕션 개발 ($0.15/M 입력)
  • 빠른 추론 속도가 중요한 실시간 서비스 (Groq)
  • MMLU·GPQA 기준 일반 지식 추론·요약
  • 오픈소스 기반으로 자체 파인튜닝이 필요한 경우
  • 200개 언어 지원 — 한국어 포함 다국어 처리

❌ 이런 경우엔 다른 선택지가 낫습니다

  • 10M 컨텍스트가 실제로 필요한 작업 (현재 미지원)
  • 로컬 GPU 환경에서 실행 (80GB+ VRAM 필요)
  • 코딩 에이전트 목적 (Aider 기준 15.6%로 하위권)
  • 긴 소설·보고서의 내용 파악 작업 (Fiction.liveBench 최하위)
  • 아레나 ELO 점수만 보고 선택 (공개 모델과 평가 모델 다름)

💡 가격 구조를 다른 모델과 직접 계산해보면 차이가 명확합니다. 입력 $0.15/M, 출력 $0.60/M은 GPT-4o mini($0.15/$0.60)와 동일한 수준입니다. 동급 가격에 멀티모달과 오픈소스 라이선스가 붙어 있다는 게 Scout의 실질적인 강점입니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Llama 4 Scout는 한국어를 제대로 지원하나요?
공식 문서 기준으로 200개 언어로 학습되었으며, 한국어 포함 100개 이상의 언어에 10억 토큰 이상이 투입됐습니다. (출처: Meta AI 공식 블로그, 2025.04.05) Llama 3 대비 다국어 토큰 양이 10배 늘었습니다. 단, 실제 한국어 품질에 대한 공식 별도 벤치마크는 공개되지 않았습니다.
Q2. Llama 4 Scout와 Maverick 중 어떤 걸 써야 하나요?
용도에 따라 다릅니다. Scout는 단일 H100 GPU에 올라가는 경량 버전으로, 비용이 낮고 빠릅니다. Maverick은 전문가 모듈이 128개(Scout의 8배)로 성능이 높지만, 단일 H100 호스트(8개 GPU)가 필요합니다. 일반 API 용도라면 Scout가 충분하고, 정밀한 이미지 이해나 창작 작업에는 Maverick이 낫습니다.
Q3. 10M 컨텍스트는 언제쯤 실제로 쓸 수 있게 되나요?
Groq 공식 커뮤니티 답변 기준으로는 “현재 어떤 서비스 제공사도 전체 10M을 지원하지 않는다”고 했습니다. (2025.06.19) 인프라 비용 문제가 해소되어야 가능한데, 시점은 공개되지 않았습니다. 현재로서는 Together AI나 OpenRouter를 통한 접근이 Groq 131K보다 더 긴 컨텍스트를 허용할 가능성이 있습니다.
Q4. 상업적으로 사용해도 되나요?
Llama 4 Scout는 오픈소스 라이선스로 배포되며 상업적 사용이 허용됩니다. 단, 월간 활성 사용자 7억 명을 초과하는 서비스는 별도 Meta 허가가 필요합니다. 실사용 전 라이선스 전문을 직접 확인하는 것을 권장합니다. (출처: Meta Llama 4 License Agreement, llama.com)
Q5. MoE 구조가 뭔지, 왜 중요한가요?
Mixture of Experts(MoE)는 전체 파라미터 중 일부만 선택적으로 활성화하는 구조입니다. Llama 4 Scout의 경우 총 109B 파라미터 중 17B만 실제 추론에 사용됩니다. 같은 품질을 Dense 모델보다 낮은 추론 비용으로 낼 수 있다는 게 장점입니다. 단, 모든 파라미터를 메모리에 올려야 하기 때문에 실행 환경의 메모리 요구사항은 줄어들지 않습니다.

▲ 목차로 돌아가기

마치며 — 총평

Llama 4 Scout는 동급 클래스 최저 가격, 멀티모달 지원, 오픈소스 라이선스라는 조합으로 분명히 매력적인 모델입니다. 저비용 API 연동, 이미지+텍스트 처리, 다국어 서비스 구축에는 실용적인 선택지입니다.

하지만 “10M 컨텍스트” 문구 하나 때문에 도입을 결정하려 했다면, 현재 실제 환경에서는 그 기능을 쓸 수 없습니다. 아레나 2위 점수도 공개된 모델과 다른 버전에서 나온 수치입니다. 솔직히 말하면, 이 두 가지 사실이 공개 이후 제대로 정리된 한국어 글을 찾기 어려웠습니다.

좋은 모델인 건 맞습니다. 다만 어떤 조건에서 좋은지를 알고 써야 쓸모가 있습니다. 공식 수치와 실제 수치의 간극을 모른 채 도입 결정을 내리는 것보다, 131K 제한을 알고 쓰는 편이 훨씬 나은 결과로 이어질 것입니다.

📚 본 포스팅 참고 자료

  1. Meta AI 공식 블로그 — Llama 4 발표문 (ai.meta.com/blog/llama-4-multimodal-intelligence/)
  2. Meta Llama 공식 모델 페이지 (llama.com/models/llama-4/)
  3. Groq 공식 커뮤니티 — 131K 컨텍스트 제한 공식 답변 (community.groq.com)
  4. KDnuggets — 3 Ways to Access Llama 4 for Free (kdnuggets.com)
  5. AnotherWrapper LLM Pricing — Llama 4 Scout 스펙·벤치마크 (anotherwrapper.com)
  6. dev.to — Llama 4 리뷰: 10M Context? Coding? (dev.to/maximsaplin)

본 포스팅은 2026년 3월 31일 기준으로 작성되었습니다. Meta, Groq 등 각 서비스의 정책·UI·기능·가격은 업데이트로 인해 달라질 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 투자·도입 결정 전 공식 채널에서 최신 정보를 직접 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기