Mistral Small 4 (v2603)
Apache 2.0
Mistral Small 4, 119B인데 실제 쓰는 건 6.5B입니다
2026년 3월 16일, Mistral이 조용히 올해 가장 특이한 모델을 내놨습니다. 총 파라미터 119B짜리인데, 실제 추론 시 작동하는 파라미터는 6.5B에 불과합니다. 이게 어떻게 가능한지, 그리고 이 구조가 비용과 속도에 어떤 영향을 주는지 직접 공식 문서와 벤치마크 수치를 뜯어봤습니다.
Mistral Small 4가 나온 이유 — 모델 3개를 1개로
Mistral은 그동안 용도별로 다른 모델을 써야 했습니다. 추론이 필요하면 Magistral, 이미지 처리가 필요하면 Pixtral, 코딩 에이전트 작업이 필요하면 Devstral — 이렇게 세 모델을 상황에 따라 골라 써야 하는 구조였습니다. 실제 프로덕션 환경에서는 이게 꽤 번거롭습니다. 하나의 파이프라인 안에서 문서 파싱, 코드 생성, 복잡한 추론을 동시에 처리하려면 모델 전환 로직을 별도로 만들어야 했으니까요.
Mistral Small 4는 이 세 가지를 하나로 합쳤습니다. 공식 발표문에서 직접 이렇게 밝혔습니다: “one model now delivers all three, with configurable reasoning effort and best-in-class efficiency” (출처: Mistral AI 공식 블로그, 2026.03.16). 단일 모델에서 추론 수준을 파라미터 하나로 조절하는 방식입니다.
눈에 띄는 부분은 라이선스입니다. Apache 2.0으로 출시됐는데, 이는 상업적 이용, 수정, 재배포 모두 가능하고 사용자 수나 수익 기준 제한도 없습니다. Meta의 LLaMA 라이선스는 일정 규모 이상의 상업 이용에 제한이 있는 것과 대비됩니다.
MoE 구조: 119B인데 왜 6.5B처럼 움직이나
💡 공식 문서와 실제 추론 비용 계산을 같이 놓고 보니 이런 차이가 보였습니다 — 파라미터 수와 실제 GPU 부하는 같은 숫자가 아닙니다.
Mistral Small 4는 MoE(Mixture of Experts) 아키텍처를 씁니다. 총 128개의 전문가(experts) 모듈이 있고, 각 토큰 처리 시 그 중 4개만 활성화됩니다. 전체 파라미터가 119B이지만, 매 토큰마다 실제로 계산에 참여하는 파라미터는 6.5B(임베딩·출력 레이어 포함 시 8B)에 불과합니다. 공식 Hugging Face 모델 카드에 이 수치가 정확히 명시돼 있습니다 (출처: HuggingFace mistralai/Mistral-Small-4-119B-2603, 2026.03.16).
이게 실제 배포 비용에 미치는 영향
GPU VRAM 요구량은 전체 가중치를 올려야 하므로 119B 기준입니다. BF16 기준으로 약 238GB가 필요하고, 이를 감당하려면 NVIDIA H100 4장이 최소 조건입니다. 그러나 실제 추론 속도와 토큰당 계산량은 6.5B 수준으로 동작합니다. 무게는 대형 모델, 속도는 소형 모델에 가깝습니다.
KV 캐시 메모리 소비량은 더 특이합니다. Mistral Small 4는 MLA(Multi-head Latent Attention) 구조를 써서 KV 캐시가 매우 작습니다. 256K 컨텍스트를 BF16으로 유지할 때 KV 캐시는 약 5.49 GiB, FP8이면 2.75 GiB입니다 (출처: The Kaitchup 뉴스레터, 2026.03.20). 같은 MLA를 쓰는 GLM-4.7-Flash 대비 KV 캐시가 훨씬 가볍습니다.
| 항목 | Mistral Small 4 | Qwen3.5 122B |
|---|---|---|
| 전체 파라미터 | 119B | 122B |
| 토큰당 활성 파라미터 | 6.5B | 3B |
| 전문가 수(MoE experts) | 128개 | 512개 (추정) |
| 컨텍스트 윈도우 | 256K | 128K |
| 256K KV 캐시 (BF16) | 약 5.49 GiB | 약 15 GiB (추정) |
※ Qwen3.5 122B 수치는 공개 자료 기반 추정치. 출처: The Kaitchup 뉴스레터 (2026.03.20), HuggingFace 공식 모델 카드 (2026.03.16)
reasoning_effort 파라미터, 숫자로 이해하기
💡 “추론 모드를 켰더니 더 좋아졌다”는 말만으로는 부족합니다 — 출력 토큰이 8배 늘어나는 게 실제로 어떤 의미인지 토큰 수로 확인했습니다.
Mistral Small 4의 핵심 기능 중 하나가 reasoning_effort 파라미터입니다. 현재 공식적으로 지원되는 값은 두 가지뿐입니다 — "none"과 "high". The Kaitchup 뉴스레터가 채팅 템플릿을 직접 확인한 결과, GPT-OSS처럼 세분화된 중간 값(예: “medium”)은 현재 존재하지 않습니다 (출처: The Kaitchup, 2026.03.20).
이 파라미터가 출력 길이에 미치는 영향
VentureBeat의 분석에서 실측 수치가 나왔습니다. reasoning_effort="none" 상태에서 Mistral Small 4의 평균 출력 길이는 약 2,100자입니다. 반면 reasoning_effort="high"를 켜면 약 18,700자로 급증합니다 (출처: VentureBeat, 2026.03.20). 약 9배 차이입니다.
출력 토큰이 9배 늘어난다는 말은 API 비용도 그만큼 올라간다는 뜻입니다. Mistral API 기준 출력 토큰은 입력보다 4배 비쌉니다($0.60/1M vs $0.15/1M, 출처: Artificial Analysis, 2026.03). 단순 계산하면 reasoning 모드를 켰을 때 같은 작업의 비용이 최대 수 배 이상 올라갈 수 있습니다.
실용적으로 쓰려면 작업 유형별로 이 파라미터를 명시적으로 제어해야 합니다. 단순 채팅이나 문서 요약에는 none을, 수학 계산이나 복잡한 코드 디버깅에만 high를 거는 식으로 구분해야 비용이 통제됩니다.
벤치마크 실제 수치 — GPT-OSS 120B와 비교
Mistral 공식 블로그에 공개된 벤치마크 수치를 직접 확인했습니다. 결론부터 말씀드리면, Mistral Small 4는 GPT-OSS 120B와 비교해 코딩 벤치마크(LiveCodeBench)에서 비슷하거나 일부 지표에서 앞섰고, 출력 길이는 20% 짧습니다 (출처: Mistral AI 공식 블로그, 2026.03.16). 짧은 출력 = 낮은 레이턴시 = 낮은 추론 비용이라는 뜻입니다.
AA LCR 벤치마크에서는 Mistral Small 4가 0.72점을 기록하면서 출력 길이는 1,600자에 그쳤습니다. 반면 Qwen 계열 모델은 비슷한 점수를 내면서 5,800~6,100자를 씁니다 — 3.5~4배 더 긴 출력입니다 (출처: Mistral AI 공식 블로그, 2026.03.16). 같은 정확도에 토큰이 4배 적다면, 비용은 그만큼 줄어듭니다.
⚠️ 주의: 모든 지표에서 1등은 아닙니다
VentureBeat 분석에 따르면 코딩 추론 벤치마크(LiveCodeBench)에서 Qwen 3.5 122B와 Qwen 3-next 80B, 그리고 Claude Haiku의 instruct 모드가 Mistral Small 4를 앞섭니다 (출처: VentureBeat, 2026.03.20). 특히 수학 OCR 항목에서는 Qwen3.5 9B에도 뒤집니다 — Qwen 85.5점 vs Mistral 66점 (출처: r/LocalLLaMA, 2026.03.20).
instruct 모드에서 Claude Haiku 대비 출력 길이 비교
instruct 모드 기준 출력 길이를 직접 비교하면 차이가 더 극명합니다. 같은 테스트에서 Mistral Small 4는 약 2,100자, Claude Haiku는 약 14,200자, GPT-OSS 120B는 약 23,600자를 씁니다 (출처: VentureBeat, 2026.03.20). 단순 채팅이나 FAQ 응답 같은 고빈도 작업에서 Mistral Small 4의 토큰 효율이 두드러집니다.
로컬 배포 전에 알아야 할 것들
💡 공식 Hugging Face 모델 카드에 적힌 배포 방법과 실제 커뮤니티에서 부딪힌 문제를 같이 놓고 보니 이런 차이가 있었습니다.
Mistral Small 4를 로컬에서 쓰려면 vLLM을 쓰는 게 공식 권장 방법입니다. 그런데 여기서 주의할 점이 있습니다. 공식 Hugging Face 모델 카드에 이 문구가 있습니다: “Use our custom Docker image with fixes for tool calling and reasoning parsing in vLLM” (출처: HuggingFace 공식 모델 카드, 2026.03.16). 표준 vLLM 이미지가 아닌 Mistral 전용 커스텀 Docker 이미지(mistralllm/vllm-ms4:latest)를 써야 function calling과 reasoning 파싱이 제대로 동작합니다.
커뮤니티 실사용 경험에서도 이 문제가 반복됩니다. r/LocalLLaMA에서 코딩 에이전트로 연결했을 때 chat template 오류가 발생해 에이전트가 제대로 작동하지 않는 사례가 보고됐습니다 (출처: r/LocalLLaMA, 2026.03.19). 공식 모델 카드는 해당 PR이 1~2주 안에 vLLM 메인에 합쳐질 예정이라고 밝혔지만 (기준일: 2026.03.16), 지금 당장 표준 vLLM으로 코딩 에이전트를 붙이려 한다면 커스텀 이미지를 써야 합니다.
하드웨어별 최소 요구사항
| 배포 방식 | 최소 GPU | 권장 GPU |
|---|---|---|
| 로컬 (Ollama GGUF Q4) | 32GB+ RAM (CPU) | 고사양 RAM 64GB+ |
| 프로덕션 (vLLM) | H100 4장 (최소) | H200 4장 |
| 최소 인프라 (Blackwell) | DGX B200 1대 | DGX B200 2대 |
출처: Mistral AI 공식 블로그 (2026.03.16), HuggingFace 공식 모델 카드 (2026.03.16)
개인이 로컬에서 테스트하려면 Ollama의 GGUF 양자화 버전이 현실적입니다. Unsloth가 GGUF 형식을 공개해서 unsloth/Mistral-Small-4-119B-2603-GGUF로 받을 수 있습니다. Q4 양자화 기준으로는 고용량 RAM이 있는 일반 PC에서도 느리게나마 실행 가능합니다. 다만 전체 컨텍스트 256K를 활용하려면 GPU 서버 환경이 필요합니다.
API 가격, 직접 계산해봤습니다
Mistral API 공개 가격은 입력 토큰 $0.15/1M, 출력 토큰 $0.60/1M입니다 (출처: Artificial Analysis, 2026.03). reasoning 모드를 켰을 때 비용이 어떻게 달라지는지 직접 계산해봤습니다.
📐 시나리오: 1,000개 요청, 입력 1,000토큰, 출력은 모드에 따라 다름
instruct 모드(none): 출력 약 500토큰 기준
— 입력 비용: 1,000 × 1,000 = 1M 토큰 → $0.15
— 출력 비용: 1,000 × 500 = 0.5M 토큰 → $0.30 / 합계: $0.45
reasoning 모드(high): 출력 약 4,500토큰 기준 (9배)
— 입력 비용: 동일 → $0.15
— 출력 비용: 1,000 × 4,500 = 4.5M 토큰 → $2.70 / 합계: $2.85 (약 6.3배)
reasoning 모드 하나 켰을 뿐인데 같은 요청량에서 비용이 6배 넘게 올라갑니다. 고빈도 API 호출 환경에서는 이 차이가 꽤 클 수 있습니다.
경쟁 모델과 가격 비교
Claude Haiku 4.5는 입력 $1.00/1M, 출력 $5.00/1M입니다. 입력 기준으로 Mistral Small 4($0.15)가 약 6.7배 저렴합니다 (출처: llm-stats.com, 2026.03). 다만 앞서 봤듯 벤치마크 일부 지표에서는 Claude Haiku가 앞서므로, 단순 비용 비교만으로 결정하기보다 작업 유형에 따라 판단하는 편이 낫습니다.
오픈 웨이트 모델이라 자체 인프라에 올리면 API 비용 자체가 없어집니다. 민감한 데이터를 다루거나 장기적으로 안정적인 비용을 원한다면, 셀프 호스팅이 더 합리적인 경우도 있습니다. Apache 2.0 라이선스이므로 매출이나 사용자 수 제한 없이 상업 프로덕트에 바로 쓸 수 있습니다.
Q&A
마치며
솔직히 말하면, Mistral Small 4에서 가장 인상적인 건 기능 목록이 아니라 구조입니다. 119B라는 숫자가 주는 무게감과 다르게, 실제 토큰당 계산량은 6.5B 수준이고 KV 캐시도 같은 컨텍스트에서 훨씬 가볍습니다. 이게 의미하는 건 하나 — “큰 모델처럼 보이지만 작은 모델처럼 움직인다”는 것입니다.
다만 만능은 아닙니다. 수학 OCR이나 코딩 추론 일부 지표에서 Qwen 계열에 뒤지고, reasoning 모드를 켜면 출력이 9배 늘어나면서 비용도 급증합니다. vLLM 배포도 현재는 커스텀 Docker 이미지를 써야 하는 단계입니다.
Apache 2.0 라이선스 + 셀프 호스팅 + 단일 모델에서 추론·멀티모달·에이전트 코딩을 모두 처리하고 싶은 팀이라면 충분히 검토할 만합니다. 특히 토큰 효율에 민감한 고빈도 API 환경이라면요.
본 포스팅 참고 자료
- Mistral AI 공식 블로그 — Introducing Mistral Small 4 (mistral.ai/news/mistral-small-4)
- HuggingFace 공식 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (huggingface.co)
- VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding into one model (2026.03.20) (venturebeat.com)
- Artificial Analysis — Mistral Small 4 가격·성능 분석 (artificialanalysis.ai)
- The Kaitchup 뉴스레터 — Mistral Small 4: A Good Alternative? (2026.03.20)
본 포스팅은 2026년 3월 30일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. IT/AI 서비스 특성상 모델 업데이트, API 가격, 지원 기능은 예고 없이 바뀔 수 있으니 최신 정보는 공식 채널에서 확인하세요.











댓글 남기기