mistral-small-2603
Apache 2.0
Mistral Small 4, 작다고 가볍게 보면 안 됩니다
“Small”이라는 이름에 속으면 안 됩니다. 119B 파라미터 MoE 모델인데, 토큰당 실제로 쓰는 파라미터는 6.5B뿐입니다. Qwen보다 벤치마크 점수가 낮다는 지적도 있지만, 같은 점수를 내는 데 쓰는 출력 토큰이 3.5~4배 더 적습니다. API 비용과 응답 속도 관점에서 숫자를 직접 따져봤습니다.
119B인데 왜 ‘작은’ 모델이라고 부르는가
솔직히 말하면, 처음 숫자를 봤을 때 이름이 잘못된 거 아닌가 싶었습니다. 119B 파라미터는 어떻게 봐도 “Small”이 아닙니다. 그런데 Mistral이 이 모델을 Small이라고 부르는 데는 이유가 있습니다.
Mistral Small 4는 MoE(Mixture of Experts) 구조를 씁니다. 128개의 전문가(Expert) 레이어가 있고, 각 토큰이 처리될 때는 그 중 4개만 활성화됩니다. 공식 문서에 딱 이렇게 나옵니다: “119B total parameters, with 6.5B activated per token.” (출처: Hugging Face 공식 모델 카드, 2026.03.16) 총 파라미터는 119B이지만, 실제로 연산에 참여하는 건 6.5B입니다.
MoE가 아닌 Dense 모델로 치면 7B급 연산 부하로 동작한다는 뜻입니다. 이게 핵심입니다. 응답 속도와 추론 비용을 결정하는 건 총 파라미터가 아니라 토큰당 활성 파라미터이기 때문입니다.
💡 공식 발표문 아키텍처 수치와 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다.
MoE 구조에서 “파라미터 수”는 저장 공간 기준이고, “속도와 비용”은 활성 파라미터 수가 결정합니다. 모델을 비교할 때 총 파라미터만 보는 건 절반만 보는 셈입니다.
모델 3개를 1개로 — reasoning_effort 파라미터의 진짜 의미
Mistral Small 4 이전에는 목적별로 다른 모델을 써야 했습니다. 추론에는 Magistral, 이미지 분석에는 Pixtral, 코딩 에이전트에는 Devstral을 따로 호출해야 했습니다. API 키 하나로 세 가지 역할을 처리하려면 라우팅 로직을 직접 짜야 했습니다.
Mistral Small 4는 이 세 모델의 역량을 하나로 통합했습니다. 공식 발표에서 “the first Mistral model to unify the capabilities of our flagship models, Magistral for reasoning, Pixtral for multimodal, and Devstral for agentic coding, into a single, versatile model”이라고 명시했습니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)
전환은 reasoning_effort 파라미터 하나로 합니다. "none"으로 설정하면 Mistral Small 3.2와 동일한 경량 응답 스타일, "high"로 올리면 Magistral 수준의 단계별 추론을 그대로 씁니다. 비전은 별도 설정 없이 이미지 URL을 content에 넘기면 바로 동작합니다.
| 설정값 | 동작 방식 | 추천 온도 | 대응 이전 모델 |
|---|---|---|---|
reasoning_effort="none" |
빠른 응답, 경량 추론 | 0.0~0.7 | Mistral Small 3.2 |
reasoning_effort="high" |
단계별 심층 추론 | 0.7 | Magistral Small |
※ 표 내 수치는 Hugging Face 공식 모델 카드 기준 (2026.03.16)
벤치마크 점수가 낮아도 오히려 저렴한 이유
Reddit r/MistralAI에서 가장 많이 나온 지적이 이겁니다. “Qwen이랑 비교하면 벤치마크가 낮은데?” 수치만 보면 맞는 말입니다. 그런데 공식 발표문에서 Mistral이 제시한 비교 방식은 달랐습니다.
AA LCR 벤치마크에서 Mistral Small 4(추론 모드)는 0.72 점을 기록했고, 출력 길이는 평균 1.6K 자였습니다. 같은 벤치마크에서 Qwen 계열 모델은 5.8~6.1K 자를 써서 비슷하거나 낮은 점수를 냈습니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16) 3.5~4배 더 긴 응답을 생성해야 비슷한 점수가 나온다는 뜻입니다.
API 요금은 출력 토큰 수에 비례합니다. 출력이 짧을수록 청구 금액이 적습니다. LiveCodeBench에서도 Mistral Small 4는 GPT-OSS 120B를 앞서면서 출력을 20% 덜 썼습니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16) 같은 품질에서 토큰을 덜 쓰는 게 실무에서는 더 중요한 지표입니다.
💡 벤치마크 절대 점수와 출력 효율을 나란히 놓고 보면 다른 그림이 나옵니다.
AI 모델을 실제 서비스에 붙일 때는 “점수 / 토큰 수”가 총비용을 결정하는 핵심 변수입니다. 점수만 보는 비교는 절반짜리 비교입니다.
로컬 실행이 가능한 사람과 불가능한 사람을 가르는 조건
119B짜리 모델이라고 하면 “나는 로컬에서 못 돌리겠다”고 생각하는 경우가 많습니다. 실제로는 양자화 여부에 따라 요구 사양이 크게 달라집니다.
Hugging Face에 올라온 Unsloth GGUF 기준으로 Q4_K_M 양자화 시 파일 크기는 72.2GB입니다. Q6_K는 97.7GB, Q8_0은 126GB입니다. RTX 5090 한 장(32GB VRAM)으로는 풀 VRAM 로드가 어렵고, 2×4090(각 24GB)이나 RAM 오프로드를 쓰는 MoE CPU 오프로드 방식으로 접근해야 합니다. 엔터프라이즈 최소 권장 구성은 4×NVIDIA HGX H100입니다. (출처: Hugging Face 모델 카드, 2026.03.16)
Mistral이 제안하는 현실적인 대안은 두 가지입니다. API로 쓰거나(토큰당 과금), NVFP4 양자화 체크포인트(Mistral-Small-4-119B-2603-NVFP4)를 활용해 GPU 메모리 요구량을 더 낮추는 방법입니다. 일반 개인 개발자라면 API가 현실적입니다.
| 양자화 | 파일 크기 | 권장 하드웨어 |
|---|---|---|
| Q4_K_M | 약 72GB | 80GB+ VRAM 또는 CPU 오프로드 |
| Q6_K | 약 98GB | 2×H100 또는 MoE 오프로드 |
| Q8_0 | 약 126GB | 4×A100 이상 권장 |
| NVFP4 (공식 제공) | 미공개 | NVIDIA Blackwell 최적화 |
※ GGUF 파일 크기는 Hugging Face Unsloth 양자화 기준 (2026.03.16)
실사용자들이 불만을 쏟아낸 지점
기대했던 것과 달랐다는 반응도 분명히 있었습니다. Reddit r/MistralAI에서 확인한 주요 불만을 정리합니다.
첫 번째는 모델 크기 인식 문제입니다. “Small인데 왜 119B냐”는 반응이 많았습니다. 이름의 기준이 Dense 파라미터 수가 아닌 활성 파라미터 수임을 대다수 사용자가 출시 직후 인지하지 못했습니다. 마케팅 네이밍과 기술 구현 사이 간극입니다.
두 번째는 hallucination 빈도입니다. 초기 테스트 사용자 중 일부가 “120B치고는 환각이 예상보다 많다”고 보고했습니다. 이 부분은 Mistral AI가 공식 답변을 내놓지 않은 부분입니다. 세 번째는 Dense MoE에 대한 아쉬움입니다. “80B Dense 모델을 원했다”는 의견도 꾸준히 나왔습니다. MoE는 긴 대화에서 ‘깊이’가 부족하다는 실사용 피드백이 있었고, 이 트레이드오프는 구조적으로 해결되지 않은 상태입니다.
⚠️ vLLM 통합이 아직 완전하지 않습니다. 출시 시점(2026.03.16) 기준, Mistral은 자체 커스텀 Docker 이미지(mistralllm/vllm-ms4:latest)를 따로 제공했고, vLLM 메인 브랜치에는 1~2주 내 머지될 예정이라고 공지했습니다. 프로덕션 배포 전에 vLLM 저장소 PR #37081 상태를 반드시 확인해야 합니다.
API 가격으로 실제 비용을 계산해봤습니다
Mistral Small 4(mistral-small-2603)의 공식 API 가격은 입력 토큰 $0.15/1M, 출력 토큰 $0.60/1M입니다. (출처: OpenRouter, 2026.03.16 기준)
비교 대상으로 많이 거론되는 GPT-4o의 출력 가격은 $10/1M 수준, Claude Sonnet 계열은 $15/1M 수준입니다. Mistral Small 4의 출력 가격은 이 두 모델 대비 약 17~25배 저렴합니다. 월 100만 토큰 출력을 가정하면 아래와 같은 계산이 나옵니다.
📊 출력 토큰 100만 개 기준 월 비용 비교 (추정)
- Mistral Small 4: 약 $0.60
- GPT-4o: 약 $10.00
- Claude Sonnet 계열: 약 $15.00
※ 위 수치는 각 공개 API 가격 기준 추정치이며, 실제 청구 금액은 프로바이더 및 사용 형태에 따라 다릅니다.
여기에 앞서 언급한 “같은 점수 대비 출력 토큰이 3.5~4배 짧다”는 효율성까지 고려하면, 동일한 작업량을 처리하는 실효 비용 차이는 더 벌어집니다. 스타트업이나 개인 개발자가 추론·멀티모달·코딩 기능을 모두 쓰면서 비용을 통제해야 하는 상황이라면, 현실적으로 선택지에 넣어볼 만한 모델입니다.
💡 모델 3개를 각각 구독하던 구조를 1개로 줄이면 관리 오버헤드도 함께 줄어듭니다.
API 라우팅 로직, 토큰 예산 분리, 프롬프트 포맷 분기 — 이 세 가지가 사라지는 게 비용보다 클 수 있습니다.
Q&A
마치며
Mistral Small 4는 이름이 주는 인상과 실제 기술 설계 사이에 간극이 있는 모델입니다. 119B라는 숫자만 보면 “작은 모델”이라는 표현이 어색하지만, 토큰당 6.5B만 활성화하는 MoE 구조를 이해하고 나면 Mistral의 네이밍 기준이 납득됩니다.
기존에 Magistral·Pixtral·Devstral을 따로 관리하던 팀이라면, 하나로 통합하는 것만으로 운영 복잡도를 줄일 수 있습니다. 벤치마크 절대 점수보다 출력 효율을 우선으로 봐야 하는 상황, 그리고 Apache 2.0으로 자체 서빙이 필요한 상황에서 가장 설득력 있는 선택지가 됩니다.
반대로 단순 채팅 사용자나 RTX 5090 한 장으로 로컬 실행을 원하는 경우라면, 지금 당장은 API를 쓰거나 더 가벼운 모델을 고르는 게 현실적입니다. “작다”는 이름을 믿고 무턱대고 로컬 실행을 시도하면 VRAM 벽에 먼저 부딪힙니다.
📚 본 포스팅 참고 자료
- Mistral AI 공식 발표 — https://mistral.ai/news/mistral-small-4
- Hugging Face 공식 모델 카드 — https://huggingface.co/mistralai/Mistral-Small-4-119B-2603
- OpenRouter API 가격 정보 — https://openrouter.ai/mistralai/mistral-small-2603
- Simon Willison’s Weblog — https://simonwillison.net/2026/Mar/16/mistral-small-4/
- Mistral AI Docs — https://docs.mistral.ai/capabilities/reasoning/adjustable
본 포스팅은 2026년 3월 25일 기준으로 작성됐습니다. Mistral Small 4(mistral-small-2603) 기준이며, 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. API 가격은 OpenRouter 공개 데이터를 참고했으며, 실제 청구 금액은 사용 조건에 따라 다를 수 있습니다.











댓글 남기기