Mistral Small 4 (2603) 기준
Apache 2.0
Mistral Small 4, 3개 모델 합쳐도
안 되는 게 있습니다
Mistral AI가 2026년 3월 17일(현지 시각) Mistral Small 4를 공개했습니다. 추론(Magistral), 비전(Pixtral), 에이전틱 코딩(Devstral)을 하나의 모델로 통합한 첫 번째 사례입니다. 벤치마크 수치는 인상적이지만, 공식 API에서 실측한 이미지 인식 결과는 전혀 다른 이야기를 하고 있습니다.
Small인데 왜 119B인가 — MoE 구조 이해하기
이름이 “Small”인데 파라미터가 119B라는 점이 처음엔 혼란스럽습니다. 사실 이 이름은 모델 크기가 아니라 Mistral의 제품 라인업상 위치를 뜻합니다. Mistral Small 4는 Mixture-of-Experts(MoE) 아키텍처를 채택하고 있어서, 128개의 전문가 모듈 중 매 토큰마다 4개만 활성화됩니다. 총 파라미터는 119B지만 실제 추론 시 사용되는 파라미터는 약 6.5B입니다.
💡 공식 발표문과 실제 연산 비용을 같이 놓고 보니 이런 차이가 보였습니다
119B 밀집 모델 대비 토큰당 연산량은 약 95% 줄어듭니다. 즉 모델 지식 용량은 119B급이지만 속도와 비용은 7B급에 가깝게 유지됩니다. (출처: Mistral AI 공식 발표, 2026.03.17)
공식 문서에는 “6B active parameters per token (8B including embedding and output layers)”라고 나옵니다. (출처: Hugging Face mistralai/Mistral-Small-4-119B-2603, 2026.03.16) 다른 블로그들이 주로 “119B 오픈소스”만 강조하는데, 실제 운영 비용을 가늠하려면 활성 파라미터 수치를 먼저 봐야 합니다.
전임 Mistral Small 3.2는 밀집 구조(Dense) 24B 모델이었습니다. Small 4는 파라미터 총량이 5배 늘었지만 토큰당 활성 파라미터는 오히려 줄었습니다. 이게 Mistral이 주장하는 “Small 3 대비 초당 처리량 3배 향상”의 실질적 근거입니다.
3개 모델을 1개로 합친다는 게 실제로 의미하는 것
Small 4 이전에는 Mistral 생태계를 제대로 쓰려면 목적별로 다른 모델을 골라야 했습니다. 일반 채팅·분류에는 Mistral Small 3.2, 수학·추론에는 Magistral, 이미지 분석에는 Pixtral, 코딩 에이전트에는 Devstral이 각각 있었습니다. 네 개의 모델을 유지하면 모델 라우팅 파이프라인, 모니터링, 비용 청구도 각각 따라붙었습니다.
Small 4는 이 네 가지를 단일 엔드포인트로 통합합니다. 핵심은 reasoning_effort 파라미터입니다. 요청마다 reasoning_effort="none"으로 보내면 Mistral Small 3.2 수준의 빠른 응답이 나오고, reasoning_effort="high"로 바꾸면 Magistral 수준의 단계별 추론이 작동합니다. (출처: Mistral AI 공식 발표, 2026.03.17)
💡 운영 측면에서 보면 이 통합이 왜 중요한지 달라 보입니다
기업 환경에서 질문의 90%는 단순 분류·채팅이고, 10%만 복잡한 추론이 필요합니다. Small 4는 이 두 패턴을 동일 모델에서 파라미터 하나로 분기시킵니다. 모델을 4개 운영하던 비용 구조가 1개로 줄어드는 셈입니다.
컨텍스트 윈도우는 256K 토큰으로, GPT-4o mini(128K)의 두 배입니다. 200페이지 분량의 문서나 전체 코드베이스를 단일 요청으로 처리할 수 있는 수준입니다. (출처: Hugging Face mistralai/Mistral-Small-4-119B-2603, 2026.03.16)
벤치마크 수치, 직접 읽어보니 이렇습니다
Mistral은 공식 발표에서 세 가지 벤치마크를 전면에 내세웠습니다. AA LCR(대화형 추론), LiveCodeBench(코드 생성), AIME 2025(수학 추론)가 그것입니다. Mistral Small 4(reasoning=”high”)는 이 세 가지에서 GPT-OSS 120B와 동등하거나 우세한 점수를 기록했습니다. (출처: Mistral AI 공식 발표, 2026.03.17)
수치보다 흥미로운 건 출력 길이입니다. AA LCR에서 Mistral Small 4는 0.72점을 얻으면서 평균 응답 길이가 1,600자였습니다. 같은 점수대의 Qwen 모델은 5,800~6,100자, 즉 3.5~4배 더 길게 씁니다. (출처: Mistral AI 공식 발표, 2026.03.17) 짧게 쓰고 같은 점수가 나온다는 건 토큰당 비용과 지연 시간 모두 줄어든다는 뜻입니다.
| 벤치마크 | Mistral Small 4 | GPT-OSS 120B | Qwen 3.5-122B |
|---|---|---|---|
| AA LCR 점수 | 0.72 | 비슷한 수준 | 비슷한 수준 |
| 평균 응답 길이 (AA LCR) | 1,600자 | — | 5,800~6,100자 |
| LiveCodeBench | GPT-OSS 120B 초과 | 기준 | — |
| GPQA Diamond | 71.2% | — | — |
| MMLU-Pro | 78.0% | — | — |
단, 이 수치들은 모두 reasoning_effort="high" 모드 기준입니다. 빠른 응답 모드(reasoning_effort="none")는 Mistral Small 3.2(24B)와 동급이라고 공식 문서에 명시돼 있습니다.
이미지 인식, 공식 API에서 직접 확인한 결과
벤치마크가 좋아 보이는데 실사용 후기는 다른 얘기를 합니다. 출시 직후 Reddit r/LocalLLaMA에서 가장 많은 주목을 받은 스레드는 이미지 인식 품질 문제였습니다. (출처: Reddit r/LocalLLaMA, u/EffectiveCeilingFan, 2026.03.17)
⚠️ 공식 API 실측 사례 (Reddit r/LocalLLaMA, 2026.03.17)
음악 축제 현장 사진을 “약 200자로 묘사하라”는 프롬프트에 Mistral Small 4 공식 API가 출력한 내용: “대형 경기장, 관중석, 트랙 구역의 보안 요원들, 주차된 차량들”
같은 이미지에 Qwen 3.5 35B A3B(활성 파라미터는 Mistral Small 4의 절반 이하)가 출력한 내용: “무대 위 카우보이 햇을 쓴 연주자, 해변가 관객 수만 명, 해 질 녘 하늘, 해안가 컬러 우산과 텐트들” — 실제 사진 내용과 정확히 일치.
이 테스터는 처음엔 양자화(quantization) 문제로 의심해 공식 Mistral API로 변수를 제거했지만 결과는 동일했습니다. 다른 사용자들도 공식 API에서 같은 문제를 재현했습니다. 이미지 설명이 완전히 허구인 내용을 출력하는 건 단순한 정확도 문제가 아닙니다. 문서 이해나 비주얼 분석 워크플로우에 Mistral Small 4를 그대로 적용하면 예상치 못한 오류가 발생할 수 있습니다.
흥미로운 점은 전임 모델인 Mistral Small 3.2(24B)와 Ministral 시리즈에서는 동일 이미지 테스트에서 문제가 없었다는 사실입니다. (출처: Reddit r/LocalLLaMA, 2026.03.17) Mistral AI가 공식 이유를 밝히지 않은 상황이지만, 커뮤니티 내에서는 추론·코딩 통합 과정에서 비전 인코더 연결에 버그가 생겼을 가능성을 제기하고 있습니다.
참고로 동일 커뮤니티 스레드에서 문서 벤치마크(idp-leaderboard.org) 측정 결과, Mistral Small 4는 문서 시각화 이해에서 Qwen 3.5 9B에도 뒤처지는 수치가 나왔습니다. 9B는 Small 4 활성 파라미터(6.5B)와 비슷한 크기의 모델입니다.
지금 당장 써볼 수 있는 방법과 실제 배포 조건
가장 빠른 접근 방법은 세 가지입니다. Mistral API(mistral-small-latest 식별자), NVIDIA NIM(무료 프로토타입, 프로덕션은 유료), Hugging Face 다운로드 후 자체 배포입니다. (출처: Mistral AI 공식 발표, 2026.03.17)
자체 배포(on-premises)를 고려한다면 인프라 조건을 먼저 확인해야 합니다. 공식 문서 기준 최소 요구 사항은 NVIDIA H100 4개, H200 2개, 또는 DGX B200 1대입니다. 권장 설정은 H100 4개 또는 H200 4대입니다. (출처: Mistral AI 공식 발표, 2026.03.17) 단일 고급 GPU 환경에선 실행 자체가 어렵습니다.
💡 “오픈소스=노트북에서 실행 가능”이라는 공식이 여기서는 안 통합니다
Apache 2.0 라이선스이지만 로컬 실행 진입 장벽은 매우 높습니다. llama.cpp·Ollama 지원도 출시 시점 기준 아직 개발 중이었습니다. (출처: Hugging Face mistralai/Mistral-Small-4-119B-2603 README, 2026.03.16)
Mistral API 가격은 출시 시점에 아직 공개되지 않았습니다. 이전 모델인 Small 3.1(입력 $0.10~$0.20/1M 토큰)과 Medium 3.1(입력 $0.40/1M 토큰) 사이 수준으로 추정됩니다. (출처: emelia.io Mistral Small 4 Complete Guide, 2026.03.17)
경쟁 모델과 비교했을 때 유리한 경우, 불리한 경우
GPT-4o mini와 비교하면 Mistral Small 4가 확실히 앞서는 지점이 있습니다. 컨텍스트 윈도우(256K vs 128K), 오픈소스 여부(Apache 2.0 vs 독점), 자체 호스팅 가능 여부가 그것입니다. GPQA Diamond 기준 71.2% vs GPT-4o mini 40.2%는 추론 능력의 격차가 상당하다는 걸 보여줍니다. (출처: emelia.io Mistral Small 4 Complete Guide, 2026.03.17)
| 항목 | Mistral Small 4 | GPT-4o mini | Qwen 3.5-122B |
|---|---|---|---|
| 총 파라미터 | 119B (MoE) | 비공개 | 122B (MoE) |
| 컨텍스트 | 256K | 128K | 262K |
| 비전 | 지원(품질 불안정) | 지원 | 지원 |
| 추론 모드 조절 | 요청별 설정 | 없음 | 있음 |
| 라이선스 | Apache 2.0 | 독점 | Apache 2.0 |
| 자체 호스팅 | 가능(멀티 GPU) | API 전용 | 가능(멀티 GPU) |
솔직히 말하면, 지금 시점에서 Qwen 3.5 계열과 비교할 때 Mistral Small 4가 전면 우위를 주장하기 어렵습니다. 이미지 인식 품질에서 Qwen 3.5 35B A3B(활성 파라미터 기준 약 3B)에도 밀리는 실측 결과가 나왔기 때문입니다. 텍스트 추론과 코딩에서는 경쟁력이 있지만, 멀티모달 워크플로우에 바로 투입하려면 이미지 품질 개선을 기다리는 게 현실적입니다.
Mistral Small 4가 가장 빛나는 상황은 데이터 주권이 중요한 유럽·공공·금융 분야의 자체 배포 시나리오, 그리고 이미지 없이 텍스트 추론과 코딩 에이전트만 필요한 경우입니다. 이 두 조건이 맞으면 Apache 2.0에 처리량 3배 향상이라는 조건은 꽤 매력적입니다.
Q&A
마치며
Mistral Small 4는 방향성 자체는 맞습니다. 하나의 모델로 추론·비전·코딩을 다 처리하고, Apache 2.0 라이선스로 데이터를 밖으로 내보내지 않아도 되는 구조는 특히 유럽·공공·금융 분야에서 설득력 있습니다. 벤치마크 수치도 119B 전체 파라미터가 아닌 6.5B 활성 파라미터 기준으로 보면 효율이 매우 높습니다.
다만 지금 이 순간(2026.03.24 기준)은 이미지 인식 품질 문제가 해결되지 않은 상태입니다. 공식 API에서 실측으로 재현된 결과라는 점이 무겁습니다. 멀티모달 통합을 전면에 내세운 모델이 비전에서 훨씬 작은 모델에 밀린다는 건 아직 써도 되는지 신중하게 판단해야 한다는 신호입니다.
텍스트 추론과 코딩 에이전트에 집중한다면 지금도 충분히 테스트할 가치가 있고, 멀티모달이 필요하다면 패치 이후를 기다리는 쪽이 현실적입니다. 이 모델이 제 잠재력을 발휘하는 시점은 이미지 품질 이슈가 정리되는 몇 주 뒤가 될 가능성이 높습니다.
📎 본 포스팅 참고 자료
- Mistral AI 공식 발표 — https://mistral.ai/news/mistral-small-4 (2026.03.17)
- Hugging Face 공식 모델 카드 — https://huggingface.co/mistralai/Mistral-Small-4-119B-2603 (2026.03.16)
- NVIDIA NIM 모델 카드 — https://build.nvidia.com/mistralai/mistral-small-4-119b-2603/modelcard (2026.03.16)
- emelia.io 완전 가이드 및 벤치마크 — https://emelia.io/hub/mistral-small-4-complete-guide-benchmarks (2026.03.17)
- Reddit r/LocalLLaMA 이미지 실측 스레드 — https://www.reddit.com/r/LocalLLaMA/comments/1rw9a2r/ (2026.03.17)
본 포스팅은 2026년 3월 24일 기준으로 작성되었습니다. AI 서비스 특성상 모델 기능·벤치마크·API 가격·지원 프레임워크는 Mistral AI의 업데이트에 따라 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으므로, 최신 정보는 Mistral AI 공식 사이트(mistral.ai)에서 직접 확인하시기 바랍니다.


댓글 남기기