Mistral Small 4, 작다는 이름이 함정입니다

Published on

2026년 3월 23일

2026.03.17 출시 기준 / Mistral-Small-4-119B-2603

Mistral Small 4, 작다는 이름이 함정입니다

2026년 3월 17일, Mistral AI가 오픈소스 최초로 추론·멀티모달·코딩 에이전트를 하나의 모델에 통합한 Mistral Small 4를 공개했습니다. 이름은 “Small”인데, 파라미터는 119B입니다. API로는 꽤 쓸 만한데, 로컬로 돌리려면 H100이 4장 필요하고, 비전 성능은 9B짜리 경쟁 모델에도 밀렸습니다. 뭘 잘하고 뭘 못하는지, 공식 문서와 실측 데이터로 정리했습니다.

119B

총 파라미터

6.5B

토큰당 활성 파라미터

256k

컨텍스트 윈도우

Apache 2.0

라이선스

119B인데 왜 “Small”이라고 부를까?

Mistral Small 4를 처음 들으면 가벼운 경량 모델이라고 생각하기 쉽습니다. 이름에 “Small”이 들어가 있으니까요. 막상 공식 발표를 열어보면 전혀 다릅니다. 총 파라미터 119B, 128개 전문가(expert)로 구성된 MoE(Mixture of Experts) 아키텍처, 풀 프리시전(FP8) 가중치 기준 242GB — 이건 절대로 작은 모델이 아닙니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

Mistral이 말하는 “Small”의 기준은 토큰당 활성 파라미터 수입니다. 128개 전문가 중 매 토큰마다 4개만 깨어나 6.5B 파라미터를 사용합니다. 실제 연산량 기준으로는 24B 규모의 밀집 모델과 비슷한 수준이라는 게 Mistral의 주장입니다. 연산량 기준 “Small”이지, 모델 크기 기준 Small이 아닙니다.

💡 공식 발표문의 “6.5B activated per token”이라는 수치를 실제 배포 맥락과 같이 놓고 보면, API로 쓸 때와 로컬에서 돌릴 때의 체감이 왜 이렇게 다른지 설명이 됩니다.

이 차이를 모르고 로컬 배포를 시도했다가 H100 요구사항에 충격받는 사례가 이미 Reddit에 여럿 올라왔습니다. 이름이 주는 기대치 관리부터 필요한 모델입니다.

▲ 목차로 돌아가기

세 모델을 하나로 — 실제로 뭐가 달라졌나

Mistral Small 4의 핵심 셀링 포인트는 통합입니다. 기존에는 목적에 따라 다른 모델을 써야 했습니다. 일반 대화에는 Mistral Small 3, 수학·추론에는 Magistral, 코딩 에이전트에는 Devstral — 세 가지를 상황에 따라 골라 쓰는 게 보통이었습니다. Small 4는 이 세 가지를 단일 모델에 넣었습니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

실제 작동 방식을 보면 reasoning_effort 파라미터 하나로 모드를 전환합니다. "none"으로 설정하면 빠른 채팅 모드, "high"로 설정하면 단계별 추론 모드입니다. 비전은 기본으로 켜져 있어 텍스트와 이미지를 같이 넣으면 됩니다. (출처: Hugging Face 모델 카드, mistralai/Mistral-Small-4-119B-2603, 2026.03.17)

이전 모델	역할	Small 4에서
Mistral Small 3.2	일반 채팅·지시 수행	reasoning_effort=”none”
Magistral	수학·복잡 추론	reasoning_effort=”high”
Devstral	코딩 에이전트	기본 탑재 (에이전틱 모드)

멀티모달도 별도 어댑터 없이 기본 지원합니다. 텍스트와 이미지를 함께 입력하면 그냥 됩니다. 다만 비전 품질이 기대치와 다르다는 게 함정인데, 이건 섹션 4에서 따로 다룹니다.

▲ 목차로 돌아가기

로컬에서 돌리기 전에 봐야 할 숫자

Mistral Small 4는 Apache 2.0 라이선스 오픈소스이기 때문에 로컬 배포가 가능합니다. 그런데 공식 문서를 보면 최소 요구 사항이 현실적이지 않습니다.

📌 공식 발표문과 실제 구동 요건을 대조하니 이 차이가 보였습니다.

최소: NVIDIA HGX H100 4장, 또는 HGX H200 2장, 또는 DGX B200 1장
권장: HGX H100 4장, HGX H200 4장, 또는 DGX B200 2장
(출처: Mistral AI 공식 블로그, 2026.03.17)

풀 프리시전(FP8) 모델 가중치만 약 242GB입니다. NVFP4 퀀타이즈 체크포인트로 줄여도 약 60GB 수준이고, 이마저도 KV 캐시와 활성화 메모리를 더하면 소비자용 GPU 한 장으로는 구동이 불가능합니다. DGX Spark를 가진 일부 사용자가 NVFP4 버전으로 시도 중이라는 Reddit 댓글이 있지만, 일반 개발 환경과는 거리가 멀어요.

KV 캐시 구조는 주목할 만합니다. Mistral Small 4는 MLA(Multi-head Latent Attention) 아키텍처를 써서 KV 캐시 크기를 크게 줄였습니다. 256k 컨텍스트 전체를 BF16으로 채워도 KV 캐시가 5.49GB에 불과합니다. 같은 파라미터 규모의 Qwen3.5-122B보다 약 6% 가볍고, 순수 컨텍스트 효율로는 좋은 편입니다. (출처: The Kaitchup 뉴스레터, 2026.03.20)

그럼에도 불구하고 로컬 배포는 진입 장벽이 높습니다. Mistral AI도 공식 문서에서 “로컬 성능이 만족스럽지 않다면 Mistral AI API 사용을 권장한다”고 직접 적어뒀습니다. API로 쓰는 게 현실적인 선택지입니다.

▲ 목차로 돌아가기

비전 성능, 9B한테 지는 구조적 이유

솔직히 말하면, 가장 놀라운 부분이 여기입니다. 119B짜리 모델이 9B 모델한테 비전 벤치마크에서 진다는 게 직관적으로 납득이 안 됩니다. 그런데 이게 실제입니다.

문서 이해 벤치마크를 전문으로 측정하는 IDP 리더보드(idp-leaderboard.org)에서 Mistral Small 4와 Qwen3.5-9B를 직접 비교했을 때 결과는 이렇습니다: 14개 세부 항목 중 Qwen3.5-9B 10승, Mistral Small 4 2승, 2무. 종합 점수는 Qwen이 77.0점, Mistral이 71.5점입니다. 9B 밀집 모델이 119B MoE를 이겼습니다. (출처: idp-leaderboard.org 비교 결과, 2026.03.20)

파라미터 수가 비전 성능을 보장하지 않는다는 뜻입니다. MoE는 전문가를 분산해 효율적인 언어 처리를 하도록 설계됐는데, 비전 인코더는 이 구조의 수혜를 덜 받습니다.

⚠️ LocalLLaMA Reddit 스레드(2026.03.17)에는 공식 Mistral API에서 직접 테스트한 사용자가 “이미지를 음악 축제 현장이라고 설명하면 스타디움·트랙·보안요원이 있다고 묘사한다”는 리포트를 올렸습니다. 공식 API 기준으로도 동일하게 재현된 문제입니다. 뮤직 페스티벌 사진을 주고 200단어로 설명하라고 했을 때 뮤지션·무대·해변이 전혀 언급되지 않고 전혀 다른 장면을 묘사했습니다.

Mistral AI는 이에 대한 공식 답변을 내놓지 않은 상태입니다. 일부 개발자는 모델이 너무 최근에 나왔기 때문에 추론 라이브러리의 비전 파싱 구현에 버그가 있을 가능성을 열어두고 있지만, 공식 API에서도 동일한 문제가 나온다는 점에서 단순한 구현 버그는 아닐 수 있습니다. 이미지 분석이 중요한 워크플로라면 지금 당장 쓰기에는 위험 부담이 있습니다.

▲ 목차로 돌아가기

reasoning_effort가 2단계뿐인 의미

Mistral Small 4는 추론 깊이를 reasoning_effort 파라미터로 조절합니다. 지원 값은 "none"과 "high" 두 가지뿐입니다. 중간 단계가 없습니다. (출처: Hugging Face 모델 카드, 2026.03.17)

💡 파라미터 명칭은 GPT-OSS의 것과 같은데, 실제 동작 범위를 모델 카드와 실제 API 응답과 대조하니 이 차이가 나왔습니다.

GPT-OSS는 reasoning_effort를 “low / medium / high” 3단계로 지원합니다. Mistral Small 4는 2단계만 있어 중간 강도의 추론 요청에는 “high”를 쓸 수밖에 없고, 이 경우 토큰 출력이 크게 늘어납니다.

실제 벤치마크에서도 이 영향이 보입니다. Mistral Small 4는 “high” 모드로 AA LCR 벤치마크에서 0.72점을 기록하면서 출력 길이는 1.6K 글자였습니다. 반면 Qwen 모델들은 비슷한 점수를 내기 위해 5.8~6.1K 글자를 출력했습니다. Mistral가 효율적이라는 공식 주장은 이 수치에서는 맞습니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

문제는 “none” 모드입니다. 추론 없이 답하는 instruct 모드의 성능은 Mistral Small 3.2 수준과 비슷하다고 공식 문서에 직접 나옵니다. 119B 모델을 추론 없이 쓰면, 비용 대비 효율이 24B였던 Small 3.2를 API로 쓰는 것과 큰 차이가 없을 수 있습니다.

▲ 목차로 돌아가기

코딩·에이전트·추론 — 실제로 쓸 수 있는 시나리오

비전 쪽이 실망스럽다고 해도 Mistral Small 4가 쓸모없다는 뜻은 아닙니다. 코딩과 에이전트 쪽은 이야기가 다릅니다.

LiveCodeBench 기준으로 Mistral Small 4(reasoning “high”)는 GPT-OSS 120B보다 높은 점수를 내면서 출력 길이는 20% 짧습니다. 짧은 출력은 곧 낮은 레이턴시와 낮은 API 비용을 의미합니다. 대규모 코딩 에이전트 파이프라인을 API로 운영할 때 이 차이는 실제 비용으로 이어집니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

시나리오	추천 여부	이유
코드베이스 탐색 / SWE 에이전트	✅	LiveCodeBench 상위권, 짧은 출력
수학·복잡 추론 (API)	✅	AIME 2025, GPQA 경쟁력 있음
긴 문서 분석·RAG (텍스트)	✅	256k 컨텍스트, 작은 KV 캐시
이미지 분석·문서 OCR	⚠️	비전 품질 미검증, 현재 신뢰 어려움
소비자 GPU 로컬 구동	❌	최소 H100 4장 필요

처리 속도도 인상적입니다. Mistral Small 3 대비 레이턴시 최적화 설정에서 완료 시간이 40% 줄었고, 처리량 최적화 설정에서는 초당 요청 수가 3배 늘었습니다. 이건 API를 고볼륨으로 쓰는 팀에게 실질적 차이입니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

파인튜닝 지원도 빠르게 붙었습니다. Axolotl 프레임워크에서 파인튜닝 예제 코드가 이미 올라와 있고, vLLM 공식 PR 병합도 1~2주 내에 예정되어 있습니다(2026.03.17 기준). 기업 환경에서 특정 도메인으로 커스터마이징하려는 팀에게는 접근성이 좋은 편입니다.

▲ 목차로 돌아가기

Q&A

Mistral Small 4는 무료로 쓸 수 있나요?

모델 가중치는 Apache 2.0 라이선스로 Hugging Face에서 무료로 다운로드 가능합니다. Mistral AI Studio에서도 프리뷰 형태로 무료 테스트를 지원합니다. API로 실제 서비스에 쓰려면 유료 요금이 적용됩니다. OpenRouter 기준 입력 약 $0.09/1M 토큰 수준입니다 (2026.03.23 기준, 변동 가능).

RTX 4090으로 로컬 구동이 가능한가요?

풀 정밀도로는 불가능합니다. NVFP4 퀀타이즈 버전(약 60GB)도 RTX 4090 단일 카드(24GB VRAM)로는 부족합니다. LM Studio에서 GGUF 양자화 버전을 CPU 오프로드로 돌리는 시도는 있지만, 속도가 실용적이지 않습니다. 현실적으로는 H100 4장 이상의 환경이 필요합니다.

Devstral과 뭐가 다른가요?

Devstral은 코딩 에이전트에 특화된 24B 밀집 모델이었습니다. Mistral Small 4는 Devstral의 코딩 에이전트 능력에 추론 모드(Magistral)와 비전(Pixtral)까지 합친 하이브리드입니다. 단순 코딩 에이전트 작업이라면 더 가벼운 Devstral이 비용 면에서 유리할 수 있고, 복잡한 수학 추론이나 멀티모달 입력이 함께 필요하다면 Small 4가 합리적인 선택입니다.

비전 문제가 업데이트로 해결될 가능성이 있나요?

개발자 커뮤니티에서는 두 가지 가능성을 제기합니다. 하나는 출시 직후라서 vLLM 같은 추론 프레임워크의 비전 파서 구현에 버그가 있을 수 있다는 것, 다른 하나는 훈련 과정에서 비전 모듈이 MoE 구조에 충분히 통합되지 않았을 가능성입니다. 공식 API에서도 동일 문제가 재현되는 만큼 단순 구현 버그만의 문제는 아닐 수 있습니다. 이유는 아직 공개되지 않았습니다.

한국어 지원은 어떤가요?

공식 문서에 한국어를 포함한 수십 개 언어 지원이 명시되어 있습니다. (출처: Hugging Face 모델 카드, 2026.03.17) 다만 유럽·미국 영어와 수학 중심으로 훈련된 비중이 높아 한국어 일상 대화보다는 기술·코딩·추론 태스크에서 성능이 안정적으로 나오는 편입니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4의 방향성은 분명 맞습니다. 추론·코딩·비전 세 가지를 하나로 합쳐 모델 전환 부담을 없애는 것, 오픈소스로 풀어 파인튜닝 자유도를 주는 것, MoE로 연산 효율을 높이는 것 — 이 아이디어는 좋습니다.

문제는 실행입니다. 이름이 “Small”인데 로컬 진입 장벽이 H100 4장이고, 비전 성능은 9B 경쟁 모델에 밀리며, reasoning_effort는 2단계만 지원합니다. API로 코딩 에이전트나 복잡한 추론 작업을 돌리는 팀에게는 쓸 만한 선택지가 맞습니다. 비전 처리나 문서 OCR이 핵심이라면 지금 당장은 검증이 더 필요합니다.

개인적으로는 vLLM PR 병합과 추가 커뮤니티 테스트 결과를 2주 정도 더 지켜본 다음 판단하는 게 나을 것 같습니다. 오픈소스 모델 특성상 커뮤니티 피드백을 반영한 패치가 빠르게 붙는 편이기 때문입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Mistral AI 공식 블로그 — Introducing Mistral Small 4 (mistral.ai/news/mistral-small-4)
Hugging Face 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (huggingface.co/mistralai/Mistral-Small-4-119B-2603)
Reddit r/LocalLLaMA — “Mistral Small 4 is kind of awful with images” (2026.03.17)
Reddit r/LocalLLaMA — “Mistral Small 4 vs Qwen3.5-9B on document understanding benchmarks” (2026.03.20)
The Kaitchup 뉴스레터 — “Mistral Small 4: A Good Alternative to Qwen3.5 122B and Nemotron 3 Super?” (2026.03.20) (kaitchup.substack.com)

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 작성 시점(2026.03.23) 기준이며, Mistral Small 4(Mistral-Small-4-119B-2603) 버전 기준입니다. API 가격 및 벤치마크는 업데이트에 따라 달라질 수 있습니다.

AI 모델 비교, 로컬 LLM, 오픈소스 LLM, Mistral Small 4, MoE 모델

Mistral Small 4, 작다는 이름이 함정입니다

Mistral Small 4, 작다는 이름이 함정입니다

119B인데 왜 “Small”이라고 부를까?

세 모델을 하나로 — 실제로 뭐가 달라졌나

로컬에서 돌리기 전에 봐야 할 숫자

비전 성능, 9B한테 지는 구조적 이유

reasoning_effort가 2단계뿐인 의미

코딩·에이전트·추론 — 실제로 쓸 수 있는 시나리오

Q&A

마치며

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 작다는 이름이 함정입니다

Mistral Small 4, 작다는 이름이 함정입니다

119B인데 왜 “Small”이라고 부를까?

세 모델을 하나로 — 실제로 뭐가 달라졌나

로컬에서 돌리기 전에 봐야 할 숫자

비전 성능, 9B한테 지는 구조적 이유

reasoning_effort가 2단계뿐인 의미

코딩·에이전트·추론 — 실제로 쓸 수 있는 시나리오

Q&A

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기