📅 2026.03.16 출시 기준
v26.03 (mistral-small-4-119b-2603)
Apache 2.0

Mistral Small 4, 멀티모달이라고요?
이 결과 먼저 보세요

결론부터 말씀드리면, Mistral Small 4는 오픈소스 역사상 처음으로 추론·멀티모달·에이전트 코딩을 단일 모델에 통합한 119B MoE 모델입니다. 그런데 막상 멀티모달 기능을 써보면 기대와 전혀 다른 결과가 나옵니다. 공식 API에서 직접 테스트한 이미지 인식 결과가 그 증거입니다.

119B

총 파라미터

활성 파라미터/토큰

256K

컨텍스트 윈도우

$0.15

입력 / M 토큰

Mistral Small 4가 왜 지금 이 시점에 나왔는가

2026년 3월 16일, Mistral AI는 Mistral Small 4 (버전 v26.03, 모델명 mistral-small-4-119b-2603)를 공식 발표했습니다. 타이밍이 묘합니다. GPT-5.4가 3월 5일 출시된 지 11일 만입니다. 우연이라기엔 너무 딱 맞는 간격입니다.

Mistral이 이번에 내세운 핵심 메시지는 “세 가지 전문 모델을 하나로”입니다. 기존에는 추론이 필요하면 Magistral, 이미지 처리가 필요하면 Pixtral, 코딩 에이전트 워크플로에는 Devstral을 따로 써야 했습니다. 세 모델을 교체해가며 쓰는 불편함이 실제 기업 도입의 걸림돌이었는데, 이 세 가지를 단일 모델에 압축했다는 게 이번 발표의 골자입니다.

여기에 더해 Apache 2.0 라이선스를 유지했고, NVIDIA Nemotron Coalition 창립 멤버로 참여하면서 엔터프라이즈 시장 공략 의지를 확실히 드러냈습니다. (출처: Mistral AI 공식 발표, 2026.03.16)

▲ 목차로 돌아가기

119B 파라미터인데 왜 ‘스몰’인가 — 구조를 직접 뜯어봤습니다

이름이 ‘Small’이어서 오해하기 쉽습니다. 총 파라미터 수는 119B로, GPT-4-turbo(추정 약 120B)와 맞먹는 규모입니다. 그런데 Mistral이 이걸 ‘스몰’이라 부르는 이유가 따로 있습니다.

💡 공식 문서와 실제 추론 비용 구조를 같이 놓고 보니 이런 차이가 보였습니다.

MoE(Mixture of Experts) 아키텍처에서 핵심은 “활성 파라미터”입니다. Mistral Small 4는 128개의 전문가 레이어 중 토큰 하나당 4개만 활성화됩니다. 결과적으로 실제 연산에 쓰이는 파라미터는 6B(임베딩·출력 레이어 포함 시 8B)에 불과합니다. 119B짜리 모델이 6B 수준의 추론 비용으로 돌아간다는 뜻입니다. 비용 기준으로 보면 진짜 ‘스몰’입니다. (출처: Mistral AI 공식 발표, 2026.03.16)

이 구조 덕분에 API 가격도 눈에 띕니다. 입력 토큰 $0.15/M, 출력 토큰 $0.60/M입니다. (출처: Mistral AI 공식 문서 docs.mistral.ai, 2026.03.16 기준) GPT-4o mini($0.15/$0.60)와 거의 동일한 가격대에서 훨씬 큰 전체 파라미터를 가진 모델을 쓰는 셈입니다. 가격만 보면 매력적입니다.

항목	Mistral Small 4	Mistral Small 3.2
총 파라미터	119B	24B
활성 파라미터	6B (MoE)	24B (Dense)
컨텍스트	256K	128K
멀티모달	✅ 텍스트+이미지	✅ 텍스트+이미지
추론 모드	✅ reasoning_effort	❌
API 가격(입력/출력)	$0.15 / $0.60	참고: 이전 세대

출처: Mistral AI 공식 문서 (docs.mistral.ai, 2026.03.16 기준)

▲ 목차로 돌아가기

reasoning_effort 파라미터, 생각보다 훨씬 쓸모 있습니다

Small 4에서 가장 실용적인 신기능이 이겁니다. API 호출 시 reasoning_effort 파라미터로 모델의 사고 깊이를 그때그때 바꿀 수 있습니다.

두 가지 모드의 실질적 차이

reasoning_effort="none"으로 설정하면 Mistral Small 3.2와 동일한 채팅 스타일로 빠르게 응답합니다. reasoning_effort="high"로 올리면 기존 Magistral 수준의 단계별 추론 출력으로 전환됩니다. (출처: Mistral AI 공식 발표, 2026.03.16)

Mistral 공식 벤치마크에 따르면, 추론 모드에서 Small 4는 AA LCR 기준 0.72점을 기록하면서 출력 길이는 1,600자에 불과했습니다. 같은 점수대의 Qwen 모델들은 5,800~6,100자를 출력했습니다. 짧게 쓰고도 점수가 같습니다. (출처: Mistral AI 공식 발표, 2026.03.16)

이게 실무에서 의미하는 건 간단합니다. 출력이 짧으면 API 비용도 줄고 응답 속도도 빨라집니다. 기업 환경에서는 이 차이가 누적되면 꽤 큰 비용 격차로 이어집니다.

▲ 목차로 돌아가기

공식 발표와 실제 사용 결과를 같이 놓고 보니 이게 보였습니다

💡 멀티모달 통합이라는 홍보 문구와 실제 공식 API 테스트 결과를 나란히 놓고 보면 이런 간극이 드러납니다.

이미지 인식 성능, 공식 API에서 직접 확인한 결과

Reddit r/LocalLLaMA의 실사용자 EffectiveCeilingFan은 음악 페스티벌 사진을 Mistral Small 4 공식 API에 넣고 이미지 설명을 요청했습니다. (2026.03.17, 공식 API 직접 테스트) 돌아온 결과는 “경기장, 보안 요원, 트랙 구역, 주차된 차량, 조명 기둥”이었습니다. 해당 사진에는 경기장도 없고 차량도 없었습니다. 앞에 뮤지션들이 공연하고 있는 야외 해변 페스티벌이었는데, 모델은 스포츠 경기장으로 인식한 겁니다.

같은 사진을 Qwen3.5 35B A3B(총 파라미터 약 35B, 활성 파라미터 약 3B)로 넣었더니 “무대 위 카우보이 모자 뮤지션, 해변 무대, 오후 노을 색조의 하늘, 관중 뒤 해변 우산 행렬”까지 정확히 묘사했습니다. Small 4보다 파라미터가 3분의 1 수준인 모델이 이미지 인식에서 압도적으로 앞선 겁니다.

또 다른 사용자 YearZero는 Q8_0 퀀트 버전으로 테스트한 결과 “사진 속 사람 수 세기 과제에서 Qwen3.5 0.8B보다 낮은 점수”를 기록했다고 밝혔습니다. (2026.03.17, Reddit r/LocalLLaMA)

⚠️ 이미지 처리 과제에서 공식 API 기준으로도 심각한 환각(hallucination)이 확인됩니다.
Mistral 측은 아직 공식 원인을 발표하지 않았습니다. 일부 커뮤니티 의견은 비전 인코더 활성화 함수에 구현 버그가 있을 가능성을 제시하고 있지만, 공식 확인은 없는 상태입니다. (출처: Reddit r/LocalLLaMA, 2026.03.17)

Mistral Small 3.2(이전 세대 24B 모델)는 같은 이미지 테스트에서 문제가 없었습니다. 파라미터 수가 더 큰 Small 4가 오히려 이미지 인식에서 더 못한다는 점이 이 상황의 핵심입니다. 모델 크기가 곧 성능이 아님을 보여주는 사례입니다.

▲ 목차로 돌아가기

비용·속도·성능, 숫자로 직접 따져봤습니다

Small 3과 비교하면 속도가 얼마나 달라지나

Mistral 공식 발표에 따르면, Small 4는 이전 세대 Mistral Small 3 대비 엔드투엔드 완료 시간이 40% 감소하고, 초당 처리 요청 수는 3배 증가했습니다(처리량 최적화 설정 기준). (출처: Mistral AI 공식 발표, 2026.03.16)

초당 요청 수 3배란, 같은 인프라로 동시 사용자를 3배 더 감당할 수 있다는 뜻입니다. B2C 서비스나 고트래픽 엔터프라이즈 환경에서는 인프라 비용 절감 여지가 있습니다.

출력 길이 차이가 만드는 비용 차이

VentureBeat 보도에 따르면, 인스트럭트 모드에서 Small 4의 평균 출력 길이는 약 2,100자입니다. 같은 과제에서 Claude Haiku는 14,200자, GPT-OSS 120B는 23,600자를 출력했습니다. (출처: VentureBeat, Mistral 공식 벤치마크 인용, 2026.03.20)

💡 출력 토큰 기준으로 계산해보면:

동일 과제, 1,000회 호출 가정 시
· Small 4: 약 2,100자 × 1,000 = 약 210만 토큰 출력 → 약 $1.26
· GPT-OSS 120B: 약 23,600자 × 1,000 = 약 2,360만 토큰 출력 → 규모 비교 기준 약 11.2배 비용 차이 발생

같은 성능이라면 Small 4의 짧은 출력이 비용 효율에서 유리합니다. 단, 이 비교는 과제별 출력 품질이 동등할 때만 유효합니다.

코딩 벤치마크(LiveCodeBench)에서는 Small 4가 GPT-OSS 120B를 앞섰습니다. 반면 Qwen 3.5 122B와 Qwen 3-next 80B에는 뒤졌습니다. (출처: VentureBeat 인용 Mistral 벤치마크, 2026.03.20)

MMLU Pro에서는 Mistral Medium 3.1, Mistral Large 3 수준에 근접했습니다. 이전 세대 전문 특화 모델들과 견주는 범용 모델로는 합격점이지만, 코딩·추론 특화 오픈소스 최강자 자리는 아닙니다.

▲ 목차로 돌아가기

이 모델, 지금 당장 쓰면 안 되는 상황이 있습니다

💡 이런 분류는 대부분의 소개 글에 없습니다. 기술 스펙만 보면 모든 게 가능해 보이지만, 실사용 데이터와 공식 인프라 요구사항을 교차해보면 이 한계들이 도출됩니다.

① 이미지 분석이 핵심 과제인 경우

앞서 본 것처럼 공식 API 기준으로도 이미지 인식 환각이 심합니다. 이미지 캡셔닝, 비전 QA, 문서 이미지 파싱이 주요 용도라면 현시점(2026.03 기준)에서는 Qwen3.5 계열이나 이전 세대 Mistral Small 3.2 쪽이 더 안정적입니다.

② 로컬 배포를 원하는 일반 개발자

Mistral Small 4의 Hugging Face 가중치 파일 크기는 약 242GB입니다. (출처: Simon Willison’s Weblog, 2026.03.16) 최소 구동 사양은 NVIDIA HGX H100 4장, 권장 사양은 H100 혹은 H200 4장 또는 DGX B200 2장입니다. 단일 소비자용 GPU로는 어렵습니다.

③ 코딩 에이전트 성능을 최우선으로 따지는 경우

LiveCodeBench 결과에서 Small 4는 GPT-OSS 120B를 앞섰지만 Qwen 3.5 122B에는 뒤졌습니다. 코딩 에이전트 성능 하나만 보면 특화 모델(Devstral 기준)보다 후퇴했을 가능성도 있습니다. 오픈 소스 커뮤니티 일부는 “범용화 과정에서 특화 능력이 희석됐다”는 의견을 제시하고 있습니다.

④ reasoning_effort API 파라미터를 즉시 쓰고 싶은 경우

Simon Willison은 실제 API 호출 시 reasoning_effort 파라미터를 공식 API 문서에서 찾을 수 없었다고 밝혔습니다. (출처: Simon Willison’s Weblog, 2026.03.16) Mistral 측이 기능을 발표했지만 API 문서가 아직 완전히 반영되지 않은 상태로 보입니다. Mistral이 공식 답변을 내놓지 않은 부분입니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Mistral Small 4는 무료로 쓸 수 있나요?

모델 가중치 자체는 Apache 2.0 라이선스로 무료 다운로드가 가능합니다. Hugging Face에서 배포 중이며 상업적 사용도 허용됩니다. 다만 242GB 가중치를 로컬에서 돌리려면 H100급 GPU가 필요해 실질적으로 개인 로컬 실행은 어렵습니다. Mistral API 사용 시에는 입력 $0.15/M 토큰, 출력 $0.60/M 토큰 요금이 부과됩니다. NVIDIA build.nvidia.com에서 프로토타입 무료 테스트는 가능합니다. (출처: Mistral AI 공식 문서, 2026.03.16)

Q2. 119B인데 왜 ‘Small’이라는 이름을 쓰나요?

MoE 구조 덕분에 토큰당 실제로 활성화되는 파라미터가 6B에 불과하기 때문입니다. 추론 비용 기준으로는 ‘스몰’이 맞습니다. 전체 파라미터 수가 크더라도 Dense 24B 모델보다 적은 연산량으로 처리가 가능합니다. Mistral이 ‘Small’ 이름을 유지한 건 활성 파라미터 기준 포지셔닝을 따른 것으로 보입니다.

Q3. GPT-4o mini와 가격이 비슷한데 어느 게 낫나요?

텍스트 추론·코딩 과제에서는 Small 4가 GPT-OSS 120B를 일부 벤치마크에서 앞서는 만큼 경쟁력이 있습니다. 단, 이미지 처리가 필요한 멀티모달 과제에서는 현시점 기준 GPT-4o mini 쪽이 더 안정적입니다. 오픈소스 배포·파인튜닝 자유도를 원한다면 Small 4, 안정적인 멀티모달 API를 원한다면 GPT-4o mini가 현재 더 무난합니다.

Q4. 이미지 인식이 나쁜 게 버그인가요, 모델 한계인가요?

현시점에서는 확실하지 않습니다. 커뮤니티 일부에서는 Mistral Small 3.1 출시 당시에도 비전 인코더 활성화 함수 구현 버그가 있었던 선례를 근거로 유사한 버그 가능성을 제기합니다. 반면 공식 API에서도 동일하게 재현된다는 보고가 다수여서 모델 자체의 한계일 수도 있습니다. Mistral이 아직 공식 입장을 밝히지 않은 상태입니다.

Q5. 어떤 용도에서 지금 당장 쓸 만한가요?

텍스트 중심 과제에서는 충분히 실용적입니다. 코딩 자동화, 문서 요약, 긴 컨텍스트(256K) 분석, 채팅 에이전트 워크플로에서는 빠른 응답 속도와 낮은 출력 토큰 수가 비용 절감에 실질적으로 도움이 됩니다. 이미지 처리를 포함하지 않는 엔터프라이즈 텍스트 파이프라인이라면 지금도 투입 가능합니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 방향성 자체는 맞습니다. 세 개 모델을 관리하는 대신 하나로 통합하고, 추론 깊이를 API 레벨에서 조절하고, 출력 효율로 비용을 줄이는 전략은 실제 엔터프라이즈 수요를 정확히 겨냥하고 있습니다.

다만 솔직히 말하면, 멀티모달이라는 타이틀을 앞세우기엔 이미지 인식 품질이 지금 당장은 심각한 수준입니다. 파라미터 규모가 훨씬 작은 경쟁 모델보다 못한 결과가 공식 API에서 재현된다는 건, 출시 직전 검증 단계에서 뭔가 놓쳤다는 신호로 읽힙니다.

텍스트 코딩·추론·긴 컨텍스트 분석이 주 업무라면 지금 써도 됩니다. 이미지가 들어가는 워크플로라면 Mistral이 공식 패치나 업데이트를 내놓을 때까지 기다리는 편이 현명합니다. 출시 직후라 상황이 빠르게 바뀔 수 있습니다.

Apache 2.0 오픈소스라는 점, reasoning_effort로 비용을 실시간 제어할 수 있다는 점은 경쟁 모델에 없는 실질적 장점입니다. 이미지 문제가 해결된다면 중장기적으로 꽤 쓸만한 모델이 될 가능성이 있습니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Mistral AI 공식 발표 — https://mistral.ai/news/mistral-small-4
Mistral AI 공식 모델 문서 — https://docs.mistral.ai/models/mistral-small-4-0-26-03
NVIDIA NIM 모델 카드 — https://build.nvidia.com/mistralai/mistral-small-4-119b-2603
Simon Willison’s Weblog (2026.03.16) — https://simonwillison.net/2026/Mar/16/mistral-small-4/
VentureBeat 분석 (2026.03.20) — VentureBeat Mistral Small 4 기사
Reddit r/LocalLLaMA 실사용 테스트 (2026.03.17) — 실이미지 인식 테스트 스레드

※ 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Mistral Small 4는 2026년 3월 16일 출시 직후 작성된 내용으로, 이미지 인식 관련 이슈는 이후 패치·업데이트로 개선될 수 있습니다. 모든 수치는 작성 시점 공식 발표 및 공식 API 실측 기준이며, 공식 문서 변경 시 내용이 달라질 수 있습니다.

Mistral Small 4, 멀티모달이라고요?
이 결과 먼저 보세요

Mistral Small 4가 왜 지금 이 시점에 나왔는가

119B 파라미터인데 왜 ‘스몰’인가 — 구조를 직접 뜯어봤습니다