📅 2026.03.16 출시 기준
v26.03 · Apache 2.0

Mistral Small 4, 5가지 수치로 ‘작다’는 말의 진짜 뜻을 확인했습니다

이름에 Small이 붙어 있는데, 막상 펼쳐보면 119B짜리 거대 모델입니다. 그런데도 활성 파라미터는 6B에 불과합니다. 오픈소스 진영에서 처음으로 추론·멀티모달·코딩 에이전트를 하나로 묶은 이 모델, 공식 수치와 실사용 결과가 얼마나 다른지 직접 확인했습니다.

119B

총 파라미터

실제 활성 파라미터

256k

컨텍스트 윈도우

$0.15

/M 입력 토큰

40%

완료 시간 단축

‘Small’인데 119B? 이름이 틀린 게 아닙니다

결론부터 말씀드리면, Mistral은 모델명의 ‘Small’을 총 파라미터가 아니라 실제 추론 시 활성화되는 파라미터 기준으로 붙입니다. Mistral Small 4의 총 파라미터는 119B이지만, 실제로 하나의 토큰을 처리할 때 깨어나는 파라미터는 6B(임베딩·출력 레이어 포함 시 8B)에 불과합니다. (출처: Mistral AI 공식 발표, 2026.03.16)

💡 공식 발표문과 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 119B 모델이 왜 H100 4장이면 돌아가는지, 그 구조가 여기서 비롯됩니다.

이 구조의 이름이 MoE(Mixture of Experts)입니다. 128개의 전문가 집단 중 토큰 하나당 4개만 선택적으로 활성화됩니다. 덕분에 모델은 “119B급 지식”을 갖고 있지만, 실제 연산은 “6B급 속도”로 처리됩니다. 이게 40% 완료 시간 단축, 초당 처리 요청 수 3배 향상의 원천입니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

Reddit에서 첫 반응은 냉소적이었습니다. “‘Small’이 예전 Small이 아니네”, “120B짜리를 Small이라고 부르는 거야?” 같은 댓글이 줄을 이었습니다. 기술적 맥락을 모르면 충분히 이상하게 보이는 네이밍입니다. 하지만 MoE 구조를 이해하면 Mistral의 논리는 나름 일관성이 있습니다. 작동하는 부분이 작다는 뜻입니다.

▲ 목차로 돌아가기

3개 전문 모델이 1개로 — 실제로 무엇이 달라졌나

Mistral Small 4 이전까지 Mistral AI에는 역할이 나뉜 세 개의 전문 모델이 존재했습니다. 추론에는 Magistral, 이미지 처리에는 Pixtral, 코딩 에이전트 작업에는 Devstral을 각각 선택해야 했습니다. 복잡한 프로젝트에서는 이 세 모델을 직접 묶는 커스텀 툴링이 필수였고, 그 오버헤드가 만만치 않았습니다.

이전 모델	주요 역할	Small 4로 대체 가능?
Magistral	복잡한 추론·수학	✅ reasoning_effort=”high” 설정으로
Pixtral	이미지+텍스트 멀티모달	⚠️ 일반 수준은 가능 (고정밀 비전은 별도 검토 필요)
Devstral	코딩 에이전트·코드베이스 탐색	✅ 에이전트 작업 통합 지원

이 통합이 뜻하는 건 배포 복잡도의 감소입니다. API 엔드포인트 하나로 채팅부터 추론, 코딩 에이전트까지 처리할 수 있으니 인프라 관리 포인트가 줄어듭니다. 다만 전문화된 모델을 통합한 대가는 있습니다. Tessl의 분석에 따르면 각 전문 모델이 특정 작업에서 더 예측 가능하고 정밀하게 튜닝되어 있기 때문에, 이를 하나로 합치면 일부 집중도가 희석될 수 있다는 지적도 나옵니다. (출처: tessl.io/blog/mistral-combines-its-flagship-ai-models, 2026.03.17)

직접 써보면 reasoning_effort 파라미터 하나로 행동이 눈에 띄게 달라집니다. "none"으로 설정하면 Mistral Small 3.2 수준의 빠른 응답이 나오고, "high"로 올리면 Magistral과 비슷한 단계별 추론 흐름이 펼쳐집니다.

▲ 목차로 돌아가기

코딩 출력이 경쟁 모델보다 10배 짧은 이유

벤치마크 숫자만 보면 놓치기 쉬운 부분이 있습니다. Mistral Small 4는 LiveCodeBench(코딩 벤치마크)에서 64점을 기록해 GPT-OSS 120B(63점)를 소폭 넘었는데, 이 점수를 낼 때 생성한 코드 분량이 평균 2,100자입니다. GPT-OSS 120B는 동일 벤치마크에서 23,600자 분량의 코드를 출력했습니다. 비슷한 점수를, 10배 이상 짧은 코드로 냈다는 뜻입니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

💡 출력 길이와 추론 비용은 직결됩니다. API 호출 1,000번 기준으로, 코드 출력이 10배 짧으면 출력 토큰 비용도 그만큼 줄어듭니다.

수학 추론 벤치마크(AIME 2025)에서도 비슷한 흐름이 확인됩니다. Mistral Small 4는 reasoning 모드에서 93점을 기록했는데, GPT-OSS 120B의 출력 평균 길이가 15,000자인 반면 Mistral Small 4는 3,900자로 같은 정확도를 냈습니다. (출처: analyticsvidhya.com/blog/2026/03/mistral-small-4, 2026.03.18)

실제 API 비용으로 환산해 보면 더 와닿습니다. Mistral Small 4의 출력 토큰 단가는 $0.6/M 토큰입니다. (출처: docs.mistral.ai/models/mistral-small-4-0-26-03, 2026.03.16) GPT-OSS 120B 대비 코드 출력이 10배 짧다면, 같은 작업량에서 출력 토큰 비용 자체가 이론적으로 10분의 1 수준으로 내려갑니다. 이 수치는 대규모 코딩 에이전트 파이프라인을 운영하는 팀에게 작지 않은 차이입니다.

▲ 목차로 돌아가기

이미지 처리, 발표 자료와 실사용 사이의 온도 차

Mistral Small 4가 출시 직후 가장 많이 받은 비판 중 하나가 이미지 처리 성능입니다. 공식 벤치마크에서는 MMMU-Pro(비전 벤치마크) 60점으로 이전 모델(Mistral Small 3.2·Medium 3.1)보다 높은 수치를 기록했지만, 실사용자들의 반응은 달랐습니다.

⚠️ 실사용에서 보고된 이미지 문제

Q4_K_M 양자화 버전에서 이미지 인식 품질이 현저히 저하됨 (LocalLLaMA Reddit, 2026.03.17)
수학 공식 OCR 정확도에서 Qwen 3.5-9B(85.5점)에 비해 66점으로 약 20점 차이 (Reddit 비교 스레드, 2026.03.20)
공식 API에서도 동일 이미지 설명 요청 시 엉뚱한 결과 보고 사례 다수

Mistral AI는 이 문제에 대해 공식 답변을 내놓지 않은 상태입니다. 벤치마크 점수가 향상된 것은 사실이지만, 그 점수의 기반이 되는 평가 세트와 실제 사용자가 주로 던지는 이미지 유형 사이에 간극이 있는 것으로 보입니다.

이 부분은 이미지 처리가 핵심 용도인 팀이라면 반드시 먼저 자체 테스트해볼 필요가 있는 지점입니다. 특히 수학 공식이 포함된 문서 OCR, 복잡한 시각적 장면 이해가 필요한 경우에는 Pixtral Large나 전용 비전 모델과 병행 비교하는 것이 현실적입니다. 일반적인 문서 요약, 스크린샷 기반 QA 수준에서는 실사용 리포트도 준수하다는 평이 많습니다.

▲ 목차로 돌아가기

Meta LLaMA보다 Apache 2.0이 실제로 유리한 조건

오픈소스 진영 모델을 고를 때 라이선스는 생각보다 중요한 변수입니다. Mistral Small 4는 Apache 2.0 라이선스로 공개됐습니다. Meta의 Llama 4는 상업적 이용 시 월간 활성 사용자(MAU)가 7억 명을 초과하면 Meta로부터 별도 허가를 받아야 하는 조건이 붙어 있습니다. (출처: mindstudio.ai/blog/what-is-mistral-small-4, 2026.03.20)

💡 스타트업이나 SaaS 서비스를 빠르게 키우는 팀이라면, 사용자 수가 늘어날수록 라이선스 조건을 재검토해야 하는 리스크 자체가 없다는 점이 Apache 2.0의 실질적 강점입니다.

항목	Mistral Small 4 (Apache 2.0)	Llama 4 (Meta 라이선스)
상업적 이용	✅ 무제한	⚠️ MAU 7억 초과 시 허가 필요
수정·재배포	✅ 가능	✅ 가능 (단, 규모 조건 포함)
파인튜닝 후 배포	✅ 자유로움	⚠️ 동일 MAU 조건 적용
사용료·수익 쉐어	✅ 없음	✅ 없음

Apache 2.0은 수정, 재배포, 서비스 내재화, 파인튜닝 후 재판매 모두에서 추가 허가가 필요 없습니다. 데이터를 외부 API로 보내지 않고 온프레미스에서 처리해야 하는 금융·의료·법무 분야 팀에게는 이 라이선스 조합이 결정적 이유가 되기도 합니다.

▲ 목차로 돌아가기

직접 써보려면 — 접속 방법과 최소 하드웨어

Mistral Small 4는 세 가지 경로로 접근할 수 있습니다. 가장 빠른 방법은 Mistral AI Studio(구 la Plateforme)입니다. console.mistral.ai에 가입하면 플레이그라운드에서 API 키 없이 즉시 사용해볼 수 있고, API로 쓰려면 입력 토큰 $0.15/M, 출력 토큰 $0.6/M 요금이 붙습니다. (출처: docs.mistral.ai/models/mistral-small-4-0-26-03, 2026.03.16)

두 번째는 Hugging Face입니다. mistralai/Mistral-Small-4 컬렉션에서 가중치를 직접 내려받을 수 있고, vLLM·llama.cpp·SGLang·Transformers 등 주요 추론 프레임워크를 지원합니다. 로컬 배포를 위한 최소·권장 하드웨어는 다음과 같습니다.

배포 수준	최소 구성	권장 구성
엔터프라이즈 최소	H100 ×4 또는 H200 ×2 또는 DGX B200 ×1	H100 ×4 또는 H200 ×4 또는 DGX B200 ×2
로컬 (양자화)	VRAM 60GB+ (4비트 기준)	VRAM 80GB+ (더 긴 컨텍스트)
일반 PC (Ollama 활용)	RAM 64GB (양자화 필수)	RAM 128GB 이상

(출처: Mistral AI 공식 문서, 2026.03.16) 4비트 양자화 버전만 해도 VRAM이 약 60GB 필요하다는 점에서, 일반 RTX 4090(24GB) 한 장으로는 돌리기 어렵습니다. 이 부분이 Reddit에서 “119B짜리를 Small이라고 해도 현실적으로 내 PC에선 못 돌린다”는 반응이 나온 배경입니다.

세 번째는 NVIDIA build.nvidia.com입니다. NVIDIA 계정으로 로그인하면 NIM(Optimized Inference Microservice) 형태로 Mistral Small 4를 무료로 프로토타이핑할 수 있고, 프로덕션 전환도 동일 환경에서 가능합니다. (출처: mistral.ai/news/mistral-small-4, 2026.03.16)

▲ 목차로 돌아가기

자주 묻는 질문

Q. Mistral Small 4는 무료인가요?

가중치 자체는 Apache 2.0으로 무료 공개됩니다. 단, Mistral AI Studio를 통한 API 사용은 입력 $0.15/M 토큰, 출력 $0.6/M 토큰 요금이 발생합니다. 로컬에서 직접 구동하면 가중치 다운로드 후 API 요금은 없지만, 앞에서 설명한 수준의 하드웨어가 필요합니다.

Q. 추론 기능은 항상 켜져 있나요?

아닙니다. reasoning_effort 파라미터로 직접 조절합니다. “none”으로 설정하면 추론 단계 없이 빠른 응답이 나오고, “high”로 올리면 단계별 추론이 활성화됩니다. 기본값은 공식 문서에서 별도로 명시하지 않았습니다.

Q. 한국어 성능은 어떻게 되나요?

공식 발표에서 “최고 수준의 다국어 성능”을 언급했지만, 한국어 단독 벤치마크 수치는 현재 공개되지 않았습니다. Mistral 계열 모델은 전반적으로 영어 중심으로 훈련되며, 한국어 성능은 GPT-4o나 Gemini 계열보다 낮다는 것이 실사용자들의 공통된 경험입니다. 한국어 중심 업무라면 직접 테스트가 먼저입니다.

Q. Mistral Small 3.2와 무엇이 다른가요?

Small 3.2는 텍스트 중심의 범용 모델이었습니다. Small 4는 여기에 멀티모달 입력(이미지), 고도 추론(Magistral 수준), 코딩 에이전트(Devstral 수준)를 통합했습니다. 구조도 밀집형에서 MoE(전문가 혼합)로 바뀌면서 파라미터 규모가 크게 달라졌습니다.

Q. 파인튜닝하면 성능을 더 끌어올릴 수 있나요?

특정 도메인 데이터로 파인튜닝하면 해당 영역 성능은 상당히 향상됩니다. QLoRA 방식으로 A100 80GB 한 장에서 파인튜닝이 가능하고, 수백~수천 개의 고품질 데이터셋으로도 체감 가능한 차이가 납니다. Mistral la Plateforme에서 관리형 파인튜닝도 제공합니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 이름이 오해를 부르는 모델입니다. 총 119B짜리를 ‘Small’이라고 부르니 처음엔 당연히 혼란스럽습니다. 그런데 실제로 연산을 담당하는 활성 파라미터는 6B, 운영 비용은 작은 모델 수준이라는 걸 이해하면 논리가 잡힙니다.

추론·멀티모달·코딩 에이전트를 하나로 묶겠다는 방향 자체는 개발 복잡도를 줄이는 실용적인 접근입니다. 코딩 벤치마크에서 10배 짧은 출력으로 경쟁 모델과 동등한 점수를 낸다는 건, API 비용 측면에서 충분히 주목할 만한 수치입니다. Apache 2.0 라이선스가 만들어내는 상업적 자유도도 놓치기 쉬운 강점입니다.

다만 이미지 처리 성능의 실사용 격차는 직접 테스트 없이 그냥 믿기 어렵습니다. 비전 작업이 핵심 용도라면 반드시 자신의 데이터로 먼저 검증해볼 것을 권합니다. Mistral Small 4는 만능은 아니지만, 코드·추론·에이전트 파이프라인 비용을 줄이려는 팀에게는 지금 당장 살펴볼 가치가 있는 모델입니다.

📚 본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 스펙은 2026년 3월 16일 공식 발표 기준이며, Mistral AI의 업데이트에 따라 달라질 수 있습니다. 투자 또는 구매 결정 전 공식 문서를 반드시 직접 확인하세요.

Mistral Small 4, 5가지 수치로 ‘작다’는 말의 진짜 뜻을 확인했습니다

‘Small’인데 119B? 이름이 틀린 게 아닙니다

3개 전문 모델이 1개로 — 실제로 무엇이 달라졌나

코딩 출력이 경쟁 모델보다 10배 짧은 이유

이미지 처리, 발표 자료와 실사용 사이의 온도 차

Meta LLaMA보다 Apache 2.0이 실제로 유리한 조건

직접 써보려면 — 접속 방법과 최소 하드웨어

자주 묻는 질문

마치며

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 5가지 수치로 ‘작다’는 말의 진짜 뜻을 확인했습니다

‘Small’인데 119B? 이름이 틀린 게 아닙니다

3개 전문 모델이 1개로 — 실제로 무엇이 달라졌나

코딩 출력이 경쟁 모델보다 10배 짧은 이유

이미지 처리, 발표 자료와 실사용 사이의 온도 차

Meta LLaMA보다 Apache 2.0이 실제로 유리한 조건

직접 써보려면 — 접속 방법과 최소 하드웨어

자주 묻는 질문

마치며

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기