2026.03.16 출시 기준
Mistral-Small-4-119B-2603
Apache 2.0

Mistral Small 4, 공식 수치 3가지 직접 확인했습니다

119B 파라미터짜리 MoE 모델인데 이름엔 “Small”이 붙어 있습니다. 처음에 이게 뭔가 싶었습니다. 그냥 마케팅 용어인가 했는데, 실제 구조를 파보면 이게 꽤 의도적인 설계 결정이었습니다. 공식 발표 수치, API 가격, 그리고 출시 직후 터진 이미지 성능 논란까지, 세 가지를 공식 자료 기준으로 직접 정리했습니다.

119B

총 파라미터 수

$0.15

입력 1M 토큰 단가

256K

컨텍스트 윈도우

3배

처리량 향상(vs Small 3)

“Small”인데 119B — 숫자부터 잡고 가겠습니다

Mistral Small 4의 공식 모델명은 Mistral-Small-4-119B-2603입니다. 이름에 “Small”이 붙어 있는데 파라미터 수가 119B라는 게 첫 번째 포인트입니다. GPT-4 추정 파라미터가 업계에서 약 1.8T로 돌던 걸 생각하면 Small이라고 부를 만도 하지만, 개인이나 소규모 팀 기준으로는 절대 가볍지 않습니다.

핵심은 MoE(Mixture of Experts) 구조에 있습니다. 총 128개 전문가 모듈 중 토큰 하나를 처리할 때 실제로 활성화되는 건 4개뿐입니다. 그래서 총 파라미터는 119B이지만, 실제 추론 시 활성 파라미터는 6B(임베딩·출력 레이어 포함 시 8B)입니다. (출처: Mistral 공식 HuggingFace 모델 카드, 2026.03.16) 6B만 실제로 쓴다는 뜻은, 같은 크기의 Dense 모델 대비 훨씬 적은 계산량으로 응답을 생성한다는 뜻입니다.

실제로 공식 발표에 따르면 Mistral Small 3 대비 레이턴시 최적화 환경에서 엔드투엔드 완료 시간이 40% 감소하고, 처리량 최적화 환경에서는 초당 요청 처리량이 3배 늘었습니다. (출처: mistral.ai/news/mistral-small-4) 속도 하나만 봐도 이전 세대와 다른 차원입니다.

💡 공식 문서에서 활성 파라미터(6B)와 총 파라미터(119B)를 나란히 놓고 보니, “Small”이라는 이름은 모델 전체 크기가 아니라 실제 추론 부하 기준임을 알 수 있습니다.

▲ 목차로 돌아가기

3개 모델을 1개로 통합한 구조, 실제로 뭐가 달라지나

Mistral Small 4가 내세우는 가장 큰 차별점은 통합입니다. 기존에 Mistral은 목적별로 모델을 따로 운영했습니다. 추론은 Magistral, 비전은 Pixtral, 코딩 에이전트는 Devstral. 이 세 가지를 Small 4 하나에 합쳤습니다. (출처: mistral.ai/news/mistral-small-4)

여기서 실질적으로 중요한 부분이 reasoning_effort 파라미터입니다. 요청 단위로 추론 깊이를 바꿀 수 있습니다. reasoning_effort="none"으로 설정하면 Mistral Small 3.2 수준의 빠른 응답, reasoning_effort="high"로 바꾸면 이전 Magistral 모델과 비슷한 단계별 추론을 수행합니다. (출처: HuggingFace 모델 카드 Recommended Settings)

개발자 입장에서 이게 주는 변화가 큽니다. 기존엔 “이 쿼리는 빠른 모델로, 저건 추론 모델로” 라우팅 로직을 별도로 짜야 했는데, Single API Endpoint에서 파라미터 하나로 그 결정을 내릴 수 있습니다. 운영 복잡도가 의미 있게 줄어드는 구조입니다.

▲ 목차로 돌아가기

공식 벤치마크 수치를 그대로 뜯어봤습니다

Mistral이 공식적으로 내세운 벤치마크는 AA LCR, LiveCodeBench, AIME 2025 세 가지입니다. 단순히 “성능이 좋다”가 아니라 출력 길이 대비 정확도에 초점을 맞춘 게 다릅니다.

항목	Mistral Small 4	Qwen 비교군	GPT-OSS 120B
AA LCR 점수	0.72	유사 수준	동등 이하
AA LCR 출력 길이	1.6K 자	5.8~6.1K 자	—
LiveCodeBench	상회	—	기준점
LiveCodeBench 출력 절감	20% 감소	—	기준점

출처: Mistral 공식 발표 및 HuggingFace 모델 카드(2026.03.16) / 표 내 수치는 Mistral 자체 측정값

Qwen 모델들이 같은 점수를 내려면 5.8K~6.1K 자의 출력이 필요한데, Mistral Small 4는 1.6K 자로 동일한 성과를 냅니다. 토큰이 짧다 = 비용이 줄고, 레이턴시가 줄고, 후처리 부담도 줍니다. 다만 이 수치들은 Mistral이 직접 발표한 자체 측정값이라는 점은 감안해야 합니다. 제3자 독립 벤치마크가 충분히 쌓이지 않은 시점입니다.

💡 공식 발표문과 실제 서빙 환경을 같이 놓고 보니 이런 차이가 보였습니다 — 벤치마크 점수보다 출력 토큰 수가 실제 운영 비용에 더 직접적으로 연결됩니다. 같은 점수라도 토큰 3~4배 차이는 API 비용으로 그대로 이어집니다.

▲ 목차로 돌아가기

API 가격과 직접 배포 비용, 이게 생각보다 큰 차이입니다

Mistral API 기준 공식 가격은 입력 토큰 1M당 $0.15, 출력 토큰 1M당 $0.60입니다. (출처: artificialanalysis.ai, 2026.03 측정 기준) 블렌드 가격(입출력 3:1 비율 기준)은 1M 토큰당 $0.26입니다. 이 수치를 Claude Haiku 3.5 기준($0.80 입력, $4.00 출력)과 비교하면, 입력 단가는 약 5배, 출력 단가는 약 6.7배 저렴합니다.

그런데 로컬 자체 배포를 생각한다면 계산이 완전히 달라집니다. Mistral 공식 문서에 나온 최소 배포 요구 사항은 NVIDIA HGX H100 4대, 또는 HGX H200 2대, 또는 DGX B200 1대입니다. (출처: mistral.ai/news/mistral-small-4) H100 1대 렌탈 비용이 시간당 약 $2~3임을 감안하면, 4대 최소 구성으로 월 약 $5,760~$8,640이 기본 인프라 비용으로 잡힙니다. API 호출이 그 이상 나오는 규모가 아니라면 자체 배포는 오히려 비쌉니다.

오픈소스이고 Apache 2.0이라 라이선스 비용은 0원이지만, 실제 운영 비용은 클라우드 API와 비교해서 계산해봐야 합니다. “무료 오픈소스”라는 타이틀이 실제 배포 비용과는 별개 이야기라는 걸 공식 스펙이 그대로 보여줍니다.

▲ 목차로 돌아가기

이미지 처리가 멀티모달 모델답지 않은 이유

Mistral Small 4는 출시 직후 가장 뜨거운 비판을 이미지 처리 성능에서 받았습니다. r/LocalLLaMA에 올라온 실측 포스팅(2026.03.17)에 따르면, 공식 Mistral API 환경에서 음악 페스티벌 사진에 “스타디움”, “보안 요원”, “차량”을 묘사하는 완전히 틀린 설명을 생성했습니다. 실제 이미지에는 스타디움도, 차량도, 보안 요원도 없었습니다.

비교로 제시된 Qwen3.5 35B A3B(총 파라미터 기준 약 1/4 크기)는 동일 이미지에서 무대 연주자, 해변 위치, 일몰 분위기, 조명 트러스까지 정확히 묘사했습니다. 더 작은 모델이 더 큰 모델의 비전 기능을 압도한 셈입니다. 특히 이 테스트는 양자화 GGUF 파일이나 llama.cpp 문제가 아닌 공식 API를 사용한 결과라 변수를 제거한 상태입니다.

⚠️ Mistral Small 4의 이미지 처리 한계는 공식 API 환경에서도 동일하게 확인됩니다. 비전 워크플로우에 쓰려면 출시 후 업데이트를 확인한 뒤 직접 테스트를 먼저 수행하세요.

Mistral 측은 이 이슈에 대한 공식 입장을 아직 내놓지 않았습니다. vLLM 통합 관련 수정 PR이 진행 중(출처: HuggingFace 모델 카드 vLLM 설치 안내, 2026.03.16)인 만큼, 인퍼런스 스택 버그 가능성도 배제할 수 없습니다. 다만 공식 API에서도 동일한 문제가 재현된다는 점은 주목해야 합니다.

▲ 목차로 돌아가기

로컬 배포 전에 반드시 알아야 할 하드웨어 조건

MoE 구조라 활성 파라미터는 6B에 불과하지만, 모든 전문가 가중치를 VRAM에 올려둬야 합니다. 공식 최소 권장 스펙은 H100 4대(80GB × 4 = 320GB VRAM)입니다. RTX 4090 1대(24GB)로는 어림도 없고, A100 80GB 1대로도 부족합니다. 개인 로컬 환경에서는 현실적으로 실행이 불가능합니다.

그나마 접근 가능한 대안은 Unsloth가 제공하는 GGUF 양자화 버전(Q4_K_M 등)입니다. llama.cpp로 CPU+RAM 조합 실행이 가능하긴 한데, 실제 사용자 피드백을 보면 이미지 처리 품질이 더 떨어지고, 텍스트 추론도 체감 속도가 느립니다. NVFP4 체크포인트를 활용한 4비트 부동소수점 양자화 버전도 공식 HuggingFace에서 제공(출처: mistralai/Mistral-Small-4-119B-2603-NVFP4)되지만, 이 역시 전용 NVIDIA 가속기 환경이 전제입니다.

💡 실제 로컬 배포 경험을 들어보면, RTX 3090 단일 GPU에서 10명 동시 사용 환경에서는 Small 3.2 대비 체감 속도가 오히려 느렸다는 피드백이 Reddit 커뮤니티에서 여러 번 나왔습니다. 대규모 H100 클러스터 환경이 아니라면 API가 낫습니다.

결론적으로 Mistral Small 4는 개인 개발자보다 중대형 엔터프라이즈 온프레미스 배포를 염두에 둔 모델입니다. NVIDIA NIM 형태로 컨테이너화된 인퍼런스 지원이 day-0부터 제공된 것도 같은 맥락입니다. (출처: build.nvidia.com NIM 모델 카드)

▲ 목차로 돌아가기

Q&A

Q1. Mistral Small 4는 무료로 쓸 수 있나요?

모델 가중치 자체는 Apache 2.0 라이선스로 무료 다운로드·상업 활용이 가능합니다. 다만 Mistral API나 NVIDIA NIM을 통한 호출은 유료(입력 $0.15/M 토큰, 출력 $0.60/M 토큰)입니다. NVIDIA build.nvidia.com에서 프로토타이핑 목적 무료 테스트는 가능합니다.

Q2. reasoning_effort 파라미터는 ChatGPT의 “생각” 기능과 같은 건가요?

개념은 비슷하지만 구현 방식이 다릅니다. OpenAI는 thinking 토큰을 별도로 과금하는데, Mistral의 reasoning_effort는 같은 모델 내에서 동작 방식만 바꾸는 방식입니다. 과금 구조가 현재 공식적으로 별도 명시되지 않은 부분이라, Mistral 공식 요금 페이지를 직접 확인하는 게 정확합니다.

Q3. 이미지 처리 문제는 버그인가요, 모델 한계인가요?

현재로선 어느 쪽인지 공식 입장이 없습니다. vLLM 관련 수정 PR이 진행 중(2026.03.16 기준)인 만큼 인퍼런스 파싱 버그 가능성이 있지만, 공식 API 환경에서도 동일하게 재현된 점은 단순 구현 문제로만 보기 어렵습니다. Mistral이 이유를 아직 공개하지 않은 부분입니다.

Q4. 파인튜닝은 가능한가요?

네, Apache 2.0이라 상업적 파인튜닝이 가능합니다. Axolotl을 통한 파인튜닝 예제가 공식 GitHub에 올라와 있고, NVIDIA NeMo를 통한 도메인 특화 파인튜닝도 지원합니다. 다만 파인튜닝 자체에도 H100급 인프라가 필요합니다.

Q5. 한국어 지원은 어떤가요?

공식 지원 언어 목록에 한국어(Korean)가 명시돼 있습니다. (출처: HuggingFace 모델 카드 Multilingual 항목) 다만 한국어 벤치마크 성능 수치는 공식 발표 자료에서 별도로 제시되지 않았습니다. 실제 한국어 품질은 직접 테스트해보는 것이 현실적입니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 방향성 자체는 맞습니다. 3개 모델을 1개로 합치고, 요청 단위로 추론 깊이를 조절하고, 처리량을 3배 올렸습니다. 텍스트 추론과 코딩 에이전트 워크플로우 쪽에서는 실제로 쓸 만한 선택지입니다.

다만 두 가지를 솔직히 짚어야 합니다. 하나는 이미지 처리입니다. 공식 API에서도 품질이 기대에 못 미친다는 실측 결과가 나온 상태이고, Mistral이 공식 답변을 내놓지 않은 부분입니다. 비전 기능을 핵심으로 쓸 계획이라면 지금 당장은 기다리는 쪽이 낫습니다.

또 하나는 “Small”이라는 이름입니다. 로컬 배포 최소 스펙이 H100 4대입니다. 개인 개발자나 소규모 팀에겐 API 호출이 훨씬 현실적인 선택입니다. $0.15/M 토큰은 실제로 낮은 편이고, 오픈소스 라이선스이니 비용 대비 유연성은 나쁘지 않습니다. 이미지 처리 업데이트가 안정화되면 다시 평가할 만한 모델입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

① Mistral 공식 발표 — mistral.ai/news/mistral-small-4
② HuggingFace 공식 모델 카드 — huggingface.co/mistralai/Mistral-Small-4-119B-2603
③ Artificial Analysis API 벤치마크 — artificialanalysis.ai (2026.03 기준)
④ r/LocalLLaMA 이미지 처리 실측 — Reddit LocalLLaMA (2026.03.17)
⑤ MarkTechPost 기술 분석 — marktechpost.com (2026.03.16)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 모든 수치는 2026.03.26 기준이며, Mistral-Small-4-119B-2603(2026.03.16 출시) 기준입니다. AI 서비스는 업데이트로 내용이 달라질 수 있으므로 최신 공식 문서를 병행 확인하시기 바랍니다.

Mistral Small 4, 공식 수치 3가지 직접 확인했습니다

“Small”인데 119B — 숫자부터 잡고 가겠습니다

3개 모델을 1개로 통합한 구조, 실제로 뭐가 달라지나

공식 벤치마크 수치를 그대로 뜯어봤습니다

API 가격과 직접 배포 비용, 이게 생각보다 큰 차이입니다

이미지 처리가 멀티모달 모델답지 않은 이유

로컬 배포 전에 반드시 알아야 할 하드웨어 조건

Q&A

마치며

본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 공식 수치 3가지 직접 확인했습니다

“Small”인데 119B — 숫자부터 잡고 가겠습니다

3개 모델을 1개로 통합한 구조, 실제로 뭐가 달라지나

공식 벤치마크 수치를 그대로 뜯어봤습니다

API 가격과 직접 배포 비용, 이게 생각보다 큰 차이입니다

이미지 처리가 멀티모달 모델답지 않은 이유

로컬 배포 전에 반드시 알아야 할 하드웨어 조건

Q&A

마치며

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기