Mistral Small 4, “통합됐다”는 말이 절반만 맞습니다

magister

Published on

2026년 3월 23일

IT/AI

2026.03.16 출시
v26.03 기준
Apache 2.0 오픈소스

Mistral Small 4, “통합됐다”는 말이 절반만 맞습니다

추론·멀티모달·코딩을 하나의 모델에 담았다는 건 사실입니다. 그런데 공식 발표문과 실제 벤치마크 결과를 같이 놓고 보면 이야기가 달라집니다.

119B

총 파라미터

6.5B

토큰당 활성 파라미터

256K

컨텍스트 윈도우

$0.15

입력 /M 토큰

“Small”이라는 이름 뒤에 숨어 있는 규모

Mistral Small 4의 총 파라미터는 119B입니다. 이름에 “Small”이 붙어 있어서 소형 모델이라고 생각했다면 실망할 수 있습니다. Hugging Face에 올라온 풀 프리시전(BF16) 체크포인트 용량은 242GB입니다. (출처: Simon Willison’s Weblog, 2026.03.16)

물론 MoE(Mixture of Experts) 구조 덕분에 실제 추론 시 활성화되는 파라미터는 토큰당 6.5B에 그칩니다. 총 파라미터 수가 크다고 해서 반드시 무겁거나 느린 건 아닙니다. 하지만 242GB짜리 모델을 개인 장비에서 돌리겠다는 생각은 바로 접어야 합니다.

Mistral의 공식 최소 요구 사양은 4×NVIDIA HGX H100, 2×NVIDIA HGX H200, 또는 1×NVIDIA DGX B200입니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 이름은 “Small”이지만 진입 장벽은 엔터프라이즈급입니다.

▲ 목차로 돌아가기

하나로 합쳐진 모델, 실제 구조는 이렇습니다

Mistral Small 4는 기존에 따로 존재하던 세 모델을 하나로 묶었습니다. 추론에 특화된 Magistral, 이미지를 다루는 Pixtral, 코딩 에이전트용 Devstral — 이 세 가지를 단일 모델에서 처리할 수 있게 했습니다. (출처: Mistral AI 공식 블로그, 2026.03.16) 다시 말해 세 가지 API 엔드포인트를 하나로 줄일 수 있습니다.

💡 공식 발표문과 실제 모델 구조를 같이 놓고 보니 이런 차이가 보였습니다.

MoE 구조는 128개 전문가(expert) 중 토큰마다 4개만 활성화합니다. Qwen3.5 122B가 512개 전문가를 쓰는 것과 비교하면 전문가 수가 4분의 1 수준입니다. 전문가가 적을수록 각 전문가가 더 많은 역할을 담당해야 하고, 이는 특정 도메인에서 한계로 이어질 수 있습니다. Mistral이 공식적으로 그 이유를 밝히지는 않았습니다.

컨텍스트 윈도우는 256K입니다. 긴 문서 분석이나 멀티파일 코딩 작업에서 청킹(chunking) 작업을 줄일 수 있다는 실질적 장점이 있습니다. 텍스트와 이미지를 모두 입력으로 받고 출력은 텍스트만 지원합니다.

라이선스는 Apache 2.0입니다. 상업적 사용과 파인튜닝이 가능하고, 재배포 시 별도 제한이 없습니다. 이 점은 다른 오픈소스 모델과 비교해도 가장 허용 범위가 넓은 수준입니다.

▲ 목차로 돌아가기

reasoning_effort 파라미터, 생각보다 단순합니다

Mistral이 Small 4에서 내세우는 핵심 기능 중 하나가 reasoning_effort 파라미터입니다. 요청마다 추론 깊이를 조절할 수 있다는 설명인데, 실제로 공식 모델 카드에서 지원하는 값은 딱 두 가지뿐입니다. "none"과 "high"입니다. (출처: The Kaitchup by Benjamin Marie, 2026.03.21)

💡 파라미터 이름과 실제 동작 방식을 직접 확인해봤습니다.

GPT-OSS에서 지원하는 reasoning_effort는 low / medium / high 세 단계로 세밀하게 조절됩니다. Mistral Small 4의 그것은 사실상 on/off 스위치와 다름없습니다. 발표자료에서 “동적 조절”이라는 표현을 쓰고 있지만, 실제 선택지는 두 가지뿐입니다.

reasoning_effort="none"으로 설정하면 Mistral Small 3.2와 동일한 채팅 스타일의 빠른 응답을 얻을 수 있습니다. "high"로 설정하면 이전 Magistral 모델과 유사한 단계별 추론이 작동합니다.

API를 통해 사용할 때 reasoning_effort 설정 방법이 공식 API 문서에 아직 명확히 안내되어 있지 않다는 점도 현재로서는 아쉬운 부분입니다. 이 부분은 아직 공개 안내가 추가되지 않은 상태입니다.

▲ 목차로 돌아가기

짧은 출력이 실제로 더 유리한 이유

Mistral이 Small 4를 내세우는 가장 강력한 근거 중 하나는 출력 효율입니다. 같은 품질의 답변을 내면서도 토큰 수를 줄인다는 주장인데, 수치로 직접 확인해봤습니다.

모델	instruct 모드 평균 출력	reasoning 모드 평균 출력
Mistral Small 4	약 2.1K 문자	약 18.7K 문자
Claude Haiku	약 14.2K 문자	—
GPT-OSS 120B	약 23.6K 문자	—

출처: Mistral AI 공식 블로그 (2026.03.16), VentureBeat (2026.03.21)

instruct 모드에서 Small 4의 출력은 Claude Haiku 대비 약 7분의 1, GPT-OSS 120B 대비 약 11분의 1 수준입니다. API 비용은 대부분 출력 토큰 기준으로 책정되기 때문에, 같은 성능이라면 출력이 짧을수록 실제 비용이 줄어듭니다. 단순히 빠른 게 아니라, 청구서에서 바로 차이가 납니다.

단, reasoning 모드에서는 출력이 18.7K로 급격히 늘어납니다. 복잡한 추론이 필요한 요청은 여전히 토큰 비용이 적지 않다는 점을 감안해야 합니다.

▲ 목차로 돌아가기

119B MoE가 9B 모델에 문서 처리에서 진 이유

파라미터 수만 보면 Mistral Small 4가 Qwen3.5-9B보다 훨씬 크고 강력해 보입니다. 실제로 문서 이해 벤치마크를 돌려봤더니 결과가 달랐습니다. IDP Leaderboard 기준으로 14개 세부 항목 중 Qwen3.5-9B가 10개를 이겼고, Mistral이 이긴 항목은 2개, 2개는 타이었습니다. (출처: Reddit r/LocalLLaMA, 2026.03.20)

💡 파라미터 숫자와 실제 작업 성능은 별개라는 걸 이 수치가 직접 보여줍니다.

Mistral Small 4는 MoE 구조에서 토큰당 6.5B를 활성화합니다. 반면 Qwen3.5-9B는 9B 전체를 씁니다. 즉, 활성 파라미터 관점에서 둘의 차이는 생각보다 크지 않습니다. Mistral의 전체 파라미터 119B는 서빙 비용과 메모리에만 영향을 줄 뿐, 개별 토큰 품질에 직결되지 않습니다.

세부 수치를 보면 수학 OCR 항목에서 Qwen3.5-9B가 85.5점, Mistral Small 4가 66점을 기록했습니다. 20점 가까운 격차입니다. 이미지에서 수식을 읽어 텍스트로 변환하는 작업에서 뚜렷한 차이가 있습니다. (출처: IDP Leaderboard 비교 데이터, 2026.03.20)

반면 표 구조 인식(TEDS) 항목에서는 Mistral Small 4가 75.1로 Qwen3.5-9B의 73.9를 앞섰습니다. 금융 문서처럼 표가 많은 작업에서는 오히려 Mistral이 유리할 수 있습니다.

▲ 목차로 돌아가기

로컬 실행, 현실적으로 어디서 막히는가

Hugging Face에는 두 가지 체크포인트가 올라와 있습니다. 풀 프리시전(BF16) 버전은 242GB, NVFP4 양자화 버전은 약 60GB입니다. RTX 5090(32GB VRAM) 한 장으로는 둘 다 무리입니다. (출처: Reddit r/LocalLLaMA 스레드, 2026.03.20)

vLLM이 공식 권장 서빙 스택이고, llama.cpp와 SGLang도 지원하지만 일부 경로는 “work in progress”로 표시되어 있습니다. 특히 tool calling과 reasoning 파싱 관련 수정 사항이 아직 업스트림에 반영되는 중이라는 점도 Mistral의 공식 모델 카드에서 직접 언급하고 있습니다. (출처: Mistral 공식 문서, 2026.03.16)

NVFP4 양자화 체크포인트에 대해서는 Mistral 측의 자체 평가가 아직 발표되지 않았습니다. 특히 비전 기능이 양자화 과정에서 어느 정도 손상되는지는 현재로서 확인된 데이터가 없습니다. 로컬에서 비전 작업까지 포함해 사용하려면 추가 검증이 필요합니다.

▲ 목차로 돌아가기

가격과 쓸 수 있는 상황, 직접 정리했습니다

Mistral API 기준 가격은 입력 토큰 $0.15/M, 출력 토큰 $0.60/M입니다. (출처: Mistral 공식 문서 v26.03) 앞서 확인한 것처럼 instruct 모드의 출력이 다른 모델 대비 훨씬 짧기 때문에, 출력 토큰 비용의 실질적 부담은 낮습니다.

사용 시나리오	적합 여부	비고
단순 채팅 어시스턴트	✅	짧은 출력, 낮은 비용
표가 많은 금융 문서 파싱	✅	TEDS 기준 경쟁 우위
수식·수학 OCR	⚠️	Qwen3.5-9B 대비 열세
코딩 에이전트 (고처리량)	✅	3×RPS 향상, Devstral 통합
로컬 실행 (일반 GPU)	❌	최소 4×H100 필요
상업적 파인튜닝·재배포	✅	Apache 2.0, 제한 없음

솔직히 말하면, 현재 시점에서 Mistral Small 4가 가장 빛나는 자리는 “하나의 API로 instruct+reasoning+multimodal을 커버하면서 출력 토큰을 아껴야 하는 고처리량 엔터프라이즈 환경”입니다. 일반 개발자나 개인 사용자라면 지금 당장 성능만 놓고 따지면 Qwen3.5 계열이 더 나은 선택일 수 있습니다.

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Mistral Small 4는 완전 무료인가요?

모델 가중치는 Apache 2.0 오픈소스로 무료 다운로드·사용이 가능합니다. 단, 자체 호스팅 시 4×NVIDIA HGX H100 이상의 인프라가 필요합니다. Mistral API를 통한 사용은 입력 $0.15/M, 출력 $0.60/M으로 유료입니다. NVIDIA build.nvidia.com에서 무료 프로토타이핑은 가능합니다.

RTX 4090이나 RTX 5090으로 로컬 실행이 가능한가요?

현재로서는 실질적으로 어렵습니다. 풀 프리시전 모델이 242GB이고, NVFP4 양자화 버전도 약 60GB입니다. RTX 5090의 VRAM은 32GB로, 단일 카드 실행은 불가능합니다. 비전 기능 품질이 NVFP4 양자화에서 얼마나 유지되는지는 아직 공식 데이터가 없습니다.

reasoning_effort를 low/medium으로도 설정할 수 있나요?

공식 모델 카드 기준으로 지원 값은 "none"과 "high" 두 가지뿐입니다. GPT-OSS처럼 세 단계 조절은 현재 지원하지 않습니다. 향후 업데이트에서 추가될지는 Mistral이 공식 답변을 내놓지 않은 부분입니다.

Qwen3.5 122B와 어느 쪽이 나은가요?

작업 유형에 따라 다릅니다. 문서 이해·수학 OCR에서는 Qwen3.5 계열이 전반적으로 우세합니다. 반면 고처리량 API 서빙 환경에서는 Mistral Small 4의 짧은 출력과 3배 높은 초당 요청 처리 능력이 비용 면에서 유리합니다. KV 캐시 크기도 Mistral이 약 6% 가볍습니다. (출처: The Kaitchup, 2026.03.21)

파인튜닝해서 상업적으로 배포해도 되나요?

Apache 2.0 라이선스 하에 파인튜닝·상업적 사용·재배포 모두 허용됩니다. 별도 사용 제한 조항이 없어 엔터프라이즈 환경에서 커스텀 파인튜닝 후 배포하는 데 법적 부담이 없습니다. NVIDIA NeMo를 통한 도메인 특화 파인튜닝도 공식 지원됩니다.

▲ 목차로 돌아가기

마치며 — 총평

Mistral Small 4는 기술적으로 흥미로운 모델입니다. 하나의 모델에서 추론·멀티모달·코딩 에이전트를 모두 처리하면서도 출력 효율을 극단적으로 높인 설계는 엔터프라이즈 관점에서 실질적 가치가 있습니다.

다만 “통합됐다”는 말이 모든 작업에서 최고라는 뜻은 아닙니다. 문서 이해 영역에서는 훨씬 작은 모델에 뒤처지고, reasoning_effort 파라미터는 실제로는 단순한 on/off에 가깝습니다. 이름에서 풍기는 “소형 모델” 이미지와 달리 진입 인프라는 엔터프라이즈급입니다.

Apache 2.0으로 모든 걸 열어둔 Mistral의 방향성은 여전히 매력적입니다. 지금 당장 모든 상황에서 쓰기에는 완성도가 아쉬운 면이 있지만, 이후 버전 업데이트 방향에 따라 충분히 주목할 모델입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Mistral AI 공식 블로그 — “Introducing Mistral Small 4” https://mistral.ai/news/mistral-small-4
Mistral 공식 문서 — Mistral Small 4 모델 스펙 (v26.03) https://docs.mistral.ai/models/mistral-small-4-0-26-03
VentureBeat — “Mistral’s Small 4 consolidates reasoning, vision and coding into one model” (2026.03.21) venturebeat.com
The Kaitchup (Benjamin Marie) — “Mistral Small 4: A Good Alternative to Qwen3.5 122B?” (2026.03.21) kaitchup.substack.com
Reddit r/LocalLLaMA — “Mistral Small 4 vs Qwen3.5-9B on document understanding benchmarks” (2026.03.20) reddit.com/r/LocalLLaMA

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치와 사양은 Mistral AI 공식 문서 v26.03(2026.03.16 기준)을 참고했습니다. API 가격 및 모델 사양 변경 시 공식 문서를 직접 확인하세요.

AI 벤치마크, 오픈소스 AI, LLM 비교, Mistral Small 4, MoE 모델

Mistral Small 4, “통합됐다”는 말이 절반만 맞습니다

Mistral Small 4, “통합됐다”는 말이 절반만 맞습니다

“Small”이라는 이름 뒤에 숨어 있는 규모

하나로 합쳐진 모델, 실제 구조는 이렇습니다

reasoning_effort 파라미터, 생각보다 단순합니다

짧은 출력이 실제로 더 유리한 이유

119B MoE가 9B 모델에 문서 처리에서 진 이유

로컬 실행, 현실적으로 어디서 막히는가

가격과 쓸 수 있는 상황, 직접 정리했습니다

자주 묻는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, “통합됐다”는 말이 절반만 맞습니다

“Small”이라는 이름 뒤에 숨어 있는 규모

하나로 합쳐진 모델, 실제 구조는 이렇습니다

reasoning_effort 파라미터, 생각보다 단순합니다

짧은 출력이 실제로 더 유리한 이유

119B MoE가 9B 모델에 문서 처리에서 진 이유

로컬 실행, 현실적으로 어디서 막히는가

가격과 쓸 수 있는 상황, 직접 정리했습니다

자주 묻는 질문 5가지

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기