2026.03.31 기준
Mistral Small 4 (2026.03.16 출시)
Apache 2.0

Mistral Small 4, 이 경우에만 빠른 게 맞습니다

2026년 3월 16일, Mistral AI가 Small 4를 출시했습니다. 이름은 “Small”이지만 총 파라미터는 119B입니다. 그런데 실제로 추론할 때 쓰는 활성 파라미터는 6.5B에 불과합니다. 이 구조 하나가 비용 계산을 완전히 바꿉니다. 추론 모드를 어떻게 설정하느냐에 따라 같은 모델이라도 출력 토큰 수가 10배 이상 차이 나기 때문에, 무조건 “빠르다”고 받아들이면 예상 밖 청구서를 받을 수 있습니다.

119B

총 파라미터

6.5B

활성 파라미터/토큰

256K

컨텍스트 윈도우

$0.15

입력 /1M 토큰

119B짜리인데 왜 “Small”인가

솔직히 처음 접했을 때 이름이 헷갈립니다. “Small”이라고 해서 가벼운 7B~24B급 모델을 떠올렸다면, 총 파라미터 기준으로는 완전히 틀렸습니다. 119B입니다. GPT-OSS 120B와 비슷한 규모입니다.

Mistral이 “Small”이라고 부르는 이유는 추론할 때 실제로 작동하는 파라미터 수가 6.5B이기 때문입니다. MoE(Mixture of Experts) 아키텍처로, 128개 전문가 중 토큰마다 4개만 활성화됩니다. 즉, 모델을 저장하고 올리는 데는 큰 GPU가 필요하지만, 추론 속도는 6.5B급 모델처럼 빠르다는 뜻입니다. (출처: Mistral 공식 블로그, 2026.03.16)

💡 공식 발표문에 나온 아키텍처 수치와 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — “Small”은 성능이 아니라 추론 시 활성화되는 파라미터 수를 가리키는 말입니다. 모델 이름이 성능 기대치를 잘못 설정하게 만드는 구조인 셈입니다.

이 구분이 중요한 이유는 딱 하나입니다. 비용 계산할 때 “파라미터 수 = 비용” 공식이 여기서는 맞지 않습니다. 토큰당 실제 연산량은 6.5B 모델과 비슷하니까요.

▲ 목차로 돌아가기

추론 모드 설정이 비용을 결정합니다

Mistral Small 4의 핵심 파라미터는 reasoning_effort입니다. 이 값 하나로 같은 모델이 완전히 다른 비용 구조를 갖습니다.

설정값	동작 방식	출력 길이 (VentureBeat 기준)
`reasoning_effort="none"`	Mistral Small 3.2와 동일 스타일의 빠른 응답	약 2.1K 문자
`reasoning_effort="high"`	단계별 추론 포함, 이전 Magistral 모델과 유사	약 18.7K 문자

(출처: VentureBeat, 2026.03.20 / Mistral 공식 벤치마크)

none과 high 사이 출력 길이 차이가 약 9배입니다. 출력 토큰 가격이 입력보다 비싼 구조($0.60/1M)에서는, 추론 모드를 켜는 순간 같은 작업에 9배 가까운 비용이 발생할 수 있습니다.

💡 요청 단위로 비용 구조를 조정할 수 있다는 건 기존 단일 모드 모델엔 없던 개념입니다. 복잡한 작업에만 high를 쓰고 단순 분류는 none으로 돌리면, 같은 API 엔드포인트에서 비용을 세밀하게 제어할 수 있습니다.

Mistral API 기준 Mistral Small 4의 입력 가격은 $0.15/1M 토큰, 출력은 $0.60/1M 토큰입니다. (출처: MarginDash Mistral 요금 가이드, 2026.03 기준)

▲ 목차로 돌아가기

3개 모델을 1개로 합쳤을 때 실제로 달라지는 것

Mistral Small 4는 이전에 별도로 존재하던 세 가지 모델을 하나로 통합합니다. Magistral(추론), Pixtral(멀티모달), Devstral(에이전틱 코딩)입니다. (출처: Mistral 공식 블로그, 2026.03.16)

이 통합이 실질적으로 의미 있는 이유는 파이프라인 설계 때 드러납니다. 문서에서 이미지를 파싱하고, 그 내용으로 코드를 짜고, 코드를 에이전트가 실행하는 흐름을 이전에는 3개 API 호출로 처리해야 했습니다. 이제 단일 모델로 처리할 수 있습니다. 모델 간 컨텍스트 전달 오버헤드가 사라집니다.

💡 Artificial Analysis의 실측 데이터와 공식 발표를 교차해 보니 이런 차이가 있었습니다 — 통합 모델이 각 특화 모델의 성능 상한을 그대로 가져오는 건 아닙니다. Artificial Analysis 기준 인텔리전스 인덱스 27점으로, 평균(15점) 대비 높지만 상위 추론 모델에는 못 미칩니다.

즉, “전문 모델 3개를 합쳤다”는 표현이 각 특화 모델의 성능을 그대로 유지한다는 뜻은 아닙니다. VentureBeat에 따르면 LiveCodeBench에서 Qwen 3.5 122B와 Claude Haiku에 밀립니다. 범용성을 얻은 대신 각 영역의 첨단 성능은 포기했습니다. (출처: VentureBeat, 2026.03.20)

▲ 목차로 돌아가기

Qwen·Claude Haiku와 수치로 비교해봤습니다

Mistral 공식 발표에서 강조하는 포인트는 “같은 성능을 더 짧은 출력으로”입니다. AA LCR 벤치마크에서 Mistral Small 4가 0.72 점수를 낼 때 출력 길이는 1.6K 문자, Qwen 모델은 동급 성능에 5.8K~6.1K 문자가 필요했습니다. 3.5~4배 차이입니다. (출처: Mistral 공식 블로그, HuggingFace 모델 카드, 2026.03.16) 짧은 출력 = 낮은 레이턴시 + 낮은 비용입니다.

모델	Instruct 출력(문자)	입력 가격/1M	출력 가격/1M
Mistral Small 4	약 2.1K	$0.15	$0.60
Claude Haiku (Instruct)	약 14.2K	비공개	비공개
GPT-OSS 120B	약 23.6K	$2.00	$8.00

(출처: VentureBeat, 2026.03.20 / MarginDash Mistral 가격 가이드)

Instruct 모드에서 Mistral Small 4의 출력이 GPT-OSS 120B 대비 약 11배 짧습니다. 출력 비용만 따지면 같은 작업에 GPT-OSS 대비 훨씬 저렴하게 처리할 수 있습니다.

다만 코딩 벤치마크(LiveCodeBench)에서는 Qwen 3.5 122B와 Claude Haiku에 밀립니다. 코딩 성능이 최우선이라면 Devstral을 따로 쓰는 게 나을 수 있습니다. (출처: VentureBeat, 2026.03.20)

▲ 목차로 돌아가기

쓰면 안 되는 상황이 있습니다

실사용 피드백(Reddit r/MistralAI, 2026.03.18)을 보면 Small 4에 대한 실망 사례가 꽤 나옵니다. 가장 많이 언급되는 패턴은 세 가지입니다.

⚠️ RTX 3090급 단일 GPU 환경 — 119B MoE 모델을 로컬에서 돌리려면 최소 4×H100이 필요합니다. Mistral 공식 권장 스펙 기준입니다. 소규모 개발자 환경에서 GGUF 양자화 버전을 써야 하는데, 이 경우 성능이 눈에 띄게 떨어진다는 실사용 후기가 다수입니다. (출처: Reddit r/LocalLLaMA, 2026.03)

⚠️ 크리에이티브 글쓰기 특화 작업 — Reddit 사용자 다수가 장편 서사, 롤플레이 같은 창작 작업에서 Mistral Small 3 계열 대비 오히려 품질이 떨어진다고 보고했습니다. 특히 긴 씬에서 등장인물 복장·위치 일관성이 무너지는 사례가 언급됩니다. (출처: Reddit r/MistralAI, 2026.03.18)

⚠️ 단순 코딩 최우선 작업 — LiveCodeBench 기준 Qwen 3.5 122B와 Claude Haiku가 앞섭니다. 코딩 파이프라인에서 최고 성능을 원한다면 Devstral 2를 따로 쓰는 게 현실적입니다. (출처: VentureBeat, 2026.03.20)

반대로 쓸 만한 상황은 명확합니다. 문서 파싱 + 이미지 분석 + 경량 추론을 하나의 워크플로우에서 처리해야 하는 엔터프라이즈 환경, 그리고 API 비용 최적화를 위해 요청별로 reasoning 수준을 조절해야 하는 고트래픽 서비스가 핵심 대상입니다.

▲ 목차로 돌아가기

로컬 배포 실제 가능 여부

Apache 2.0 라이선스로 오픈소스 공개된 게 Small 4의 큰 강점 중 하나입니다. Hugging Face에서 NVFP4 양자화 체크포인트도 공식 제공합니다. (출처: HuggingFace 모델 카드, 2026.03.16)

실제 로컬 배포를 위한 최소 스펙과 권장 스펙은 아래와 같습니다.

구분	구성
최소 인프라	4×NVIDIA HGX H100, 2×HGX H200, 또는 1×DGX B200
권장 인프라	4×HGX H100/H200, 또는 2×DGX B200
지원 프레임워크	vLLM(권장), llama.cpp, SGLang, Transformers

(출처: Mistral 공식 블로그, 2026.03.16)

vLLM 기준으로 현재 공식 메인 브랜치에는 tool calling·reasoning 파싱 수정이 아직 머지되지 않아 Mistral이 커스텀 Docker 이미지를 제공하고 있습니다. 공식 문서에 따르면 2026년 3월 16일 기준 1~2주 내 머지 예정이라고 밝혔지만, 정확한 머지 완료 시점은 아직 공개되지 않았습니다. (출처: HuggingFace 모델 카드, 2026.03.16)

일반 개발자 환경(RTX 3090, RTX 4090 단일 또는 2장)에서는 GGUF 4-bit 양자화로만 실행 가능하고, 이때 성능 저하가 발생합니다. 소규모 팀이라면 Mistral API를 쓰는 게 현실적입니다.

▲ 목차로 돌아가기

자주 나오는 질문

▶ Mistral Small 4가 “Small”이라고 불리는 이유가 뭔가요?

총 파라미터는 119B이지만, 추론 시 실제로 활성화되는 파라미터는 토큰당 6.5B입니다. MoE(Mixture of Experts) 구조로 128개 전문가 중 4개만 사용하기 때문입니다. 추론 속도와 연산 비용이 6.5B급 모델에 가깝기 때문에 “Small”로 분류합니다. (출처: Mistral 공식 블로그, 2026.03.16)

▶ reasoning_effort를 항상 “high”로 쓰면 안 되나요?

쓸 수는 있지만 비용이 크게 늘어납니다. VentureBeat 기준으로 none은 출력이 약 2.1K 문자, high는 18.7K 문자입니다. 출력 토큰 단가($0.60/1M)를 고려하면 단순 요약이나 분류 작업에 high를 쓰는 건 비효율입니다. 복잡한 추론·수학 문제에만 high를 켜고 나머지는 none으로 두는 게 비용 최적화에 유리합니다.

▶ 한국어 지원은 어느 수준인가요?

공식 지원 언어 목록에 Korean이 포함됩니다. (출처: HuggingFace 모델 카드) 단, 한국어 특화 성능 벤치마크는 Mistral이 공식 발표하지 않았습니다. 실사용 수준은 영어 대비 어느 정도 차이가 있을 수 있으며, 정확한 수치는 아직 공개되지 않았습니다.

▶ 기존에 Mistral Small 3.2를 쓰고 있다면 Small 4로 바꿔야 하나요?

작업 유형에 따라 다릅니다. 단순 텍스트 분류나 요약처럼 멀티모달·추론이 필요 없다면 Small 3.2($0.08/1M 입력)가 Small 4($0.15/1M)보다 저렴합니다. 이미지 파싱, 단계별 추론, 에이전틱 코딩을 하나의 파이프라인에서 다뤄야 한다면 Small 4가 유리합니다.

▶ Apache 2.0 라이선스면 상업적 사용이 자유로운가요?

네, Apache 2.0 라이선스는 상업적 사용과 수정·재배포를 허용합니다. 다만 “제3자의 지식재산권을 침해하는 방식으로 사용해선 안 된다”는 조항이 모델 카드에 명시돼 있습니다. (출처: HuggingFace Mistral Small 4 모델 카드, 2026.03.16) 파인튜닝 후 상업 서비스에 쓰는 것도 허용됩니다.

▲ 목차로 돌아가기

마치며

Mistral Small 4는 “만능 중간재”라는 포지셔닝이 핵심입니다. 각 분야 최정상은 아니지만, 문서·이미지·추론·코딩을 하나의 API로 처리해야 할 때 파이프라인을 단순하게 만들어줍니다.

기대했던 것과 달랐던 부분도 있습니다. “Small”이라는 이름이 만든 기대치와 119B라는 실제 규모 사이의 간극, 그리고 추론 모드 설정에 따라 비용이 9배 가까이 달라진다는 점은 실제로 쓰기 전에 꼭 파악해야 합니다. 이 구조를 이해하지 못하면 API 비용이 예상치를 한참 넘을 수 있습니다.

결론부터 말하면, 멀티모달 + 경량 추론을 복합적으로 써야 하는 서비스에서 비용 최적화를 고민 중이라면 테스트해볼 가치가 충분합니다. 단순 텍스트 작업이나 코딩 최우선 파이프라인이라면 Small 3.2나 Devstral이 여전히 더 나은 선택입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Mistral AI 공식 블로그 — Introducing Mistral Small 4 (https://mistral.ai/news/mistral-small-4)
HuggingFace 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (https://huggingface.co/mistralai/Mistral-Small-4-119B-2603)
VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding, 2026.03.20 (venturebeat.com)
Artificial Analysis — Mistral Small 4 Intelligence & Performance (artificialanalysis.ai)
MarginDash — Mistral API Pricing 2026 (margindash.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 Mistral Small 4 (2026.03.16 출시 버전) 기준이며, 이후 업데이트에 따라 달라질 수 있습니다. API 가격은 공식 요금 페이지에서 최신 정보를 확인하세요.

Mistral Small 4, 이 경우에만 빠른 게 맞습니다

119B짜리인데 왜 “Small”인가

추론 모드 설정이 비용을 결정합니다

3개 모델을 1개로 합쳤을 때 실제로 달라지는 것

Qwen·Claude Haiku와 수치로 비교해봤습니다

쓰면 안 되는 상황이 있습니다

로컬 배포 실제 가능 여부

자주 나오는 질문

마치며

📚 본 포스팅 참고 자료

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mistral Small 4, 이 경우에만 빠른 게 맞습니다

Mistral Small 4, 이 경우에만 빠른 게 맞습니다

119B짜리인데 왜 “Small”인가

추론 모드 설정이 비용을 결정합니다

3개 모델을 1개로 합쳤을 때 실제로 달라지는 것

Qwen·Claude Haiku와 수치로 비교해봤습니다

쓰면 안 되는 상황이 있습니다

로컬 배포 실제 가능 여부

자주 나오는 질문

마치며

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기