Mistral Small 4, 1개짜리인데 이 조건에서 막힙니다

Published on

in

Mistral Small 4, 1개짜리인데 이 조건에서 막힙니다

2026.03.16 출시 / v26.03 기준
Apache 2.0 오픈소스

Mistral Small 4, 1개짜리인데 이 조건에서 막힙니다

2026년 3월 16일, Mistral이 조용히 발표를 하나 던졌습니다. 그동안 따로 써야 했던 추론 모델(Magistral)·멀티모달 모델(Pixtral)·코딩 에이전트(Devstral)를 단 1개의 모델로 묶었다고요. 이름은 Mistral Small 4. 라이선스는 Apache 2.0, 무료입니다. 좋아 보이죠? 그런데 공식 발표문과 실제 사용 후기를 같이 놓고 보니 이런 차이가 보였습니다.

119B
총 파라미터
6.5B
토큰당 실제 활성
256k
컨텍스트 윈도우
$0.15
입력 /1M 토큰

119B인데 왜 빠른가 — 숫자의 의미부터

“119B 파라미터”라고 하면 보통 무겁고 느리다고 생각합니다. 그런데 Mistral Small 4의 실제 구조를 보면 다릅니다. 이 모델은 MoE(Mixture of Experts) 아키텍처로 설계됐습니다. 128개의 전문가(Expert) 중 토큰 하나를 처리할 때 4개만 선택해서 활성화하는 방식입니다.

💡 공식 문서와 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 119B 전체가 돌아가는 게 아니라, 실제 추론에 쓰이는 파라미터는 6.5B(임베딩·출력 레이어 포함 8B)에 불과합니다. Hugging Face 공식 모델 카드에 직접 적혀 있는 수치입니다.

(출처: mistralai/Mistral-Small-4-119B-2603, Hugging Face, 2026.03.16)

이 때문에 Mistral이 주장하는 수치가 나옵니다. 지연 시간 최적화 환경에서 Mistral Small 3 대비 완료 시간 40% 단축, 처리량 최적화 환경에서는 초당 요청 3배 증가. 119B짜리 모델이 이 속도를 낼 수 있는 건 실제 활성 파라미터가 6.5B 수준이기 때문입니다. 비용을 체감하는 단위도 달라집니다.

MoE 구조는 GPT-4나 DeepSeek도 채택하고 있지만, Mistral Small 4는 128개 전문가 중 4개만 쓴다는 점에서 특히 희소 활성화 비율이 높습니다. 모든 전문가를 조금씩 쓰는 게 아니라, 입력마다 다른 4개를 골라 집중적으로 씁니다.

▲ 목차로 돌아가기

3개 모델을 1개로 — reasoning_effort가 핵심입니다

Mistral Small 4의 핵심 설계는 “하나의 모델, 두 가지 모드”입니다. 이전에는 추론이 필요하면 Magistral, 이미지가 있으면 Pixtral, 코드 작업이면 Devstral을 각각 불러야 했습니다. 이번에 이 세 가지를 통합하면서, 상황에 맞게 동작을 전환하는 파라미터를 하나 만들었습니다.

바로 reasoning_effort 파라미터입니다. API 호출 시 이 값을 어떻게 설정하느냐에 따라 모델이 완전히 다르게 반응합니다.

파라미터 값 동작 방식 비슷한 이전 모델
"none" 즉각 응답, 경량 처리 Mistral Small 3.2와 동일
"high" 단계별 심층 추론, 토큰 소비 대폭 증가 Magistral 모델과 동일 수준

💡 같은 API 엔드포인트, 같은 모델 ID인데 파라미터 하나로 ‘일반 챗봇 모드’와 ‘고급 추론 모드’가 완전히 전환됩니다. 모델을 2개 유지할 필요가 없어지는 거라 인프라 관리 비용이 줄어드는 구조입니다.

(출처: Mistral 공식 발표문, mistral.ai/news/mistral-small-4, 2026.03.16)

온도(temperature) 설정도 모드에 따라 달라집니다. reasoning_effort="none" 일 때는 0.0~0.7 사이를 권장하고, reasoning_effort="high"일 때는 0.7로 고정하는 걸 권장합니다. 추론 모드에서 온도를 낮추면 오히려 출력 다양성이 떨어질 수 있기 때문입니다.

▲ 목차로 돌아가기

공식 벤치마크 수치, 그대로 믿으면 곤란한 이유

Mistral이 공개한 벤치마크 중 가장 강조하는 수치가 있습니다. LiveCodeBench(코딩 벤치마크)에서 OpenAI의 GPT-OSS 120B를 출력 20% 더 짧게 생성하면서 동등하거나 더 높은 점수를 달성했다는 것입니다. 숫자만 보면 인상적입니다.

💡 Mistral이 자체 발표한 AA LCR 점수: 0.72 (출력 평균 1.6K 글자) vs. Qwen 모델: 0.69~0.70 (출력 5.8~6.1K 글자). 점수는 비슷한데 출력이 3.5~4배 짧습니다. 토큰 비용 계산에서 의미가 있는 수치입니다.

(출처: Mistral Small 4 공식 발표문, 2026.03.16)

그런데 VentureBeat의 분석에서 다른 면이 나왔습니다. 같은 LiveCodeBench에서 Qwen 3.5 122B와 Qwen 3-next 80B는 Mistral Small 4를 앞서고, Claude Haiku 역시 instruct 모드에서 Small 4보다 높은 점수를 기록했습니다. Mistral이 GPT-OSS 120B와의 비교를 전면에 내세운 건, 이 비교에서 가장 유리한 결과가 나왔기 때문입니다.
(출처: VentureBeat, 2026.03.17)

특히 MMLU Pro(지식 기반 평가)에서는 Mistral Medium 3.1, Mistral Large 3에 “근접한” 수준이라고만 표현했습니다. 동등하다고 하지 않았습니다. 작은 모델이 더 큰 자사 플래그십과 같은 점수를 냈다고 쓰면 좋겠지만, 현실적으로 그렇지 않다는 걸 완곡하게 표현한 것입니다.

▲ 목차로 돌아가기

비전 기능, 공식 문서엔 있는데 실제로 써보면 다릅니다

Mistral Small 4의 공식 소개에는 “텍스트와 이미지 입력을 모두 지원하는 네이티브 멀티모달리티”라고 적혀 있습니다. 문서 파싱, 시각 분석, 이미지 이해가 가능하다고요. 그런데 출시 직후부터 LocalLLaMA 커뮤니티에서 상당히 다른 이야기가 나왔습니다.

⚠️ Reddit/LocalLLaMA 사용자 실측 결과 (공식 Mistral API 기준, 2026.03.17): 음악 페스티벌 사진을 입력했을 때 “경기장 트랙 구역의 보안요원”, “주차된 차량들” 등 실제 이미지에 없는 요소를 묘사했습니다. 이미지에 있는 뮤지션, 무대, 해변은 언급하지 못했습니다. 같은 이미지를 Qwen 3.5 35B(파라미터 약 1/4 수준)에 넣었더니 해변 위치, 카우보이 모자를 쓴 연주자, 해질녘 하늘까지 상세히 묘사했습니다.

(출처: r/LocalLLaMA, EffectiveCeilingFan, 2026.03.17 — 공식 API 사용 확인)

공식 API에서도 동일한 결과가 나왔다는 점이 중요합니다. 양자화(GGUF)나 llama.cpp 파싱 문제가 아닌 것입니다. 한 개발자는 “이전 Mistral Small 3.2 24B, Ministral 3B/8B/14B를 같이 테스트했는데 이미지 인식 문제가 있었던 건 Small 4뿐”이라고 확인했습니다. MoE 아키텍처 전환 과정에서 비전 인코더 부분에 무언가 문제가 생겼을 가능성이 있지만, Mistral AI가 별도 이유를 밝히지 않았습니다.

이 모델을 이미지 이해가 핵심인 업무에 바로 투입하는 건 아직 시기상조입니다. 텍스트 기반 추론, 코딩, 에이전트 작업에서는 평가가 다르게 나오고 있습니다.

▲ 목차로 돌아가기

가격 구조 직접 계산 — GPT-4o mini·Claude Haiku와 비교

Mistral 공식 문서에 적힌 API 가격은 입력 $0.15/1M 토큰, 출력 $0.60/1M 토큰입니다. 이 숫자만 보면 GPT-4o mini와 동일합니다. 같은 가격이라면 119B 규모의 모델을 쓰는 게 유리해 보이죠.
(출처: docs.mistral.ai/models/mistral-small-4, 2026.03.16)

모델 입력 /1M 출력 /1M 특이사항
Mistral Small 4 $0.15 $0.60 119B MoE, 오픈소스
GPT-4o mini $0.15 $0.60 클로즈드 소스
Claude Haiku 4.5 $1.00 $5.00 클로즈드 소스

💡 월 100만 토큰(입력 50만 + 출력 50만) 기준으로 계산하면: Mistral Small 4는 약 $0.375, Claude Haiku 4.5는 $3.00. 8배 차이가 납니다. 대규모 API 통합을 고려하고 있고, 텍스트 처리가 주된 용도라면 비용 계산에서 Mistral Small 4가 확실히 유리합니다.

다만 추론 모드(reasoning_effort="high")를 켜면 출력 토큰이 크게 늘어납니다. Mistral 자체 데이터에서 instruct 모드의 평균 출력이 2.1K 글자인 데 반해, reasoning 모드에서는 18.7K까지 올라갑니다. 추론 모드를 자주 쓴다면 실제 청구 금액은 예상보다 많이 나올 수 있습니다.

▲ 목차로 돌아가기

로컬 배포 조건 — 이 사양 아래면 권장하지 않습니다

Apache 2.0 라이선스라는 말은 로컬에서 돌리거나, 파인튜닝하거나, 상업적으로 활용해도 된다는 뜻입니다. 그런데 119B MoE 모델을 로컬에서 제대로 돌리려면 GPU 스펙이 문제가 됩니다.

공식 권장 배포 사양 (Mistral AI 발표, 2026.03.16):

• 최소: NVIDIA HGX H100 × 4대 또는 NVIDIA HGX H200 × 2대 또는 NVIDIA DGX B200 × 1대

• 권장: NVIDIA HGX H100 × 4대 또는 H200 × 4대, DGX B200 × 2대

(출처: mistral.ai/news/mistral-small-4)

개인 GPU 1대로는 사실상 돌리기 어렵습니다. vLLM, llama.cpp, SGLang, LM Studio, Transformers 등 다양한 추론 프레임워크를 지원하지만, 공식 Hugging Face 페이지에는 “현재 vLLM의 tool calling·reasoning 파싱 수정 사항이 vLLM 메인 브랜치에 머지 대기 중”이라는 안내가 적혀 있습니다. 출시일(2026.03.16) 기준으로 1~2주 내 머지 예상이라고 했으니, 현재(3월 말 기준)는 커스텀 Docker 이미지나 브랜치를 따로 받아야 할 수 있습니다.
(출처: Hugging Face 모델 카드, 2026.03.16)

로컬 배포가 목적이라면, 지금 당장은 API를 통해 먼저 테스트하고 인프라 준비가 완료된 뒤 전환하는 순서가 안정적입니다. Transformers를 쓴다면 FP8 가중치를 BF16으로 직접 변환해야 하는 별도 처리 과정도 필요합니다.

▲ 목차로 돌아가기

자주 나오는 질문 5가지

Q1. Mistral Small 4는 무료로 쓸 수 있나요?
모델 자체는 Apache 2.0 라이선스로 무료 공개됩니다. Hugging Face에서 내려받아 자체 서버에 올리거나, NVIDIA build.nvidia.com에서 프로토타이핑용으로 무료 사용 가능합니다. Mistral API를 통한 사용은 입력 $0.15/1M 토큰, 출력 $0.60/1M 토큰으로 유료입니다.

(출처: docs.mistral.ai/models/mistral-small-4, 2026.03.16)
Q2. reasoning_effort 파라미터는 어떻게 설정하나요?
API 호출 시 reasoning_effort="none" 또는 reasoning_effort="high"를 추가합니다. “none”은 빠른 응답, “high”는 단계적 추론 모드입니다. OpenAI API 형식과 호환되므로 엔드포인트 URL만 바꾸면 됩니다.
Q3. 이미지 입력이 공식적으로 지원되는데 왜 쓰면 안 된다고 하나요?
공식 API에서도 이미지 묘사가 실제와 크게 다른 결과가 나온 사례가 여러 건 보고됐습니다. Mistral AI가 별도 이유를 밝히지 않은 상태이고, 아직 신규 출시 이후 시간이 많지 않아 개선 여부가 확인되지 않았습니다. 이미지 처리가 꼭 필요하다면 현재는 Pixtral 혹은 다른 모델을 병행 사용하는 게 안전합니다.
Q4. 파인튜닝은 어떻게 하나요?
공식 지원 파인튜닝 프레임워크는 Axolotl입니다. Hugging Face 모델 카드에 예시 코드가 포함돼 있습니다. NVIDIA NeMo를 통한 도메인 특화 파인튜닝도 지원합니다. Transformers 기반 추론 시에는 FP8 가중치를 BF16으로 변환하는 사전 처리가 필요합니다.

(출처: Hugging Face 모델 카드, 2026.03.16)
Q5. 한국어 지원은 어떤가요?
공식 지원 언어 목록에 Korean(한국어)이 포함돼 있습니다. 영어, 프랑스어, 스페인어, 독일어, 이탈리아어, 포르투갈어, 네덜란드어, 중국어, 일본어, 아랍어와 함께 명시됩니다. 다만 한국어 성능의 상세 벤치마크 데이터는 아직 공개되지 않았습니다.

(출처: mistralai/Mistral-Small-4-119B-2603, Hugging Face)

▲ 목차로 돌아가기

마치며 — 쓸 만한 곳, 아직 기다려야 할 곳

Mistral Small 4가 실제로 잘 하는 영역은 분명합니다. 텍스트 기반 추론, 코드 에이전트, 함수 호출(function calling), 구조화 출력, 긴 문서 처리. 여기에 Apache 2.0 라이선스와 $0.15/1M이라는 가격까지 더해지면, 대규모 API 호출을 하는 개발자나 기업 입장에서 검토할 이유는 충분합니다.

반면 지금 당장 투입하기 어려운 영역도 뚜렷합니다. 이미지 이해가 핵심인 작업, 로컬 GPU 1~2대 환경, 그리고 공식 vLLM 브랜치 머지가 완료되지 않은 상태의 로컬 배포.

출시된 지 아직 열흘이 채 되지 않은 모델이라 개선 여지가 있습니다. 특히 비전 기능 관련 피드백이 많이 나오고 있어 Mistral 측 대응이 어떻게 나올지가 다음 관전 포인트입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Mistral AI 공식 발표문 — Introducing Mistral Small 4 (mistral.ai/news/mistral-small-4, 2026.03.16)
  2. Mistral Small 4 공식 모델 카드 (huggingface.co/mistralai/Mistral-Small-4-119B-2603, 2026.03.16)
  3. Mistral 공식 문서 — 모델 스펙 및 가격 (docs.mistral.ai/models/mistral-small-4, 2026.03.16)
  4. VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding into one model (venturebeat.com, 2026.03.17)
  5. Reddit/LocalLLaMA — Mistral Small 4 is kind of awful with images (reddit.com/r/LocalLLaMA, 2026.03.17)

본 포스팅은 2026년 3월 26일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. AI 모델은 업데이트로 성능·가격·지원 기능이 수시로 변경됩니다. 최신 정보는 Mistral AI 공식 사이트에서 직접 확인해 주세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기