Mistral Small 4, 이 경우에만 빠른 게 맞습니다

Published on

in

Mistral Small 4, 이 경우에만 빠른 게 맞습니다

2026.03.31 기준
Mistral Small 4 (2026.03.16 출시)
Apache 2.0

Mistral Small 4, 이 경우에만 빠른 게 맞습니다

2026년 3월 16일, Mistral AI가 Small 4를 출시했습니다. 이름은 “Small”이지만 총 파라미터는 119B입니다. 그런데 실제로 추론할 때 쓰는 활성 파라미터는 6.5B에 불과합니다. 이 구조 하나가 비용 계산을 완전히 바꿉니다. 추론 모드를 어떻게 설정하느냐에 따라 같은 모델이라도 출력 토큰 수가 10배 이상 차이 나기 때문에, 무조건 “빠르다”고 받아들이면 예상 밖 청구서를 받을 수 있습니다.

119B
총 파라미터
6.5B
활성 파라미터/토큰
256K
컨텍스트 윈도우
$0.15
입력 /1M 토큰

119B짜리인데 왜 “Small”인가

솔직히 처음 접했을 때 이름이 헷갈립니다. “Small”이라고 해서 가벼운 7B~24B급 모델을 떠올렸다면, 총 파라미터 기준으로는 완전히 틀렸습니다. 119B입니다. GPT-OSS 120B와 비슷한 규모입니다.

Mistral이 “Small”이라고 부르는 이유는 추론할 때 실제로 작동하는 파라미터 수가 6.5B이기 때문입니다. MoE(Mixture of Experts) 아키텍처로, 128개 전문가 중 토큰마다 4개만 활성화됩니다. 즉, 모델을 저장하고 올리는 데는 큰 GPU가 필요하지만, 추론 속도는 6.5B급 모델처럼 빠르다는 뜻입니다. (출처: Mistral 공식 블로그, 2026.03.16)

💡 공식 발표문에 나온 아키텍처 수치와 실제 추론 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — “Small”은 성능이 아니라 추론 시 활성화되는 파라미터 수를 가리키는 말입니다. 모델 이름이 성능 기대치를 잘못 설정하게 만드는 구조인 셈입니다.

이 구분이 중요한 이유는 딱 하나입니다. 비용 계산할 때 “파라미터 수 = 비용” 공식이 여기서는 맞지 않습니다. 토큰당 실제 연산량은 6.5B 모델과 비슷하니까요.

추론 모드 설정이 비용을 결정합니다

Mistral Small 4의 핵심 파라미터는 reasoning_effort입니다. 이 값 하나로 같은 모델이 완전히 다른 비용 구조를 갖습니다.

설정값 동작 방식 출력 길이 (VentureBeat 기준)
reasoning_effort="none" Mistral Small 3.2와 동일 스타일의 빠른 응답 약 2.1K 문자
reasoning_effort="high" 단계별 추론 포함, 이전 Magistral 모델과 유사 약 18.7K 문자

(출처: VentureBeat, 2026.03.20 / Mistral 공식 벤치마크)

nonehigh 사이 출력 길이 차이가 약 9배입니다. 출력 토큰 가격이 입력보다 비싼 구조($0.60/1M)에서는, 추론 모드를 켜는 순간 같은 작업에 9배 가까운 비용이 발생할 수 있습니다.

💡 요청 단위로 비용 구조를 조정할 수 있다는 건 기존 단일 모드 모델엔 없던 개념입니다. 복잡한 작업에만 high를 쓰고 단순 분류는 none으로 돌리면, 같은 API 엔드포인트에서 비용을 세밀하게 제어할 수 있습니다.

Mistral API 기준 Mistral Small 4의 입력 가격은 $0.15/1M 토큰, 출력은 $0.60/1M 토큰입니다. (출처: MarginDash Mistral 요금 가이드, 2026.03 기준)

3개 모델을 1개로 합쳤을 때 실제로 달라지는 것

Mistral Small 4는 이전에 별도로 존재하던 세 가지 모델을 하나로 통합합니다. Magistral(추론), Pixtral(멀티모달), Devstral(에이전틱 코딩)입니다. (출처: Mistral 공식 블로그, 2026.03.16)

이 통합이 실질적으로 의미 있는 이유는 파이프라인 설계 때 드러납니다. 문서에서 이미지를 파싱하고, 그 내용으로 코드를 짜고, 코드를 에이전트가 실행하는 흐름을 이전에는 3개 API 호출로 처리해야 했습니다. 이제 단일 모델로 처리할 수 있습니다. 모델 간 컨텍스트 전달 오버헤드가 사라집니다.

💡 Artificial Analysis의 실측 데이터와 공식 발표를 교차해 보니 이런 차이가 있었습니다 — 통합 모델이 각 특화 모델의 성능 상한을 그대로 가져오는 건 아닙니다. Artificial Analysis 기준 인텔리전스 인덱스 27점으로, 평균(15점) 대비 높지만 상위 추론 모델에는 못 미칩니다.

즉, “전문 모델 3개를 합쳤다”는 표현이 각 특화 모델의 성능을 그대로 유지한다는 뜻은 아닙니다. VentureBeat에 따르면 LiveCodeBench에서 Qwen 3.5 122B와 Claude Haiku에 밀립니다. 범용성을 얻은 대신 각 영역의 첨단 성능은 포기했습니다. (출처: VentureBeat, 2026.03.20)

Qwen·Claude Haiku와 수치로 비교해봤습니다

Mistral 공식 발표에서 강조하는 포인트는 “같은 성능을 더 짧은 출력으로”입니다. AA LCR 벤치마크에서 Mistral Small 4가 0.72 점수를 낼 때 출력 길이는 1.6K 문자, Qwen 모델은 동급 성능에 5.8K~6.1K 문자가 필요했습니다. 3.5~4배 차이입니다. (출처: Mistral 공식 블로그, HuggingFace 모델 카드, 2026.03.16) 짧은 출력 = 낮은 레이턴시 + 낮은 비용입니다.

모델 Instruct 출력(문자) 입력 가격/1M 출력 가격/1M
Mistral Small 4 약 2.1K $0.15 $0.60
Claude Haiku (Instruct) 약 14.2K 비공개 비공개
GPT-OSS 120B 약 23.6K $2.00 $8.00

(출처: VentureBeat, 2026.03.20 / MarginDash Mistral 가격 가이드)

Instruct 모드에서 Mistral Small 4의 출력이 GPT-OSS 120B 대비 약 11배 짧습니다. 출력 비용만 따지면 같은 작업에 GPT-OSS 대비 훨씬 저렴하게 처리할 수 있습니다.

다만 코딩 벤치마크(LiveCodeBench)에서는 Qwen 3.5 122B와 Claude Haiku에 밀립니다. 코딩 성능이 최우선이라면 Devstral을 따로 쓰는 게 나을 수 있습니다. (출처: VentureBeat, 2026.03.20)

쓰면 안 되는 상황이 있습니다

실사용 피드백(Reddit r/MistralAI, 2026.03.18)을 보면 Small 4에 대한 실망 사례가 꽤 나옵니다. 가장 많이 언급되는 패턴은 세 가지입니다.

⚠️ RTX 3090급 단일 GPU 환경 — 119B MoE 모델을 로컬에서 돌리려면 최소 4×H100이 필요합니다. Mistral 공식 권장 스펙 기준입니다. 소규모 개발자 환경에서 GGUF 양자화 버전을 써야 하는데, 이 경우 성능이 눈에 띄게 떨어진다는 실사용 후기가 다수입니다. (출처: Reddit r/LocalLLaMA, 2026.03)
⚠️ 크리에이티브 글쓰기 특화 작업 — Reddit 사용자 다수가 장편 서사, 롤플레이 같은 창작 작업에서 Mistral Small 3 계열 대비 오히려 품질이 떨어진다고 보고했습니다. 특히 긴 씬에서 등장인물 복장·위치 일관성이 무너지는 사례가 언급됩니다. (출처: Reddit r/MistralAI, 2026.03.18)
⚠️ 단순 코딩 최우선 작업 — LiveCodeBench 기준 Qwen 3.5 122B와 Claude Haiku가 앞섭니다. 코딩 파이프라인에서 최고 성능을 원한다면 Devstral 2를 따로 쓰는 게 현실적입니다. (출처: VentureBeat, 2026.03.20)

반대로 쓸 만한 상황은 명확합니다. 문서 파싱 + 이미지 분석 + 경량 추론을 하나의 워크플로우에서 처리해야 하는 엔터프라이즈 환경, 그리고 API 비용 최적화를 위해 요청별로 reasoning 수준을 조절해야 하는 고트래픽 서비스가 핵심 대상입니다.

로컬 배포 실제 가능 여부

Apache 2.0 라이선스로 오픈소스 공개된 게 Small 4의 큰 강점 중 하나입니다. Hugging Face에서 NVFP4 양자화 체크포인트도 공식 제공합니다. (출처: HuggingFace 모델 카드, 2026.03.16)

실제 로컬 배포를 위한 최소 스펙과 권장 스펙은 아래와 같습니다.

구분 구성
최소 인프라 4×NVIDIA HGX H100, 2×HGX H200, 또는 1×DGX B200
권장 인프라 4×HGX H100/H200, 또는 2×DGX B200
지원 프레임워크 vLLM(권장), llama.cpp, SGLang, Transformers

(출처: Mistral 공식 블로그, 2026.03.16)

vLLM 기준으로 현재 공식 메인 브랜치에는 tool calling·reasoning 파싱 수정이 아직 머지되지 않아 Mistral이 커스텀 Docker 이미지를 제공하고 있습니다. 공식 문서에 따르면 2026년 3월 16일 기준 1~2주 내 머지 예정이라고 밝혔지만, 정확한 머지 완료 시점은 아직 공개되지 않았습니다. (출처: HuggingFace 모델 카드, 2026.03.16)

일반 개발자 환경(RTX 3090, RTX 4090 단일 또는 2장)에서는 GGUF 4-bit 양자화로만 실행 가능하고, 이때 성능 저하가 발생합니다. 소규모 팀이라면 Mistral API를 쓰는 게 현실적입니다.

자주 나오는 질문

▶ Mistral Small 4가 “Small”이라고 불리는 이유가 뭔가요?
총 파라미터는 119B이지만, 추론 시 실제로 활성화되는 파라미터는 토큰당 6.5B입니다. MoE(Mixture of Experts) 구조로 128개 전문가 중 4개만 사용하기 때문입니다. 추론 속도와 연산 비용이 6.5B급 모델에 가깝기 때문에 “Small”로 분류합니다. (출처: Mistral 공식 블로그, 2026.03.16)
▶ reasoning_effort를 항상 “high”로 쓰면 안 되나요?
쓸 수는 있지만 비용이 크게 늘어납니다. VentureBeat 기준으로 none은 출력이 약 2.1K 문자, high는 18.7K 문자입니다. 출력 토큰 단가($0.60/1M)를 고려하면 단순 요약이나 분류 작업에 high를 쓰는 건 비효율입니다. 복잡한 추론·수학 문제에만 high를 켜고 나머지는 none으로 두는 게 비용 최적화에 유리합니다.
▶ 한국어 지원은 어느 수준인가요?
공식 지원 언어 목록에 Korean이 포함됩니다. (출처: HuggingFace 모델 카드) 단, 한국어 특화 성능 벤치마크는 Mistral이 공식 발표하지 않았습니다. 실사용 수준은 영어 대비 어느 정도 차이가 있을 수 있으며, 정확한 수치는 아직 공개되지 않았습니다.
▶ 기존에 Mistral Small 3.2를 쓰고 있다면 Small 4로 바꿔야 하나요?
작업 유형에 따라 다릅니다. 단순 텍스트 분류나 요약처럼 멀티모달·추론이 필요 없다면 Small 3.2($0.08/1M 입력)가 Small 4($0.15/1M)보다 저렴합니다. 이미지 파싱, 단계별 추론, 에이전틱 코딩을 하나의 파이프라인에서 다뤄야 한다면 Small 4가 유리합니다.
▶ Apache 2.0 라이선스면 상업적 사용이 자유로운가요?
네, Apache 2.0 라이선스는 상업적 사용과 수정·재배포를 허용합니다. 다만 “제3자의 지식재산권을 침해하는 방식으로 사용해선 안 된다”는 조항이 모델 카드에 명시돼 있습니다. (출처: HuggingFace Mistral Small 4 모델 카드, 2026.03.16) 파인튜닝 후 상업 서비스에 쓰는 것도 허용됩니다.

마치며

Mistral Small 4는 “만능 중간재”라는 포지셔닝이 핵심입니다. 각 분야 최정상은 아니지만, 문서·이미지·추론·코딩을 하나의 API로 처리해야 할 때 파이프라인을 단순하게 만들어줍니다.

기대했던 것과 달랐던 부분도 있습니다. “Small”이라는 이름이 만든 기대치와 119B라는 실제 규모 사이의 간극, 그리고 추론 모드 설정에 따라 비용이 9배 가까이 달라진다는 점은 실제로 쓰기 전에 꼭 파악해야 합니다. 이 구조를 이해하지 못하면 API 비용이 예상치를 한참 넘을 수 있습니다.

결론부터 말하면, 멀티모달 + 경량 추론을 복합적으로 써야 하는 서비스에서 비용 최적화를 고민 중이라면 테스트해볼 가치가 충분합니다. 단순 텍스트 작업이나 코딩 최우선 파이프라인이라면 Small 3.2나 Devstral이 여전히 더 나은 선택입니다.

📚 본 포스팅 참고 자료

  1. Mistral AI 공식 블로그 — Introducing Mistral Small 4 (https://mistral.ai/news/mistral-small-4)
  2. HuggingFace 모델 카드 — mistralai/Mistral-Small-4-119B-2603 (https://huggingface.co/mistralai/Mistral-Small-4-119B-2603)
  3. VentureBeat — Mistral’s Small 4 consolidates reasoning, vision and coding, 2026.03.20 (venturebeat.com)
  4. Artificial Analysis — Mistral Small 4 Intelligence & Performance (artificialanalysis.ai)
  5. MarginDash — Mistral API Pricing 2026 (margindash.com)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 수치는 Mistral Small 4 (2026.03.16 출시 버전) 기준이며, 이후 업데이트에 따라 달라질 수 있습니다. API 가격은 공식 요금 페이지에서 최신 정보를 확인하세요.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기