Mistral Small 4 가격, 직접 계산했더니 3가지 달랐습니다

Published on

in

Mistral Small 4 가격, 직접 계산했더니 3가지 달랐습니다

2026.03.17 기준 / v26.03-2603
IT/AI

Mistral Small 4 가격, 직접 계산했더니 3가지 달랐습니다

Mistral Small 4가 “하나로 다 된다”는 말 믿고 바로 쓰려고 했다면, 잠깐 멈추는 게 맞습니다. 공식 문서와 실사용 데이터를 나란히 놓고 보니 기대와 다른 지점이 세 곳에서 나왔습니다.

119B
전체 파라미터
6.5B
실제 활성 파라미터
$0.15
입력 /100만 토큰
256K
컨텍스트 윈도우

Mistral Small 4가 뭔지 — 30초 요약

2026년 3월 17일(공식 발표 기준), Mistral AI가 공개한 Mistral Small 4(모델명: Mistral-Small-4-119B-2603)는 기존에 별도로 써야 했던 세 모델을 하나로 합친 구조입니다. Magistral(추론), Pixtral(이미지), Devstral(코딩 에이전트) — 이 셋을 단일 엔드포인트로 처리하겠다는 게 핵심 제안입니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

라이선스는 Apache 2.0으로 상업적 이용과 파인튜닝이 모두 가능합니다. OpenAI나 Anthropic 모델과 다르게 소스 공개 의무도 없어서, 기업 내부 배포 용도로도 법적 부담이 낮은 편입니다. 특히 유럽 데이터 주권 규제를 의식한 포지셔닝이 눈에 띕니다.

결론부터 말씀드리면, “범용 오픈소스 AI API로 GPT-4o-mini를 대체하려는 팀”에게 가장 직접적인 비교 대상이 됩니다. 다만 이미지 관련 작업이 포함된 파이프라인이라면 지금 당장 전환하기엔 문제가 있습니다 — 이 부분은 섹션 4에서 자세히 다룹니다.

▲ 목차로 돌아가기

119B인데 왜 6.5B처럼 빠를까 — MoE 구조 실체

💡 공식 문서와 아키텍처 수치를 같이 놓고 보니, “119B 대형 모델”이라는 표현이 실제 비용과는 다른 의미임을 확인했습니다.

Mistral Small 4는 MoE(Mixture of Experts) 아키텍처를 씁니다. 총 128개의 전문가(expert) 레이어가 있지만, 토큰 하나를 처리할 때마다 그 중 4개만 활성화됩니다. 공식 문서에 딱 이렇게 나옵니다: “119B parameters, with 6.5B activated per token.” (출처: Hugging Face mistralai/Mistral-Small-4-119B-2603, 2026.03.17)

이게 왜 중요하냐면, 실제 추론 비용이 119B 밀집 모델 대비 약 95% 절감된다는 뜻이기 때문입니다. emelia.io 분석 기준으로 “Small 3 대비 초당 요청 처리량 3배, 완료 시간 40% 단축”이 나온 근거가 바로 여기 있습니다. 119B의 지식을 담아두되, 연산 비용은 6.5B짜리처럼 내는 구조입니다.

모델 전체 파라미터 활성 파라미터/토큰 컨텍스트
Mistral Small 4 119B (MoE) ~6.5B 256K
GPT-4o-mini 비공개 비공개 128K
Qwen 3.5-122B 122B (MoE) ~22B 262K
Phi-4 (14B) 14B (Dense) 14B 16K

※ 출처: Mistral 공식 문서, emelia.io 가이드 (2026.03)

한 가지 덧붙이면, 전체 119B 가중치는 여전히 VRAM에 올라가야 합니다. 활성 연산만 6.5B인 거지, 모델 자체를 가볍게 로드할 수 있다는 뜻이 아닙니다. 로컬 배포 요구사항은 섹션 5에서 따로 정리했습니다.

▲ 목차로 돌아가기

가격을 직접 계산해봤습니다 — 100만 토큰 기준

OpenRouter 기준 확인된 공식 가격은 입력 $0.15/100만 토큰, 출력 $0.60/100만 토큰입니다. (출처: OpenRouter Mistral Small 4 페이지, 2026.03.17) Mistral 공식 문서(docs.mistral.ai)에서도 동일하게 확인됩니다.

이게 실제로 어느 정도 수준인지 비교해봤습니다. GPT-4o-mini의 공식 가격이 입력 $0.15/100만 토큰, 출력 $0.60/100만 토큰이라서 토큰 단가가 완전히 동일합니다. 그런데 Mistral Small 4는 GPQA Diamond 기준 71.2% vs GPT-4o-mini 40.2%로 벤치마크 격차가 큽니다. (출처: Mistral 공식 블로그, 2026.03.17) 같은 돈으로 더 높은 성능을 쓸 수 있다는 셈입니다.

💡 가격 시뮬레이션 — 직접 계산 가능한 수치

하루 100만 입력 토큰 + 100만 출력 토큰 기준:

• Mistral Small 4: ($0.15 + $0.60) × 1 = $0.75/일

• GPT-4o-mini: ($0.15 + $0.60) × 1 = $0.75/일 (동일)

• Claude Sonnet 4.6: ($3.00 + $15.00) × 1 = $18.00/일

Claude Sonnet 대비 24배 저렴한 단가입니다.

다만, reasoning_effort=”high” 모드를 쓰면 출력 토큰이 대폭 증가합니다. 공식 문서 벤치마크에서 reasoning 모드 활성화 시 Qwen 3.5 모델 대비 출력 길이가 1,600자 수준으로 짧다고 나왔지만, reasoning_effort=”none” 대비로는 여전히 토큰 소비가 늘어납니다. 복잡한 수학 문제 자동화에 reasoning 모드를 기본값으로 두면 예상보다 비용이 올라갈 수 있습니다.

참고로, Mistral API를 통해 쓸 때는 모델 식별자 mistral-small-latest로 접근하면 Small 4가 자동으로 연결됩니다. 버전을 고정하고 싶다면 mistral-small-2603을 명시해야 합니다.

▲ 목차로 돌아가기

이미지 처리, 생각보다 심각한 수준입니다

⚠️ Pixtral 계보를 이어받은 멀티모달 모델이라고 소개됐지만, 공식 API 실측에서 이미지 이해 성능이 이전 세대보다 오히려 떨어졌다는 보고가 나왔습니다.

r/LocalLLaMA에 2026년 3월 17일 올라온 스레드에서, 공식 Mistral API로 직접 테스트한 결과가 공유됐습니다. 음악 페스티벌 사진을 주고 묘사를 요청했더니 “경기장”, “보안 요원”, “주차된 차량” 등 사진에 없는 내용을 전부 만들어냈습니다. 같은 프롬프트에 Qwen 3.5 35B(파라미터 기준 약 1/4 크기)는 무대, 연주자, 해변 배경, 일몰 하늘까지 정확하게 묘사했습니다. (출처: r/LocalLLaMA, 2026.03.17)

이 문제가 단순 양자화 이슈가 아닌 이유는, 테스터가 GGUF나 llama.cpp를 거치지 않고 공식 API만 사용해 동일한 결과를 확인했기 때문입니다. 또 다른 사용자는 Q8_0 로컬 로드로도 Qwen 3.5 4B Q6_K보다 비전 성능이 낮았다고 보고했습니다. 119B 전체 파라미터 기반 모델이 4B짜리에 밀리는 상황입니다.

커뮤니티에서는 Mistral Small 3.1 출시 당시 비전 인코더 활성화 함수 버그가 있었고 나중에 패치됐던 선례가 있어서, 이번도 구현 버그일 가능성을 점치고 있습니다. 공식 릴리스 노트에 별도 설명은 없는 상황입니다. 이미지 기반 파이프라인 전환은 Mistral 측의 공식 패치 확인 후로 미루는 게 안전합니다.

▲ 목차로 돌아가기

로컬 배포가 가능은 한데 — 현실적인 제약

💡 공식 발표와 실제 커뮤니티 셋업 후기를 같이 보니, “셀프호스팅 가능”과 “실용적인 셀프호스팅”은 꽤 다른 이야기였습니다.

공식 문서 기준 최소 배포 환경은 4× NVIDIA H100(80GB) 또는 2× H200입니다. (출처: Mistral 공식 블로그, 2026.03.17) H100 한 장의 클라우드 임대 비용이 약 $2~3/시간 수준이니, 4장 기준 최소 $8~12/시간 인프라 비용이 발생합니다. 하루 24시간 풀로 돌리면 월 약 $5,760~$8,640 이상의 GPU 비용입니다.

vLLM 지원도 출시 시점에는 미완성이었습니다. Mistral이 별도 Docker 이미지(mistralllm/vllm-ms4:latest)를 제공하긴 했지만, vLLM 공식 저장소 PR 병합은 “1~2주 내 예정”으로만 안내됐습니다. (출처: HuggingFace 모델 카드, 기준일 2026.03.16) llama.cpp/Ollama 지원도 별도 PR이 진행 중이라 안정화에 시간이 필요한 상황입니다.

Apache 2.0 라이선스이기 때문에 API 비용 자체는 없고, GDPR이나 데이터 주권 이슈로 반드시 온프레미스가 필요한 조직에게는 유일한 선택지가 될 수 있습니다. 단, 지금 시점에서 로컬 배포를 실험적으로 돌린다면 공식 Docker 이미지 기준으로 시작하는 게 현실적입니다.

▲ 목차로 돌아가기

쓰기 좋은 상황 vs 피해야 할 상황

수집한 공식 자료와 실사용 후기를 교차하면, 현 시점 기준으로 Mistral Small 4가 잘 맞는 케이스와 그렇지 않은 케이스가 꽤 명확하게 갈립니다.

✅ 지금 바로 써볼 만한 상황

  • 텍스트 기반 에이전트 파이프라인: 코딩 자동화, RAG, 분류, 데이터 추출처럼 이미지가 없는 워크플로우. GPT-4o-mini 대비 동일 가격에 GPQA Diamond 점수가 71.2% vs 40.2%로 확인됩니다.
  • 긴 문서 처리: 컨텍스트 256K 덕분에 200페이지 계약서나 대형 코드베이스를 단일 요청으로 처리 가능. GPT-4o-mini(128K)의 2배 범위입니다.
  • 데이터 주권이 필요한 기업: Apache 2.0 + 온프레미스 배포 조합. EU GDPR 대응, 금융·의료 규제 환경에서 법적 검토 부담이 낮습니다.
  • reasoning_effort 혼합 사용: 일반 질문은 fast 모드(none), 복잡한 분석은 high 모드 — 하나의 엔드포인트로 비용을 조절할 수 있습니다.

❌ 지금 당장 전환하면 안 되는 상황

  • 이미지 분석·문서 OCR 파이프라인: 공식 API 기준 이미지 환각 현상이 실사용 수준에서 확인됐습니다. Mistral 측 패치 전까지 프로덕션 적용은 보류가 맞습니다.
  • 경량 로컬 배포: 4× H100 미만 환경에서는 공식 지원 범위 밖. Ollama 한 줄로 돌릴 수 있는 모델이 아닙니다.
  • 당장 안정적인 vLLM/llama.cpp가 필요한 팀: PR 병합이 완료되지 않은 상태라 커스텀 Docker 빌드가 필요합니다.

▲ 목차로 돌아가기

자주 묻는 질문 (Q&A)

Q1. Mistral Small 4와 Mistral Small 3.2의 차이가 뭔가요?

Small 3.2는 24B 밀집 모델(dense)이었고 텍스트 전용이었습니다. Small 4는 119B MoE 구조로 크기가 다르고, 이미지 입력과 추론 모드(reasoning_effort)가 추가됐습니다. 속도는 Small 3 대비 3배 요청/초 처리, 40% 빠른 완료 시간이 공식 발표 수치입니다. (출처: Mistral AI 공식 블로그, 2026.03.17)

Q2. reasoning_effort 파라미터는 어떻게 쓰나요?

API 호출 시 reasoning_effort="none"이면 빠른 응답, reasoning_effort="high"이면 단계적 추론 모드가 켜집니다. 요청마다 개별 지정이 가능하므로, 단순 분류 요청과 복잡한 계획 수립 요청에 각각 다른 값을 줄 수 있습니다. (출처: HuggingFace Mistral Small 4 모델 카드, 2026.03.17)

Q3. 이미지 문제는 언제 해결되나요?

Mistral AI가 공식 답변을 내놓지 않은 부분입니다. 커뮤니티에서는 Mistral Small 3.1 비전 버그(활성화 함수 오류) 패치 선례를 들어 “구현 버그일 가능성”을 제기하고 있습니다. 공식 패치 여부는 Mistral AI 공식 릴리스 노트(mistral.ai/news)에서 확인하는 게 가장 빠릅니다.

Q4. 로컬에서 돌리려면 얼마짜리 GPU가 필요한가요?

공식 최소 요건은 4× NVIDIA H100(80GB)입니다. 전체 119B 가중치가 VRAM에 올라가야 하기 때문에 소비자용 GPU(RTX 4090 등)로는 단독 운영이 안 됩니다. GGUF 양자화 버전을 쓰면 메모리를 줄일 수 있지만, 현 시점 llama.cpp PR이 아직 병합 전이라 안정성이 검증되지 않은 상태입니다. (출처: HuggingFace 모델 카드, 2026.03.17)

Q5. Apache 2.0이면 상업용으로 마음대로 쓸 수 있나요?

Apache 2.0 라이선스 하에 상업적 이용, 파인튜닝, 재배포가 가능하고 소스 공개 의무도 없습니다. 다만 Mistral 공식 AI 거버넌스 허브(legal.mistral.ai)의 사용 정책을 함께 확인하는 게 좋습니다. 제3자 권리 침해 금지 조항은 라이선스와 별개로 적용됩니다. (출처: HuggingFace Mistral Small 4 모델 카드, 2026.03.17)

▲ 목차로 돌아가기

마치며

솔직히 말하면, Mistral Small 4는 텍스트 작업만 놓고 보면 지금 당장 GPT-4o-mini를 대체할 수 있는 몇 안 되는 오픈소스 모델입니다. 가격 동일, 성능 우위, Apache 2.0 라이선스 — 이 세 가지가 동시에 맞아떨어지는 조합은 흔하지 않습니다.

막상 써보면 다른 건 이미지 처리입니다. “멀티모달 통합”을 전면에 내세웠는데, 공식 API 수준에서 이미지 환각이 확인된다는 건 지금 시점 프로덕션 전환의 발목을 잡는 요소입니다. 이 부분은 Mistral 측에서 아직 공식 입장을 내지 않은 상태라, 패치 여부를 확인하고 도입하는 게 현실적인 순서입니다.

컨텍스트 256K, Apache 2.0, 유럽 데이터 주권 — 특히 EU 규제 환경이 있는 기업이라면 지켜볼 가치가 충분한 모델입니다. 지금 당장 배포를 결정하기 전에, 적어도 NVIDIA build.nvidia.com에서 무료로 먼저 돌려보는 시간이 의미 있을 것입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Mistral AI 공식 블로그 — Introducing Mistral Small 4 (2026.03.17)
  2. Mistral AI 공식 문서 — Mistral Small 4 모델 스펙 (v26.03)
  3. HuggingFace — Mistral-Small-4-119B-2603 모델 카드 (2026.03.17)
  4. OpenRouter — Mistral Small 4 API 가격 페이지
  5. r/LocalLLaMA — Mistral Small 4 이미지 성능 실사용 보고 (2026.03.17)
  6. emelia.io — Mistral Small 4 완전 가이드 & 벤치마크 (2026.03)

본 포스팅은 2026년 3월 21일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. AI 모델의 버전·가격·라이선스 조건은 Mistral AI 공식 사이트에서 최신 내용을 직접 확인하시길 권장합니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기