Mistral Large 3, 675B라면서 왜 이렇게 쌀까요?

Published on

in

Mistral Large 3, 675B라면서 왜 이렇게 쌀까요?

2025.12.02 출시 기준 / v25.12
Apache 2.0 라이선스
오픈웨이트 MoE

Mistral Large 3, 675B라면서 왜 이렇게 쌀까요?

675B 파라미터짜리 모델이 API 입력 요금 $0.5/M 토큰이라는 건, 상식적으로 이해가 안 갑니다. GPT-5.1이 입력 $2.5/M인 것과 비교하면 5배나 쌉니다. 이 가격이 가능한 데는 분명한 구조적 이유가 있고, 동시에 그 구조가 만드는 한계도 존재합니다. 공식 문서와 실측 벤치마크를 교차해서 정리했습니다.

$0.5
입력 /M 토큰
256K
컨텍스트 윈도우
675B
총 파라미터
41B
활성 파라미터

675B인데 왜 이렇게 싼가 — MoE 구조의 비밀

Mistral Large 3는 675B 파라미터가 맞습니다. 하지만 실제 추론할 때 켜지는 건 41B뿐입니다. 이게 Sparse Mixture-of-Experts(MoE) 아키텍처의 핵심입니다. 토큰이 들어올 때마다 수천 개의 전문가 서브네트워크 중 일부만 활성화해서 처리하고, 나머지는 그냥 잠들어 있습니다. 활성 파라미터 비율이 총 파라미터 대비 약 6%밖에 안 됩니다. (출처: Mistral AI 공식 발표문, 2025.12.02)

이 구조 덕분에 실제 연산량은 40~50B 급 Dense 모델과 비슷합니다. 요금은 연산량에 비례하기 때문에, 675B짜리 모델이 $0.5/M 토큰이라는 가격이 성립하는 겁니다. 모델 크기와 요금이 직결된다고 생각하면 이 가격은 말이 안 되지만, 활성 파라미터 기준으로 보면 계산이 맞습니다.

💡 공식 발표문과 요금 구조를 같이 놓고 보니 이런 차이가 보였습니다.
675B vs 41B — 어느 숫자로 요금을 계산해야 할까요?
요금 책정 기준은 총 파라미터가 아니라 실제 추론에 쓰이는 활성 파라미터입니다. 즉 같은 MoE 구조를 가진 DeepSeek V3(활성 37B)가 Mistral Large 3(활성 41B)보다 저렴한 이유도 이 비율 차이에서 옵니다.

이 아키텍처는 2025년 12월 기준 오픈소스 커뮤니티 최초로 LMArena 리더보드 OSS 비추론 모델 2위에 오른 배경이기도 합니다. (출처: LMArena 리더보드, 2025.12 기준)

유료 API 결제해도 속도는 안 빨라집니다

Mistral AI Studio에서 실험적(무료) API를 쓰다가 유료로 전환한 사용자들이 처음에 놀라는 부분이 있습니다. 속도가 거의 그대로라는 겁니다. Reddit MistralAI 커뮤니티에서 실사용자가 직접 확인한 내용입니다. 유료 API로 바꿔도 응답 속도는 유의미하게 달라지지 않았고, 이는 다른 사용자들도 동일하게 경험했습니다. (출처: Reddit r/MistralAI, 2025.04 게시물)

실제로 Mistral Large 계열은 MoE 라우팅 오버헤드와 대규모 파라미터 로드 특성 때문에 응답 초기 레이턴시가 상대적으로 높습니다. 유료/무료 차이는 속도가 아니라 월간 요청 쿼터입니다. 무료 API의 쿼터를 다 소진한 경우에만 유료 전환이 의미 있습니다.

💡 레이턴시 프로파일을 보면 단순 QA는 빠르고, 다단계 추론일수록 급격히 느려집니다.
LayerLens 벤치마크 실측치 기준으로 AGIEval English는 약 923ms인 반면, Terminal-Bench(다단계 터미널 실행)는 약 287,922ms(약 288초)에 달했습니다. (출처: LayerLens Atlas 벤치마크, 2025.12.05)

속도가 중요하다면 Mistral Small 3.1이나 Ministral 8B가 현실적인 대안입니다. 공식 문서에서도 속도 우선 워크플로우에는 경량 모델 사용을 권장하고 있습니다. (출처: docs.mistral.ai, 2026.03 기준)

실제 벤치마크 수치로 본 강점과 약점

수치를 직접 확인했습니다. 강점과 약점이 꽤 뚜렷하게 나뉩니다.

벤치마크 Mistral Large 3 비고
MATH-500 93.60% 강점
HumanEval (Python 코딩) 90.24%~92% 강점
AGIEval English 74.00% 양호
MMLU-Pro 73.11% 양호
GPQA Diamond (대학원 수준 과학) 43.9% 약점
SimpleQA (사실 정확성·기권율) 23.8% 약점
Terminal-Bench (다단계 터미널 실행) 23.75% 약점

출처: LayerLens Atlas 벤치마크 (2025.12.05), leucopsis Medium 리뷰 (2025.12.06)

SimpleQA 23.8%는 숫자만 보면 낮아 보이지만, 실제로는 “모르는 걸 모른다고 하지 않고 자신감 있게 틀리는 경향“을 드러냅니다. 규제 산업(의료, 법률, 금융)에서 RAG 없이 원시 출력을 그대로 신뢰하면 위험한 지점입니다.

Apache 2.0 라이선스가 요금보다 더 중요한 이유

Mistral Large 3를 쓰는 이유로 “저렴하다”를 꼽는 사람이 많은데, 실제로 기업 도입 결정에서 더 결정적인 요인은 라이선스입니다. Apache 2.0은 상업적 사용, 수정, 재배포에 제한이 없습니다. 이게 왜 중요하냐면, DeepSeek·Kimi K2·GLM 같은 중국산 오픈소스 모델들은 라이선스 조항이나 지정학적 규제 리스크가 존재하기 때문입니다.

💡 오픈소스 라이선스와 데이터 주권이 함께 움직이는 구조를 보면, 유럽 기업들이 왜 Mistral을 먼저 검토하는지 보입니다.
Mistral AI는 파리에 본사를 둔 EU 기업으로, GDPR 준거 환경에서 데이터를 자체 서버에 유지하면서 모델을 돌릴 수 있습니다. 금융·공공행정·의료 분야에서 데이터가 외부로 나갈 수 없는 경우, Apache 2.0 + EU 출처 + 자체 호스팅 가능성이라는 조합은 비용과 관계없이 선택지를 좁혀줍니다.

실제로 Mistral AI Studio, Amazon Bedrock, Azure Foundry, IBM WatsonX, Hugging Face 등 10개 이상 플랫폼에 동시 배포되어 있습니다. (출처: Mistral AI 공식 발표문, 2025.12.02) 어느 클라우드 벤더에 락인되지 않아도 된다는 뜻입니다.

DeepSeek V3·Claude Sonnet 4와 요금 직접 비교

요금표를 그냥 나열하는 대신, 실제 사용 시나리오로 계산해봤습니다.

모델 입력 /M 토큰 출력 /M 토큰 컨텍스트
Mistral Large 3 $0.50 $1.50 256K
DeepSeek V3 $0.27 $1.10 128K
Claude Sonnet 4.6 $3.00 $15.00 200K
GPT-5.1 $2.50 $10.00 200K
DeepSeek R1 $0.55 $2.19 128K

출처: GitHub salttechno/LLM-Model-Comparison-2026 (2026.02.18), Mistral 공식 문서 (docs.mistral.ai), TLDL LLM API Pricing 2026 (2026.02.24)

시나리오: 매달 입력 10M 토큰, 출력 3M 토큰 규모의 기업 워크플로우를 돌린다고 가정하면 월 비용은 이렇습니다.

📊 월간 추정 API 비용 계산 (입력 10M + 출력 3M 토큰 기준)

  • Mistral Large 3: (10 × $0.50) + (3 × $1.50) = $9.50
  • DeepSeek V3: (10 × $0.27) + (3 × $1.10) = $6.00
  • Claude Sonnet 4.6: (10 × $3.00) + (3 × $15.00) = $75.00
  • GPT-5.1: (10 × $2.50) + (3 × $10.00) = $55.00

Mistral Large 3가 Claude Sonnet 4.6보다 약 7.9배 저렴하고, DeepSeek V3보다는 약 1.6배 비쌉니다. “오픈소스 + Apache 2.0 + EU 데이터 주권 + 256K 컨텍스트”라는 조건이 필요하다면, DeepSeek V3보다 약간 비싸지만 그 조건을 충족하는 유일한 선택지입니다.

A100 8장으로 675B를 돌릴 수 있다는 말의 실제 의미

675B 모델이라고 하면 보통 수백 장의 GPU가 필요할 것 같은데, 공식 문서에 다른 내용이 나와 있습니다. NVFP4 포맷을 쓰면 A100 또는 H100 8장짜리 단일 노드에서 실행 가능합니다. (출처: Mistral AI 공식 발표문, 2025.12.02; Medium AIMonks 리뷰, 2025.12.09)

💡 NVFP4 포맷이 실제로 무엇을 바꾸는지 보면, “단일 노드 배포”라는 말의 무게가 달리 느껴집니다.
BF16 전체 가중치 기준으로 675B 모델은 약 1.35TB VRAM이 필요합니다. 하지만 NVFP4(4비트 양자화)로 압축하면 약 340GB 수준으로 줄어들고, A100 80GB × 8 = 640GB에 수용이 가능해집니다. 즉 이론상 가능하다는 얘기가 아니라, NVIDIA와 공동 개발한 llm-compressor로 이미 최적화된 체크포인트가 공개되어 있습니다.

다만 여기서 “홈 서버로 돌리기 어렵다”는 한계가 생깁니다. A100 80GB 8장은 엔터프라이즈 데이터센터 장비입니다. 개인 RTX 4090으로는 Ministral 14B까지가 현실적인 선택입니다. 개인 사용자에게 “오픈소스니까 로컬로 돌리면 된다”는 말은 Large 3에는 적용되지 않습니다.

결국 Mistral Large 3는 자체 서버를 운영하는 기업이나, 클라우드 API로 비용 절감을 원하는 팀에게 가장 현실적인 모델입니다. 이 두 케이스가 아니라면 Ministral 시리즈가 더 맞는 선택입니다.

자주 나오는 질문 5가지

Q1. Mistral Large 3는 무료로 쓸 수 있나요?

Mistral AI Studio에서 무료 실험적 API 쿼터 내에서 사용 가능합니다. 카드 등록 없이 즉시 테스트할 수 있지만, 월간 요청 수에 한도가 있습니다. 쿼터를 초과하면 유료 전환이 필요합니다. 또한 Hugging Face에 모델 가중치가 공개되어 있어, A100 8장 이상 환경이 있다면 자체 호스팅도 가능합니다.

Q2. GPT-4o나 Claude Sonnet 4.6 대신 쓸 만한가요?

요약·번역·문서 처리·일반 코딩 보조라면 충분합니다. 다만 GPQA Diamond 43.9%, SimpleQA 23.8% 수치가 보여주듯, 고난도 과학 추론이나 사실 정확성이 핵심인 작업에는 Claude Sonnet이나 GPT-5 계열이 더 안전합니다. 비용 대비 성능을 기준으로 하면, 대량 처리 워크플로우에서 실질적인 차이가 납니다.

Q3. 한국어 성능은 어떤가요?

공식 발표에서 “40개 이상 언어 지원, 영어·중국어 이외 다국어에서 최고 수준”을 명시하고 있습니다. (출처: Mistral AI 공식 발표문, 2025.12.02) 한국어가 이 40개 언어에 포함됩니다. 다만 한국어 전용 벤치마크 수치는 공식 문서에서 별도로 공개하지 않았습니다. 실사용 수준은 API 무료 쿼터로 직접 테스트해보는 게 가장 정확합니다.

Q4. Reasoning 버전은 언제 나오나요?

공식 발표문에서 “Reasoning version is coming soon”이라고 밝혔습니다. (출처: Mistral AI 공식 발표문, 2025.12.02) 구체적인 출시 일정은 2026년 4월 1일 기준으로 공개되지 않았습니다. 현재 Ministral 14B 추론 버전이 AIME 25에서 85% 성능을 보이고 있어, Large 3 Reasoning 버전이 나오면 DeepSeek V3.2·Kimi K2 수준과 직접 비교가 가능해질 것으로 예상됩니다.

Q5. 이미지 입력도 되나요?

됩니다. 약 2.5B 파라미터 규모의 비전 인코더가 아키텍처에 통합되어 있어, 이미지·PDF·차트를 직접 입력할 수 있습니다. OCR, 문서 구조 인식, 바운딩 박스 추출 기능도 공식 API에서 지원됩니다. (출처: docs.mistral.ai, 2026.03 기준) 추가 모듈 없이 멀티모달 입력이 하나의 엔드포인트에서 처리됩니다.

마치며 — 총평

솔직히 말하면, Mistral Large 3는 “모든 면에서 최고”는 아닙니다. GPQA Diamond 43.9%, SimpleQA 23.8%, Terminal-Bench 23.75% — 이 세 수치는 각각 고급 과학 추론, 사실 정확도, 다단계 자율 에이전트 작업에서 뚜렷한 한계를 가리킵니다.

하지만 그게 이 모델의 포지셔닝을 틀리게 만들지는 않습니다. $0.5/M 입력 토큰에 256K 컨텍스트, Apache 2.0 라이선스, EU 출처라는 조합은 특정 조건에서 다른 선택지가 없는 유일한 해법이 됩니다. 대량 문서 처리, 다국어 기업 어시스턴트, 자체 서버 온프레미스 배포 — 이 세 가지 중 하나라도 해당된다면 비교 우위가 있습니다.

Reasoning 버전이 나오면 지금의 약점이 크게 보완될 가능성이 있습니다. 당장 DeepSeek V3 수준의 가성비를 원하면서 라이선스·지정학 리스크를 피해야 하는 상황이라면, 지금 시점에서 현실적인 첫 번째 선택지로 두기에 충분합니다.

📎 본 포스팅 참고 자료

  1. Mistral AI 공식 발표문 — Mistral 3 출시 (mistral.ai/news/mistral-3)
  2. Mistral AI 공식 모델 문서 — Mistral Large 3 v25.12 (docs.mistral.ai)
  3. LayerLens Atlas 벤치마크 리뷰 (Medium, 2025.12.05)
  4. leucopsis Medium 리뷰 — Mistral Large 3 심층 분석 (Medium, 2025.12.06)
  5. GitHub LLM Model Comparison 2026 요금 비교표 (github.com, 2026.02.18)

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본문 내 요금 수치는 2026년 4월 1일 기준 공식 자료를 바탕으로 작성되었으며, 이후 업데이트 시 달라질 수 있습니다.

댓글 남기기


최신 글

  • 건강보험 환급금 조회 2026, 본인부담금 확인
    건강보험 환급금 조회 2026 기준으로 공식 화면 여부, 발생 사유, 본인 명의 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 주택청약 당첨 포기 2026, 재당첨 제한 체크
    주택청약 당첨 포기 2026 기준으로 주택 유형과 지역, 일정과 통장 영향, 사유와 소명 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 청약통장 납입회차 확인 2026, 인정금액 체크
    청약통장 납입회차 확인 2026 기준으로 가입일과 회차, 인정 회차, 납입 인정금액 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 토지이용계획확인원 열람 2026, 매수 전 제한 확인
    토지이용계획확인원 열람 2026 기준으로 정확한 필지, 건축 가능성, 개발제한·보전 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 조상땅찾기 온라인 조회 2026, 상속 토지 확인
    조상땅찾기 온라인 조회 2026 기준으로 가족관계 증빙, 성명·주민번호 등, 지번과 면적 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 안심상속 원스톱 서비스 2026, 재산조회 신청 순서
    안심상속 원스톱 서비스 2026 기준으로 신청 가능 가족, 금융·토지·차량, 상속포기 기한 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 전입세대확인서 열람 2026, 계약 전 주소 확인
    전입세대확인서 열람 2026 기준으로 주소와 동·호수, 기존 전입 여부, 등기부·확정일자 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴대폰 명의도용 신고 2026, 개통 내역 확인
    휴대폰 명의도용 신고 2026 기준으로 모르는 회선, 최근 인증·개통 문자, 통신사와 번호 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 카드 분실신고 재발급 2026, 자동이체 누락 체크
    카드 분실신고 재발급 2026 기준으로 카드 정지, 분실 전후 사용처, 새 카드 수령 전 결제 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.
  • 휴면보험금 조회 청구 2026, 내보험찾아줌 전 확인
    휴면보험금 조회 청구 2026 기준으로 보험금 종류, 계약자와 피보험자, 현재 담당 보험사 항목을 제출 전 확인 순서로 정리했습니다. 반려, 지연, 재처리를 줄이기 위한 체크리스트와 공식 출처를 함께 담았습니다.


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기