MiMo-V2-Pro, 스마트폰 회사가 맞습니까?

Published on

in

MiMo-V2-Pro, 스마트폰 회사가 맞습니까?

2026.03.18 기준
MiMo-V2-Pro 정식 출시판
공식 수치 기반

MiMo-V2-Pro, 스마트폰 회사가 맞습니까?

OpenRouter에서 정체를 숨긴 채 주간 사용량 1위를 찍었던 모델, Hunter Alpha의 정체가 밝혀졌습니다. 샤오미였습니다. 에이전트 성능 세계 3위, 가격은 Claude Opus 4.6의 25분의 1. 직접 수치로 확인했습니다.

1T
총 파라미터 수
#3
ClawEval 세계 순위
$1/$3
입력/출력 per 1M 토큰
30%
할루시네이션 비율

Hunter Alpha 실체 — 샤오미가 1위를 찍은 방법

2026년 3월 11일, OpenRouter에 이름도 없는 모델 하나가 올라왔습니다. 닷새 만에 일간 사용량 1위. 커뮤니티는 “DeepSeek V4 아닐까?” 하며 들끓었습니다. 결론부터 말씀드리면, 그건 샤오미였습니다.

2026년 3월 18일 공식 발표된 MiMo-V2-Pro, 코드명 Hunter Alpha. 정체를 숨긴 채 OpenRouter에 먼저 올린 뒤 성능만으로 시장 반응을 확인한 겁니다. 공식 발표 전까지 주간 처리 토큰이 5,000억 개를 넘었습니다. (출처: Xiaomi MiMo 공식 페이지, 2026.03.18)

이 모델을 이끈 건 뤄푸리(Luo Fuli). DeepSeek R1 프로젝트의 핵심 멤버였던 인물입니다. 그는 발표 후 X 포스트에서 이번 출시를 “조용한 기습(quiet ambush)”이라 표현했습니다. 과장이 아니었습니다.

💡 공식 발표문과 OpenRouter 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다. 기존 AI 기업들이 벤치마크 선공개 후 API를 여는 방식과 달리, 샤오미는 성능으로 먼저 증명하고 이름을 나중에 공개했습니다. 시장이 이미 검증한 뒤에 마케팅을 붙인 셈입니다.

▲ 목차로 돌아가기

1조 파라미터인데 왜 이렇게 쌉니까

총 파라미터가 1조 개라는 말을 들으면 당연히 비쌀 거라고 생각합니다. 막상 가격표를 보면 다릅니다. 256K 이하 기준으로 입력 $1, 출력 $3(1M 토큰당)입니다. Claude Opus 4.6의 입력 $15, 출력 $75와 비교하면 약 25분의 1 수준입니다. (출처: Xiaomi MiMo 공식 API 가격 페이지, 2026.03.18)

MoE 구조가 만드는 가격 차이

비결은 MoE(Mixture-of-Experts) 구조입니다. 총 1조 개 파라미터 중 실제 추론 때 활성화되는 건 42B뿐입니다. 같은 크기의 Dense 모델이라면 1조 개 전부를 매번 돌려야 하는데, MiMo-V2-Pro는 그 중 4.2%만 씁니다. 실제 컴퓨팅 비용이 그만큼 낮아집니다.

모델 입력(1M) 출력(1M) MiMo 대비
MiMo-V2-Pro (≤256K) $1.00 $3.00 기준
Claude Sonnet 4.6 $3.00 $15.00 약 5배
GPT-5.2 $7.50 $30.00 약 10배
Claude Opus 4.6 $15.00 $75.00 약 25배

(출처: Xiaomi MiMo 공식 API 가격, Anthropic 공식 요금 페이지, 2026.03.18 기준)

Artificial Analysis가 전체 Intelligence Index를 돌리는 데 MiMo-V2-Pro에 든 비용은 $348였습니다. GPT-5.2는 동일 작업에 $2,304, Claude Opus 4.6은 $2,486이 들었습니다. 수치만 보면 약 7분의 1 비용으로 유사한 수준의 추론을 처리한 겁니다. (출처: Artificial Analysis, 2026.03 발표)

▲ 목차로 돌아가기

에이전트 성능이 Opus에 근접한 이유

Claude Opus 4.6은 여전히 에이전트 벤치마크 1위입니다. 그런데 MiMo-V2-Pro의 ClawEval 점수가 61.5로 세계 3위입니다. Opus 4.6이 66.3이니 격차가 4.8포인트. GPT-5.2가 50.0인 걸 감안하면 이 간극이 얼마나 좁은지 바로 보입니다. (출처: Xiaomi MiMo 공식 페이지, PinchBench / ClawEval 공식 리더보드, 2026.03.18)

7:1 하이브리드 어텐션이 만드는 장점

모델 구조 측면에서 보면, MiMo-V2-Pro는 하이브리드 어텐션 비율을 전작 Flash의 5:1에서 7:1로 높였습니다. 1M 토큰 컨텍스트를 쓸 때 전체 토큰의 85%는 슬라이딩 윈도우 방식으로 빠르게 처리하고, 나머지 15%에 집중 어텐션을 씁니다. 속도를 잡으면서 긴 작업 흐름의 정확도도 유지하는 구조입니다.

여기에 Multi-Token Prediction(MTP) 레이어가 붙어 있어, 에이전트 작업의 “생각하는 시간” 동안 여러 토큰을 동시에 예측합니다. 멀티스텝 추론에서 체감 속도가 빠른 이유입니다. Reddit 커뮤니티 실사용자 한 명은 “Opus보다 두 배 빠르고 tool use에서 비슷한 성능”이라고 직접 언급했습니다. (출처: Reddit r/LocalLLaMA, 2026.03.20)

💡 ClawEval 3위라는 순위가 새롭게 보이는 이유가 있습니다. Opus는 에이전트 학습에 수년이 들어간 모델입니다. MiMo-V2-Pro는 팀 구성 후 1년도 안 돼 이 점수를 냈습니다. 거리가 좁혀지는 속도가 더 중요한 수치입니다.

▲ 목차로 돌아가기

코딩 성능, Claude Sonnet 4.6과 직접 비교했습니다

공식 수치에서 MiMo-V2-Pro의 코딩 정확도는 92.5%입니다. Claude Sonnet 4.6보다 높다는 게 공식 발표 내용입니다. Terminal-Bench 2.0 기준으로는 86.7%를 기록했는데, 이건 실제 터미널에서 명령을 실행하는 신뢰도를 재는 지표입니다. (출처: Xiaomi MiMo 공식 페이지, 2026.03.18)

Hunter Alpha 테스트 때 가장 많이 쓴 앱들이 코딩 툴이었습니다

Hunter Alpha 테스트 기간 동안 OpenRouter 호출량 상위 앱을 보면 전부 코딩 관련 도구였습니다. 이름을 모르는 채로도 개발자들이 먼저 찾아낸 겁니다. 샤오미 공식 발표문은 이를 “실제 개발 워크플로에서 높은 활용도와 신뢰도를 확인한 결과”로 해석했습니다. (출처: Xiaomi MiMo 공식 페이지, 2026.03.18)

단, Reddit 실사용 후기에서 주의할 부분이 한 가지 나왔습니다. “에이전트 작업에선 매우 좋은데, 어려운 정규식이 들어간 Python f-string 처리에서 Opus가 잡아내는 걸 놓쳤다”는 의견입니다. (출처: Reddit r/LocalLLaMA, u/real_serviceloom, 2026.03.20) 원시 추론 깊이에서는 아직 Opus와 차이가 있다는 현장 목소리입니다.

▲ 목차로 돌아가기

Pro가 텍스트 전용인 건 단점이 아닐 수 있습니다

MiMo-V2-Pro는 이미지 입력을 지원하지 않습니다. 텍스트 전용입니다. “멀티모달이 안 되면 부족한 거 아닌가”라는 생각이 드는 게 당연합니다. 그런데 공식 발표문을 보면 의도가 다릅니다.

샤오미는 멀티모달 기능을 별도 모델인 MiMo-V2-Omni에 몰아넣었습니다. Omni는 텍스트, 이미지, 영상, 10시간 이상 연속 오디오를 처리하는 구조입니다. 가격은 입력 $0.40, 출력 $2.00으로 Pro보다 훨씬 쌉니다. (출처: Xiaomi MiMo 공식 페이지, 2026.03.18)

💡 Pro와 Omni를 분리한 구조를 보면 샤오미의 방향이 보입니다. 추론 전용 모델은 컴퓨팅을 추론에만 집중시키고, 멀티모달 처리는 별도 아키텍처로 최적화합니다. 하나의 모델로 다 하려다 둘 다 어중간해지는 걸 피한 선택입니다. 이 방식이 가격 경쟁력의 근거이기도 합니다.

결국 텍스트 전용이라는 제약은, 에이전트 코딩·장문 추론·멀티스텝 태스크 자동화를 목적으로 쓴다면 전혀 걸리지 않는 조건입니다. 반대로 이미지가 섞인 작업이라면 Pro가 아닌 Omni를 써야 합니다.

▲ 목차로 돌아가기

실제로 써보니 이 부분이 좀 아쉬웠습니다

벤치마크 수치가 좋아도 실사용에서 다른 경우가 있습니다. MiMo-V2-Pro에서 현재 확인된 한계를 공식 문서와 커뮤니티 피드백 기준으로 정리했습니다.

오픈소스 아님 — 내부 감사가 안 됩니다

MiMo-V2-Flash는 MIT 라이선스로 HuggingFace에 가중치가 공개돼 있습니다. Pro는 다릅니다. API 전용이고 가중치 비공개입니다. 뤄푸리는 “모델이 충분히 안정화되면 오픈소스화할 계획”이라고 X 포스트에서 밝혔지만 시점은 미정입니다. (출처: Luo Fuli X 포스트, 2026.03.18) 보안 민감 환경에서 모델 수준 감사가 필요한 경우에는 쓸 수 없습니다.

GDPval-AA Elo 1426 — 서방 모델과의 실제 격차

실세계 에이전트 태스크를 재는 GDPval-AA에서 MiMo-V2-Pro의 Elo는 1,426입니다. 중국 모델 중 1위이고 GLM-5(1,406), Kimi K2.5(1,283)를 앞섭니다. 그런데 Claude Sonnet 4.6의 Elo는 1,633입니다. 이 격차가 207포인트입니다. (출처: VentureBeat, Artificial Analysis 인용, 2026.03.19) 단순 벤치마크가 아닌 실무 복잡도 높은 작업에서는 아직 이 간극이 체감됩니다.

주의: 256K 이상 컨텍스트를 쓸 경우 입력 $2, 출력 $6으로 요금이 두 배 뜁니다. 1M 토큰 전체를 매 요청에 채운다면 비용 계산을 다시 해볼 필요가 있습니다. 단순히 “1/25 가격”이라는 비교는 256K 이하 기준임을 기억해야 합니다.

프롬프트 인젝션이나 파일 조작 권한이 필요한 에이전트 환경에서는 보안 모니터링을 별도로 구성해야 한다고 VentureBeat의 기업 평가 섹션이 명시하고 있습니다. 가중치가 공개되지 않은 만큼 내부 팀이 직접 검증할 방법이 현재 없습니다. (출처: VentureBeat, 2026.03.19)

▲ 목차로 돌아가기

자주 묻는 질문 5가지

Q1. MiMo-V2-Pro와 MiMo-V2-Flash는 뭐가 다릅니까?
Flash는 총 309B 파라미터(활성 15B)의 경량 고속 모델로 MIT 라이선스 오픈소스입니다. Pro는 1T(활성 42B)의 플래그십 추론 모델로 API 전용 비공개입니다. Flash가 속도와 저비용($0.09/$0.29)에 최적화된 반면, Pro는 에이전트 복잡도 높은 작업에 특화됩니다. 용도가 다릅니다.
Q2. 1조 파라미터를 어떻게 저렴하게 운영합니까?
MoE 구조 덕분입니다. 추론 시 실제 활성화되는 건 42B뿐입니다. 전체의 4.2%만 켜지는 구조라 컴퓨팅 비용이 Dense 모델 대비 크게 낮아집니다. DeepSeek나 Grok도 같은 방식을 씁니다.
Q3. Pro가 텍스트 전용인데 이미지 작업은 어떻게 합니까?
같은 날 함께 발표된 MiMo-V2-Omni를 씁니다. 텍스트, 이미지, 영상, 10시간 연속 오디오를 지원하며 가격은 입력 $0.40, 출력 $2.00입니다. Pro와 Omni를 조합해 쓰는 게 샤오미가 의도한 구조입니다.
Q4. 오픈소스는 언제 됩니까?
Xiaomi는 “모델이 충분히 안정화되면” 오픈소스 버전을 낼 계획이라고 밝혔습니다. 구체적인 시점은 공개하지 않았습니다. MiMo-V1과 Flash가 오픈소스였기 때문에 가능성은 높지만, 현재 Pro는 API 전용입니다.
Q5. Claude나 GPT 대신 실무에 바로 쓸 수 있습니까?
코딩 에이전트, 장문 텍스트 추론, 멀티스텝 자동화처럼 텍스트 중심 워크플로에서는 충분히 대체 가능합니다. 단, 보안 감사가 필요한 엔터프라이즈 환경이나 복잡한 아키텍처 설계, 이미지 처리가 필요한 작업은 Claude를 병행하거나 우선 검토해야 합니다.

▲ 목차로 돌아가기

마치며

솔직히 말하면, 샤오미가 이 수준의 AI 모델을 1년 안에 만들 거라고 예상한 사람은 많지 않았을 겁니다. Hunter Alpha가 OpenRouter를 조용히 휩쓸고 나서야 다들 주목했습니다. 성능이 먼저 증명하고, 이름은 나중에 붙는 방식이었습니다.

가격 기준으로는 지금 시점에서 가성비가 가장 좋은 에이전트 특화 모델입니다. Opus의 25분의 1 가격에 ClawEval 세계 3위 성능. 이 조합은 처음 봅니다. 이미지가 필요 없는 코딩·추론 워크플로라면 써볼 이유가 충분합니다.

다만 가중치가 공개 안 된 상태라는 점, 256K 초과 시 가격이 두 배가 된다는 점, GDPval-AA 실무 복잡도 기준으로는 Sonnet과 207포인트 차이가 아직 있다는 점. 이 세 가지는 쓰기 전에 확인해야 할 조건입니다.

뤄푸리 팀이 DeepSeek R1 이후 또 한 번 시장을 흔들었습니다. 다음 버전이 어디까지 좁혀올지, 지켜볼 만합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. ① Xiaomi MiMo 공식 페이지 — MiMo-V2-Pro 사양 및 벤치마크 (mimo.xiaomi.com/mimo-v2-pro)
  2. ② VentureBeat — Xiaomi MiMo-V2-Pro 분석 기사, 2026.03.19 (venturebeat.com)
  3. ③ Artificial Analysis — Intelligence Index 벤치마크, 2026.03 (artificialanalysis.ai)
  4. ④ Reddit r/LocalLLaMA — MiMo-V2-Pro 실사용 스레드, 2026.03.20
  5. ⑤ Luo Fuli X 포스트 — 오픈소스 계획 및 Hunter Alpha 공개 발언, 2026.03.18

본 포스팅은 2026년 3월 18~23일 공개된 공식 자료 기준으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
MiMo-V2-Pro 가격, 벤치마크 수치, 지원 기능은 Xiaomi의 공식 발표 및 업데이트에 따라 달라질 수 있으니 최신 정보는 공식 페이지에서 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기