MiniMax M2.7, 공식 수치로 확인한 4가지

Published on

2026년 3월 22일

2026.03.22 기준
MiniMax M2.7 최신 출시

MiniMax M2.7, 공식 수치로 확인한 4가지

결론부터 말씀드리면, MiniMax M2.7은 단순히 ‘또 나온 중국 AI 모델’이 아닙니다.
자기 자신의 강화학습에 직접 참여해 개발된 최초의 모델이고, 가격은 Claude Opus 4.6 대비 입력 기준 50배 저렴합니다.
그런데도 SWE-Pro 코딩 벤치마크에서 거의 같은 수치가 나왔습니다. 공식 발표와 제3자 벤치마크를 같이 놓고 보니 보이는 것들이 있었습니다.

56.22%

SWE-Pro 코딩 점수

$0.30

입력 100만 토큰당

100 TPS

토큰 처리 속도

66.6%

MLE-Bench Lite 메달률

자기 진화 루프 — 모델이 자신을 학습시켰다는 게 정확히 어떤 뜻인지

보통 AI 모델은 인간 연구자들이 데이터를 만들고, 학습시키고, 평가합니다. MiniMax M2.7은 그 과정에 M2.7 자신이 직접 끼어들었습니다. MiniMax 공식 발표문에 딱 이렇게 나옵니다. “M2.7은 자신의 강화학습 메모리를 업데이트하고, 수십 개의 복잡한 스킬을 구축하며, 실험 결과를 바탕으로 학습 과정 자체를 개선했습니다.” (출처: MiniMax 공식 블로그 minimax.io/news/minimax-m27-en, 2026.03.18)

구체적으로는 이렇게 돌아갑니다. RL팀 연구자가 실험 아이디어를 에이전트에 던지면, M2.7이 문헌 검색 → 실험 추적 → 로그 분석 → 디버깅 → 코드 수정 → 테스트까지 혼자 돌립니다. 이 루프를 100회 이상 반복한 결과, 내부 평가 세트에서 30% 성능 향상을 기록했습니다. 인간 연구자는 중요한 의사결정 순간에만 개입합니다.

💡 공식 발표문과 실제 작업 흐름을 같이 놓고 보니 이런 차이가 보였습니다

MiniMax는 M2.7이 전체 RL 워크플로우의 30~50%를 혼자 처리한다고 밝혔습니다. 그런데 이 말은 ‘자율적으로 완전 동작한다’는 게 아닙니다. 나머지 50~70%는 여전히 인간 연구자 판단이 필요합니다. ‘자기 진화 AI’라는 표현보다는 ‘RL 자동화 비율 30~50%짜리 모델’이라고 읽는 게 더 정확합니다.

OpenAI의 OpenAI MLE Bench Lite 22개 머신러닝 대회에도 참가했습니다. 24시간씩 3번 실행한 평균 메달률은 66.6%로, Gemini 3.1(66.6%)과 동률, GPT-5.4(71.2%), Claude Opus 4.6(75.7%)보다는 낮은 수치입니다. 3위 정도의 성능입니다. 최상위는 아니지만 프론티어급 성능은 맞습니다.

▲ 목차로 돌아가기

코딩 벤치마크 — SWE-Pro 56.22%, 실제로 어느 수준인가

MiniMax M2.7의 SWE-Pro 점수는 56.22%입니다. 이 수치는 GPT-5.3-Codex(56.2%)와 사실상 같고, Claude Opus 4.6(약 57%)에 근접합니다. 공식 발표가 아니라 독립 평가사인 wavespeed.ai가 집계한 비교표에서도 같은 수치가 나왔습니다. (출처: wavespeed.ai 벤치마크 분석, 2026.03.22)

SWE-bench Verified라는 또 다른 지표에서는 78%로, Claude Opus 4.6의 55%를 크게 웃돌았습니다. 다만 이 두 벤치마크는 측정 방식이 다릅니다. SWE-Pro는 다국어 실제 소프트웨어 엔지니어링 과제를, SWE-bench Verified는 검증된 패치 생성 능력을 측정합니다. 같은 모델이라도 어떤 척도를 보느냐에 따라 순위가 달라집니다.

💡 벤치마크 숫자 뒤에 있는 실제 작업 능력이 더 흥미롭습니다

MiniMax 공식 블로그는 라이브 프로덕션 장애 복구에서 M2.7을 쓴 결과 복구 시간이 “여러 번 3분 이내로 줄었다”고 밝혔습니다. (출처: minimax.io/news/minimax-m27-en) 벤치마크 숫자가 아닌 실제 SRE 업무에서 측정된 수치입니다. 단순 코드 생성이 아니라 모니터링 지표와 배포 타임라인을 연결해 인과관계를 추론한다는 의미입니다.

Kilo.ai의 독립 벤치마크에서는 PinchBench 86.2%(전체 5위), Kilo Bench 47%(전체 2위)를 기록했습니다. 여기서 눈에 띄는 점은 탐색 행동입니다. M2.7은 코드를 쓰기 전에 관련 파일을 넓게 읽어들이는 경향이 있습니다. Kilo Bench 한 태스크당 평균 입력 토큰이 2.8M으로 비교 모델 중 가장 많았습니다. 맥락이 많이 필요한 복잡한 리팩토링에선 유리하지만, 시간이 촉박한 태스크에선 타임아웃이 나기도 했습니다. (출처: Kilo.ai 벤치마크 리포트, 2026.03.18)

▲ 목차로 돌아가기

가격과 속도 — 50배 싸다는 말이 전부가 아닌 이유

M2.7의 공식 API 가격은 입력 $0.30/M 토큰, 출력 $1.20/M 토큰입니다. Claude Opus 4.6은 입력 $15/M, 출력 $75/M입니다. 단순 계산으로 입력은 50배, 출력은 62.5배 차이입니다. 비슷한 성능에 이 가격이라면, 대용량 에이전트 워크로드에서 비용 구조가 완전히 달라집니다. (출처: VentureBeat 가격 비교표, 2026.03.18 / MiniMax 공식 가격 platform.minimax.io)

처리 속도도 100 TPS로 Claude Opus 4.6(약 33 TPS)의 3배 수준입니다. 빠른 게 당연히 좋아 보이지만, 여기서 조심해야 할 부분이 있습니다. M2.7은 태스크당 평균 2.8M 입력 토큰을 소비합니다. 속도가 빠른 대신 읽어들이는 양이 많아 실제 태스크 완료 시간과 총 비용은 속도 숫자 그대로 단순 비례하지 않습니다. Kilo 벤치마크에서 M2.7의 태스크당 평균 소요 시간은 355초로 비교 모델 중 가장 길었습니다. (출처: Kilo.ai 벤치마크, 2026.03.18)

다시 말해, “$0.30이라 무조건 싸다”가 아니라 “어떤 작업이냐에 따라 실제 비용이 다르다”입니다. 맥락이 많이 필요한 복잡한 태스크에서는 저렴하고 강력하며, 단순 반복 작업이나 속도가 중요한 짧은 태스크에서는 오히려 M2.5나 M2.7-highspeed 변형을 검토해야 합니다.

▲ 목차로 돌아가기

오피스 생산성 — GDPval-AA 1위, 오픈소스 모델 중 가장 높은 이유

코딩 모델이라고만 생각하면 이 지표가 낯설 겁니다. M2.7은 오피스 업무 능력을 측정하는 GDPval-AA 벤치마크에서 ELO 1495를 기록했고, 이는 오픈소스 접근 가능한 모델 중 가장 높은 수치입니다. Claude Opus 4.6, Sonnet 4.6, GPT-5.4 다음입니다. (출처: MiniMax 공식 발표문 minimax.io/news/minimax-m27-en, 2026.03.18)

실제로 어떤 업무인지 공식 블로그에서 사례를 하나 들었습니다. TSMC의 연간보고서와 실적발표 자료를 읽고, 여러 리서치 리포트를 교차 참조해 매출 예측 모델을 직접 설계한 뒤, PPT 템플릿 기반 발표자료와 Word 형식 리서치 리포트를 함께 출력하는 작업이었습니다. 현업 전문가 피드백으로는 “1차 초안으로 바로 활용 가능한 수준”이라고 했습니다. 주니어 애널리스트가 하는 작업을 에이전트 하나가 처음부터 끝까지 해낸 겁니다.

💡 코딩 모델로만 보면 이 강점을 놓칩니다

M2.7은 Toolathon(다양한 툴을 복합적으로 사용하는 에이전트 능력 평가)에서 46.3%를 기록해 글로벌 최상위권에 들었습니다. 40개 이상의 복잡한 스킬(스킬 1개당 2,000토큰 이상)을 동시에 다루면서도 지시 준수율 97%를 유지한다는 수치가, 이 모델이 코딩 전용이 아닌 복합 업무 에이전트로 설계됐음을 보여줍니다.

▲ 목차로 돌아가기

안 되는 것도 있습니다 — BridgeBench에서 M2.5보다 낮은 이유

모든 벤치마크가 M2.7에게 유리한 건 아닙니다. 에이전트 AI 코딩 스타트업 BridgeMind가 운영하는 BridgeBench에서 M2.5는 12위, M2.7은 19위를 기록했습니다. 전 세대 모델보다 오히려 낮은 순위입니다. (출처: VentureBeat, 2026.03.18에서 BridgeMind 결과 인용)

BridgeBench는 자연어를 즉시 동작하는 코드로 변환하는 능력을 봅니다. M2.7의 ‘먼저 넓게 읽는’ 탐색 행동이 이런 빠른 코드 생성 태스크에선 오히려 방해가 되는 겁니다. Kilo Bench에서도 타임아웃이 나는 이유가 같습니다. 이 부분은 MiniMax도 공식 답변을 내놓지 않은 부분입니다.

⚠️ 오픈 웨이트(가중치 공개) 없음 — 로컬 배포 불가

M2.5까지는 오픈 웨이트 모델이었습니다. M2.7은 proprietary(독점 모델)로 전환했습니다. 로컬 서버 배포 불가, Ollama 사용 불가입니다. 데이터가 외부로 나가면 안 되는 환경, 또는 인터넷 연결 없는 폐쇄망 환경에서는 사용할 수 없습니다. 중국 법인 소속 서비스라는 점도 규제 산업(금융·의료·공공)에서는 검토가 필요합니다. (출처: VentureBeat, the-decoder.com, 2026.03.18-21)

요약하면, M2.7이 강한 조건은 다음과 같습니다. 복잡한 코드베이스 전체를 이해해야 하는 대규모 리팩토링, 멀티 에이전트 협업 워크플로우, 오피스 문서 자동화, 대용량 API 호출 비용이 핵심인 프로젝트가 여기 해당합니다. 반면 빠른 단건 코드 생성, 로컬 배포, 민감 데이터를 다루는 폐쇄 환경에서는 다른 선택지가 더 맞습니다.

▲ 목차로 돌아가기

가격 비교표 — 지금 쓸 수 있는 프론티어 모델 실비용 한눈에

아래 표는 VentureBeat가 정리한 2026년 3월 기준 프론티어 모델 API 가격입니다. 같은 성능 구간에서 얼마나 차이가 나는지 직접 계산해볼 수 있습니다.

모델	입력 ($/M 토큰)	출력 ($/M 토큰)	합계
MiniMax M2.7	$0.30	$1.20	$1.50
Gemini 3 Flash	$0.50	$3.00	$3.50
Gemini 3 Pro	$2.00	$12.00	$14.00
GPT-5.4	$2.50	$15.00	$17.50
Claude Sonnet 4.5	$3.00	$15.00	$18.00
Claude Opus 4.6	$15.00	$75.00	$90.00

※ 출처: VentureBeat 가격 비교 (2026.03.18), MiniMax 공식 platform.minimax.io / Claude Opus 4.6 합계는 입력+출력 단순 합산 기준

M2.7 입력 $0.30 대 Claude Opus 4.6 입력 $15를 직접 계산하면 50배 차이입니다. 월 100만 토큰 입력 기준으로 Opus는 $15, M2.7은 $0.30입니다. 동일 예산으로 M2.7을 50배 더 많이 쓸 수 있다는 뜻입니다. 단, 앞서 짚었듯 M2.7의 탐색 행동으로 실제 태스크당 소모 토큰이 많아질 수 있으니 단순 비례 계산은 주의해야 합니다.

캐시 적용 시 유효 비용은 블렌디드 기준 $0.06/M 토큰까지 내려갑니다. MiniMax는 자동 캐시 최적화를 지원하며 별도 설정이 필요 없습니다. (출처: MiniMax 공식 모델 페이지 platform.minimax.io/models/text/m27)

▲ 목차로 돌아가기

자주 묻는 질문 5가지

MiniMax M2.7을 한국어로 사용할 수 있나요?
▼

네, 가능합니다. MiniMax Agent(agent.minimax.io)와 API 플랫폼(platform.minimax.io) 모두 한국어 입력을 지원합니다. 다만 공식 UI와 문서는 영문·중문 위주로 제공됩니다. 한국어 특화 튜닝 수준에 대해서는 MiniMax가 별도로 공개한 데이터가 없습니다.

Claude Code, Cursor에서 M2.7을 쓸 수 있나요?
▼

가능합니다. MiniMax는 Claude Code, Cursor, Cline, Roo Code, OpenCode, Kilo Code, Grok CLI, Codex CLI 등 11개 이상의 주요 개발 도구에 공식 통합 문서를 제공합니다. Anthropic SDK를 쓰는 도구라면 ANTHROPIC_BASE_URL을 MiniMax 엔드포인트로 변경하면 됩니다. (출처: platform.minimax.io/docs)

M2.5와 M2.7 중 뭘 써야 하나요?
▼

복잡한 코드베이스 분석, 대규모 리팩토링, 멀티 에이전트 워크플로우에는 M2.7이 낫습니다. 반면 빠른 단건 코드 생성, 짧은 쿼리 반복, BridgeBench류 바이브코딩 태스크에서는 M2.5가 오히려 유리할 수 있습니다. Kilo.ai 기준 M2.7의 평균 태스크 소요 시간이 355초로 전 세대보다 길었습니다.

오픈 웨이트는 언제 나오나요?
▼

MiniMax가 공식 발표를 내놓지 않은 부분입니다. M2.5까지는 HuggingFace에 공개 웨이트가 배포됐지만 M2.7은 현재 API 전용입니다. the-decoder.com은 “중국 AI 스타트업들이 오픈소스에서 독점 모델 전략으로 전환하는 흐름”이라고 분석했으나, M2.7 가중치 공개 일정은 현재 알려지지 않았습니다.

‘자기 진화’가 실제로 다음 모델에도 이어지나요?
▼

MiniMax는 “미래 AI 자기 진화는 점진적으로 완전 자율을 향해 나아갈 것”이라고 밝혔습니다. M2.7은 그 첫 번째 단계입니다. 현재는 RL 워크플로우의 30~50%만 자율 처리하고, 나머지는 인간 연구자 판단이 필요합니다. 완전 자율 학습 단계로 가는 시점은 MiniMax가 공식 로드맵을 공개하지 않아 이유는 아직 공개되지 않았습니다.

▲ 목차로 돌아가기

마치며 — MiniMax M2.7, 어떻게 볼 것인가

솔직히 말하면, MiniMax M2.7은 “싸고 빠른 중국 모델”이라는 한 줄 요약으로 끝내기엔 흥미로운 지점이 많습니다. 코딩 벤치마크에서 GPT-5.3-Codex, Claude Opus 4.6과 거의 같은 수치가 나오면서 가격은 50배 저렴한 건 사실이고, 공식 출처로 확인되는 숫자입니다.

그런데 막상 써보면 다릅니다. 탐색 행동이 많아 태스크당 소비 토큰이 타 모델보다 많고, 빠른 코드 생성이 핵심인 BridgeBench에선 전 세대보다 낮은 순위가 나왔습니다. 오픈 웨이트가 없어 로컬 배포가 막혀 있고, 중국 법인 서비스라는 점은 규제 환경에 따라 실제 채택 여부가 달라질 수 있는 요소입니다.

그럼에도 하나 분명한 게 있습니다. M2.7은 ‘모델이 자신의 학습 과정에 참여한다’는 자기 진화 루프를 실제로 운용에 넣었다는 점에서, 앞으로 나올 모델들이 어떤 방식으로 만들어질지를 미리 보여주는 케이스입니다. Claude Code와 Cursor에서 바로 쓸 수 있고, API 비용 부담이 크게 느껴졌던 분이라면 한 번은 직접 테스트해볼 가치가 있습니다.

📌 본 포스팅 참고 자료

MiniMax 공식 발표문 — minimax.io/news/minimax-m27-en (2026.03.18)
MiniMax 공식 모델 페이지 — minimax.io/models/text/m27
VentureBeat 심층 분석 — VentureBeat, 2026.03.18
Kilo.ai 독립 벤치마크 — blog.kilo.ai/p/minimax-m27 (2026.03.18)
The Decoder 분석 기사 — the-decoder.com, 2026.03.21

본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. MiniMax M2.7은 2026.03.22 기준 정보를 바탕으로 작성됐습니다. 정확한 최신 정보는 MiniMax 공식 사이트에서 직접 확인하시기 바랍니다.

AI에이전트2026, AI코딩모델, 자기진화AI, MiniMax API, MiniMax M2.7

MiniMax M2.7, 공식 수치로 확인한 4가지

MiniMax M2.7, 공식 수치로 확인한 4가지

자기 진화 루프 — 모델이 자신을 학습시켰다는 게 정확히 어떤 뜻인지

코딩 벤치마크 — SWE-Pro 56.22%, 실제로 어느 수준인가

가격과 속도 — 50배 싸다는 말이 전부가 아닌 이유

오피스 생산성 — GDPval-AA 1위, 오픈소스 모델 중 가장 높은 이유

안 되는 것도 있습니다 — BridgeBench에서 M2.5보다 낮은 이유

가격 비교표 — 지금 쓸 수 있는 프론티어 모델 실비용 한눈에

자주 묻는 질문 5가지

마치며 — MiniMax M2.7, 어떻게 볼 것인가

📌 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

MiniMax M2.7, 공식 수치로 확인한 4가지

MiniMax M2.7, 공식 수치로 확인한 4가지

자기 진화 루프 — 모델이 자신을 학습시켰다는 게 정확히 어떤 뜻인지

코딩 벤치마크 — SWE-Pro 56.22%, 실제로 어느 수준인가

가격과 속도 — 50배 싸다는 말이 전부가 아닌 이유

오피스 생산성 — GDPval-AA 1위, 오픈소스 모델 중 가장 높은 이유

안 되는 것도 있습니다 — BridgeBench에서 M2.5보다 낮은 이유

가격 비교표 — 지금 쓸 수 있는 프론티어 모델 실비용 한눈에

자주 묻는 질문 5가지

마치며 — MiniMax M2.7, 어떻게 볼 것인가

📌 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기