Mercury 2 · Inception Labs
Mercury 2, 빠르다고요?
이 비용 구조 먼저 보세요
초당 1,009토큰. 숫자만 보면 혁명입니다. 실제로 Claude 4.5 Haiku보다 10배, GPT-5 Mini보다 14배 빠릅니다. 그런데 Artificial Analysis가 실측한 결과, Mercury 2는 같은 작업에서 경쟁 모델의 3.5배 토큰을 출력했습니다. 빠른 건 맞는데, 비용이 예상대로 나오진 않습니다.
기존 LLM과 근본적으로 다른 이유
ChatGPT, Claude, Gemini가 답변을 생성하는 방식은 하나입니다. 왼쪽에서 오른쪽으로, 토큰 하나씩, 순서대로. 앞 토큰이 확정되지 않으면 다음 토큰을 만들 수 없는 구조입니다. 속도의 물리적 상한선이 아키텍처 안에 내장돼 있는 셈입니다.
Mercury 2는 여기서 출발점 자체가 다릅니다. Inception Labs는 이미지 생성에 쓰이는 확산(diffusion) 방식을 텍스트에 적용했습니다. 거칠게 잡힌 초안 전체를 놓고 여러 토큰을 동시에 다듬어나가는 방식입니다. Inception Labs 공식 블로그에는 “Less typewriter, more editor revising a full draft at once”라고 표현돼 있습니다. 타자기처럼 한 글자씩 찍는 게 아니라, 교정자가 전체 초안을 한꺼번에 고치는 방식입니다.
이 아키텍처를 가능하게 한 팀의 배경도 주목할 부분입니다. CEO Stefano Ermon은 스탠퍼드 CS 교수 출신으로, Stable Diffusion과 DALL-E에 쓰인 핵심 확산 기법을 공동 발명한 인물입니다. Flash Attention, Direct Preference Optimization(DPO)도 창업팀이 공동 발명했습니다. Mercury 2는 연구 배경이 있는 팀이 언어 모델에 확산 방식을 처음으로 상업화한 사례입니다. (출처: Inception Labs 공식 블로그, 2026.02.24)
속도가 실제로 얼마나 빠른가 — 독립 실측 수치
공식 발표 수치인 초당 1,009 토큰은 NVIDIA Blackwell GPU + NVFP4 정밀도 조건에서 나온 값입니다. 이 조건을 갖추지 않은 일반 클라우드 환경에서는 어떨까요? 독립 벤치마크 기관인 Artificial Analysis가 표준 다중 턴 환경에서 실측한 결과는 초당 711.6 토큰이었습니다. 132개 모델 가운데 1위입니다. (출처: Artificial Analysis, Mercury 2 Performance Analysis, 2026.02)
end-to-end 응답 지연은 1.7초입니다. 같은 측정 기준에서 Gemini 3 Flash는 14.4초, Claude 4.5 Haiku(추론 모드)는 23.4초입니다. 숫자 차이가 2배나 4배가 아닙니다. 8배~14배입니다. AI 에이전트처럼 모델 호출이 수십 번 연속되는 워크플로우에서는 이 격차가 그대로 전체 처리 시간에 쌓입니다. 10단계 에이전트 루프 기준으로 계산하면, 23.4초 모델은 총 234초, Mercury 2는 17초입니다.
💡 공식 발표 수치와 독립 실측 수치를 나란히 놓고 보면 이런 차이가 보였습니다
Inception Labs 공식: 1,009 tokens/sec (Blackwell 최적화 환경)
Artificial Analysis 실측: 711.6 tokens/sec (일반 클라우드 표준 환경)
두 수치 모두 2위(GPT-5 Mini, 약 72 tokens/sec)와는 비교가 안 되는 수준입니다.
Skyvern의 CTO Suchintan Singh은 실제 운영 환경에서 “GPT-5.2보다 최소 2배 이상 빠르다”고 밝혔습니다. 마케팅 문구가 아니라 프로덕션 비교 언급입니다. (출처: Inception Labs 공식 블로그, 2026.02.24)
품질은 어느 수준인가 — 벤치마크 직접 확인
이 정도 속도면 품질을 많이 깎아먹었을 것이라는 예상이 자연스럽습니다. 실제로 측정해보면 다릅니다. AIME 2025(수학 경시 벤치마크)에서 Mercury 2는 91.1을 기록했습니다. Claude 4.5 Haiku, GPT-5 Mini와 같은 밴드입니다. GPQA Diamond(대학원급 과학 추론)는 73.6, 명령 수행 정확도 IFBench는 71.3입니다. (출처: Inception Labs 공식 발표, Awesomeagents.ai 검증, 2026.02~03)
Artificial Analysis Intelligence Index에서는 132개 모델 중 22위, 점수는 33/100입니다. 같은 가격대 모델 평균이 19점이니 체급 대비 양호한 성적입니다. 다만 Gemini 3.1 Pro나 Claude Opus 4.6은 이 지수에서 80~90대입니다. 최상위 추론 모델과는 분명히 격차가 있습니다. Mercury 2가 “빠르고 싸지만 전부 다 잘한다”는 주장은 공식 발표 어디에도 없습니다.
| 벤치마크 | Mercury 2 | 비고 |
|---|---|---|
| AIME 2025 (수학) | 91.1 | Haiku/Mini 동급 |
| GPQA Diamond (과학) | 73.6 | 대학원급 추론 |
| IFBench (명령 수행) | 71.3 | |
| LiveCodeBench (코딩) | 67.3 | 오염 방지 벤치마크 |
| AA Intelligence Index | 33/100 (22위) | 132모델 중 / 평균 19 |
| 처리 속도 (실측) | 711.6 t/s (1위) | Artificial Analysis 실측 |
출처: Inception Labs 공식 발표(2026.02.24), Artificial Analysis(2026.02), Awesomeagents.ai(2026.03.04)
요금 구조에서 놓치기 쉬운 함정
표면 가격은 입력 $0.25/1M, 출력 $0.75/1M입니다. Claude 4.5 Haiku 출력 가격($4.90/1M)과 비교하면 출력 비용만 6.5배 저렴합니다. GPT-5 Mini($1.90/1M)와 비교해도 2.5배 싸고, Gemini 3 Flash와 비교해도 약 4배 저렴합니다.
그런데 Artificial Analysis가 Intelligence Index 평가 중 Mercury 2가 실제로 생성한 토큰 수는 6,900만 토큰이었습니다. 같은 평가에서 모델 평균은 2,000만 토큰입니다. Mercury 2는 3.5배 더 많은 토큰을 씁니다. (출처: Artificial Analysis, Mercury 2 모델 카드, 2026.02)
계산을 직접 해봤습니다. 출력 토큰 1,000만 건 기준:
💡 같은 작업, 3.5배 많은 출력을 생성하면 비용이 어떻게 달라지나
Claude 4.5 Haiku: 10M 토큰 × $4.90 = $49
Mercury 2 (토큰 수 동일 가정): 10M × $0.75 = $7.50 (6.5배 저렴)
Mercury 2 (3.5배 verbose 반영): 35M × $0.75 = $26.25 (Haiku 대비 약 1.9배 저렴)
→ 표면 단가는 싸지만, 실제 비용 절감폭은 예상보다 훨씬 좁습니다.
시스템 프롬프트로 출력 길이를 제어하면 어느 정도 완화됩니다. 다만 기본 상태에서 그대로 쓰면 출력 토큰이 예상보다 많이 나옵니다. 비용 민감한 프로덕션에 투입하기 전에 이 부분을 먼저 실측해봐야 합니다.
쓰면 좋은 경우와 그렇지 않은 경우
Inception Labs 공식 블로그에 명시된 주요 적합 케이스는 네 가지입니다. 코딩·편집(자동완성, 리팩터 에이전트), 에이전트 루프, 실시간 음성 인터페이스, 검색·RAG 파이프라인입니다. 공통점은 모델 호출이 여러 번 쌓이는 구조라는 점입니다. 한 번 호출할 때마다 1.7초 vs. 23초 차이가 나면, 10회 반복 시 총 시간이 17초 vs. 230초로 벌어집니다. 여기서 Mercury 2의 속도 이점이 실제로 체감됩니다.
반면 공식 검토 리뷰(Awesomeagents.ai, 2026.03.04)가 명시한 비적합 케이스가 있습니다. 멀티모달이 필요한 경우(이미지·오디오 불가), 온프레미스 배포가 필요한 경우(클라우드 전용), 파인튜닝이 필요한 경우(지원 없음), 그리고 복잡한 장문 추론이 핵심인 경우입니다. 100페이지짜리 법률 문서 검토나 멀티홉 리서치 합성처럼 정확도가 속도보다 중요한 작업에서는 Gemini 3.1 Pro나 Claude Opus 4.6과의 품질 격차가 실제로 납니다.
💡 속도와 품질의 교환점을 어떻게 그릴지 — 실제 케이스로 뜯어봤습니다
✅ 잘 맞는 케이스: 에이전트 루프, 실시간 음성 AI, 고볼륨 RAG 요약, 코드 자동완성
❌ 맞지 않는 케이스: 이미지·오디오 처리, 온프레미스/파인튜닝 필요, 100K+ 토큰 장문 추론
알려지지 않은 한계들
보통의 모델 리뷰가 잘 짚지 않는 부분이 하나 있습니다. Mercury 2의 확산 아키텍처는 단답형 쿼리에서 구조적으로 비효율입니다. “네” 또는 “아니요”를 반환하는 데 일반 자동회귀 모델은 두 번의 디코딩 스텝이면 충분합니다. 확산 모델은 답이 한 단어여도 전체 정제(denoising) 과정을 동일하게 거칩니다. 초당 1,000토큰이라는 수치는 출력이 길수록 유리하고, 단문 응답이 많은 용도에서는 이점이 희석됩니다.
또 하나는 아키텍처 성숙도입니다. GPT나 Claude 계열 자동회귀 모델은 수년간 프로덕션에서 버그와 실패 케이스가 쌓여 디버깅 패턴이 확립돼 있습니다. 확산 언어 모델은 아직 그 경험이 없습니다. 운영 중 예상치 못한 동작이 나왔을 때 커뮤니티와 문서에서 답을 찾기 어렵습니다. Awesomeagents.ai 리뷰는 이를 두고 “더 적은 프로덕션 전투 경험(fewer production battle scars)”이라고 표현했습니다. (출처: Awesomeagents.ai, Mercury 2 Review, 2026.03.04)
속도 최고 수치인 1,009 tokens/sec는 NVIDIA Blackwell GPU 환경을 전제합니다. Artificial Analysis의 실측인 711.6 tokens/sec는 일반 클라우드 환경 기준입니다. 구형 CUDA 환경에서의 성능 수치는 공개된 자료가 아직 없습니다. 이 점도 도입 전에 직접 실측해보는 게 맞습니다.
Q&A
마치며
솔직히 말하면, Mercury 2는 2026년 초 가장 흥미로운 모델 출시입니다. 가장 강력해서가 아닙니다. 10년간 쌓인 자동회귀 아키텍처의 물리적 한계를 다른 방식으로 깨려는 시도가 실제로 작동한다는 걸 보여줬기 때문입니다. 속도는 진짜고, 가격도 진짜 싸고, 품질도 포지셔닝한 체급 안에서 정직합니다.
다만 verbose 특성으로 인한 실제 비용 계산, 단답형 쿼리에서의 구조적 비효율, 아키텍처 신규성에서 오는 디버깅 리스크는 도입 전에 직접 확인해야 할 항목입니다. 에이전트 루프나 실시간 음성 AI를 만들고 있다면 가장 먼저 평가해볼 모델입니다. 100페이지 문서를 분석하거나 멀티모달이 필요하다면, 지금 시점에서는 아닙니다.
점수: 7.4/10 — 이 체급에서 속도와 비용 효율로는 현재 가장 나은 선택입니다. 한계도 명확합니다.
본 포스팅 참고 자료
본 포스팅 작성 이후 서비스 정책·UI·가격·기능이 변경될 수 있습니다. 최신 정보는 Inception Labs 공식 홈페이지 및 Artificial Analysis에서 확인하세요. 본 포스팅은 2026년 2월 24일 출시 기준, 2026년 3월 26일 작성 기준 정보를 담고 있습니다.











댓글 남기기