Mercury 2 · Inception Labs
dLLM v2.0
Mercury 2, 빠르면 품질이 낮다고요?
결론부터 말씀드리면, 막상 수치를 보면 다릅니다. Inception Labs의 확산형(diffusion) 언어모델 Mercury 2는 초당 1,009 토큰을 생성하면서도 AIME 2025 벤치마크에서 91.1점을 기록했습니다. Claude 4.5 Haiku·GPT-5.2 Mini와 같은 레인지입니다. “빠른 모델은 품질이 떨어진다”는 전제가 여기서는 맞지 않습니다.
GPT도 Claude도 결국 이 방식으로 만들어집니다
지금 시장에 나와 있는 대형 언어모델은 구조적으로 같은 방식을 씁니다. 자동회귀(autoregressive) 방식, 즉 토큰을 하나씩 왼쪽에서 오른쪽으로 순서대로 생성하는 방법입니다. GPT-5, Claude 4.5, Gemini 3.1 모두 마찬가지입니다. 이 방식의 근본 한계는 “직렬(sequential)”이라는 점입니다. 앞 토큰이 확정돼야 다음 토큰을 계산할 수 있어, 어떤 칩을 써도 이 직렬 구조에서 벗어날 수 없습니다.
그래서 업계가 지난 몇 년간 한 일은 스페큘레이티브 디코딩, 양자화(quantization), 전용 인퍼런스 칩(Groq LPU 등) 같은 방법으로 이 구조를 최대한 빠르게 돌리는 것이었습니다. 구조 자체를 바꾸지 않고, 그 안에서 효율을 쥐어짜는 접근입니다. 천문학적인 비용이 들었고, 개선 폭은 제한적이었습니다.
Mercury 2는 이 구조에 손을 댑니다. 이미지·영상 생성에서 검증된 확산(diffusion) 방식을 언어 추론 모델에 처음으로 적용한 것입니다. Inception Labs는 Stanford·UCLA·Cornell 출신 연구자들이 세운 회사로, CEO Stefano Ermon은 현재 이미지·영상 생성 AI의 기반이 된 확산 방법론의 공동 발명자입니다. (출처: Inception Labs 공식 보도자료, 2026.02.24)
Mercury 2는 왜 구조부터 다를까요
자동회귀 모델이 문장을 “쓰는” 방식이라면, 확산형 모델이 텍스트를 만드는 방식은 “다듬는” 방식에 가깝습니다. 처음에는 노이즈 상태, 또는 마스킹된 전체 출력에서 시작해서 여러 토큰을 동시에 반복적으로 정제합니다. 한 번의 신경망 계산에서 한 토큰만 정하는 게 아니라, 전체 출력의 여러 위치를 동시에 개선합니다. 공식 블로그 표현을 빌리면 “타자기처럼 찍는 것이 아니라 편집자가 초안 전체를 한꺼번에 고치는 것”입니다. (출처: Inception Labs 공식 블로그, inceptionlabs.ai/blog/introducing-mercury-2)
💡 공식 발표문과 아키텍처 구조를 같이 놓고 보니 이런 차이가 보였습니다
기존 확산형 언어 실험들은 속도는 빠르지만 품질이 나빴습니다. “빠르고 쓸모없는” 모델이었던 셈입니다. Mercury 2가 기존 dLLM 실험과 다른 지점은 추론(reasoning) 능력을 확산 구조 위에 얹는 데 성공했다는 것입니다. 확산 방식은 반복 정제 중에 오류를 자기 수정할 수 있어, 순차 생성보다 오히려 출력 안정성에서 유리한 면이 있습니다.
이 구조 덕분에 속도 이점이 칩에서 나오지 않습니다. NVIDIA Blackwell GPU 위에서 1,009 토큰/초를 기록했지만, 이는 Blackwell이 있어야만 나오는 수치가 아니라 병렬 생성 아키텍처 자체의 결과입니다. 즉, 동일 하드웨어에서 경쟁사 모델보다 훨씬 많은 처리량을 뽑아낼 수 있다는 의미입니다.
수치로 보면 이게 진짜 격차입니다
Inception Labs 공식 보도자료(2026.02.24, Business Wire)와 Artificial Analysis 방법론 기반 수치를 함께 정리했습니다.
| 모델 | 출력 속도(토큰/초) | AIME 2025 | GPQA | 입력 단가(1M) |
|---|---|---|---|---|
| Mercury 2 | 1,009 | 91.1 | 73.6 | $0.25 |
| Claude 4.5 Haiku (추론) | 약 89 | 유사 레인지 | 유사 레인지 | $0.80 |
| GPT-5.2 Mini | 약 71 | 유사 레인지 | 유사 레인지 | $0.15~ |
(출처: Inception Labs 공식 보도자료 2026.02.24 / Artificial Analysis 방법론 기반. Claude·GPT 단가는 공식 API 페이지 기준. 비교 수치는 Mercury 2와 동일 조건 독립 검증 전으로 “유사 레인지” 표기.)
이 표에서 눈여겨볼 부분은 가격입니다. Mercury 2의 입력 단가는 100만 토큰당 $0.25인데, 이 수치가 의미하는 것은 “더 싸게, 더 빨리, 같은 품질”이라는 세 가지가 동시에 성립한다는 점입니다. 일반적으로 속도와 품질과 비용은 셋 중 둘만 선택 가능하다고 알려져 있지만, 아키텍처 레벨의 변화는 그 트레이드오프 자체를 바꿉니다.
에이전트 루프에서 이 차이가 쌓입니다
싱글 프롬프트 데모에서는 200ms와 2초의 차이가 그렇게 크게 느껴지지 않습니다. 그런데 에이전트 워크플로우는 다릅니다. 컨텍스트 검색, 쿼리 재작성, 요약, 출력 검증, 재시도까지 보수적으로 잡아도 6~10번의 추론 호출이 한 작업 안에 연쇄됩니다. 현재 속도 최적화 자동회귀 모델이 호출 당 2초의 지연을 만들어낸다면, 6단계 체인에서 사용자가 기다리는 시간은 12~20초가 됩니다. 이건 “빠른 AI”가 아니라 느린 배치 작업과 다르지 않습니다.
1,009 토큰/초 모델에서 1,000 토큰짜리 추론 체인 하나는 약 1초에 끝납니다. 같은 6단계를 연결해도 6초 이내입니다. 실시간처럼 느껴지는 임계선에 들어옵니다. 이 수치 해석의 핵심은 단순히 “빠르다”가 아니라, 에이전트 단계 수를 현재의 3~5단계 제약에서 10단계 이상으로 늘릴 수 있게 된다는 것입니다. SLA(응답 지연 상한) 예산 안에서 더 깊은 추론을 넣을 수 있다는 의미입니다.
Skyvern의 공동창업자 겸 CTO Suchintan Singh는 “Mercury 2는 GPT-5.2보다 최소 2배 빠르며, 이것은 우리에게 게임 체인저”라고 밝혔습니다. (출처: Inception Labs 공식 블로그, 2026.02.24)
속도만 보다가 여기서 걸립니다
Mercury 2의 수치를 보면 지금 당장 스택을 전환하고 싶어집니다. 그런데 확산형 언어모델이 구조적으로 취약한 영역이 있습니다. 공식적으로 인정되지는 않았지만, 이 아키텍처의 알려진 한계입니다.
⚠️ 확산형 LLM의 구조적 약점 — 지금 확인 필요 항목
- verbatim 기억 약점: 특정 텍스트를 그대로 복제·재현하는 작업에서 자동회귀 대비 정확도 저하 가능성. 계약서·법률 문구 등 정확한 원문 재현이 필요한 사용 사례는 추가 검증 필요.
- 엄격한 좌→우 일관성: 확산형 병렬 정제 특성상 순서가 명확히 중요한 장문 스텝바이스텝 출력에서 일관성 이슈가 보고된 바 있음. (출처: levelup.gitconnected.com, 2026.03.02)
- 장문 컨텍스트 경계: 128K 컨텍스트를 지원하지만, 확산형 모델의 긴 시퀀스 처리 품질은 독립 검증 데이터가 아직 부족함. 100K 이상 컨텍스트를 쓰는 경우 자체 평가 필수.
- 독립 벤치마크 미검증: 현재 공개된 수치는 Inception Labs 내부 발표 기준. 제3자 독립 재현 결과는 2026.03 기준 아직 축적 중. (출처: dev.to/vainkop, 2026.02.27)
이 약점들이 현재 모든 사용 사례에서 문제가 된다는 뜻은 아닙니다. 그러나 “빠르고 싸다”는 지표만 보고 프로덕션에 투입하기 전에 자신의 워크로드에서 직접 평가하는 것이 현실적인 순서입니다. 특히 출력 정확도가 비즈니스 임팩트와 직결되는 파이프라인이라면, 독립 벤치마크 결과를 기다리는 시간이 아깝지 않습니다.
지금 실제로 쓰는 곳들의 반응
💡 출시 발표문 외에 실제 파트너 기업들의 구체적 반응을 같이 보니 쓰임새가 좀 더 뚜렷하게 보였습니다
아래 반응들은 Inception Labs 공식 블로그(2026.02.24)에 직접 인용된 파트너 코멘트입니다.
코드 에디터 Zed의 공동창업자 Max Brunsfeld는 “제안이 자신의 생각의 일부처럼 느껴질 만큼 빠르게 들어온다”고 표현했습니다. 자동완성·다음 수정 제안처럼 개발자가 루프 안에 있는 인터랙티브 워크플로우에서 지연이 몰입을 깬다는 점을 짚은 것입니다. (출처: Inception Labs 공식 블로그)
실시간 음성 AI 영역에서는 Happyverse AI의 CEO Max Sapo가 “저지연이 필수인 실시간 대화에서 Mercury 2가 큰 돌파구였다”고 밝혔습니다. 음성 인터페이스는 지연 예산이 가장 빡빡한 영역으로, 자연스러운 말의 리듬을 유지하려면 추론 레이턴시가 300ms 이내여야 합니다. 기존 추론 모델로는 이 예산에 품질 있는 출력을 맞추기 어려웠던 영역입니다.
Inception Labs의 투자자 목록도 무게감이 있습니다. Menlo Ventures, Mayfield 외에 M12(마이크로소프트 벤처 펀드), Snowflake Ventures, Databricks Ventures가 들어가 있고, 개인 투자자로 Andrew Ng과 Andrej Karpathy가 참여했습니다. (출처: Inception Labs 공식 보도자료, Business Wire, 2026.02.24) 이 이름들이 의미하는 것은 이 기술이 실험실 수준이 아니라 엔터프라이즈 스케일 배포를 상정하고 있다는 점입니다.
Q&A
마치며
Mercury 2에 대해 솔직히 말하면, 이 모델이 가장 흥미로운 이유는 속도 수치 자체가 아닙니다. “AI 인프라를 개선하려면 더 좋은 칩을 사야 한다”는 가정에 정면으로 반박하는 아키텍처를 실제 프로덕션 수준으로 만들어 냈다는 점입니다. 지난 몇 년간 쏟아부은 수십억 달러의 인프라 최적화가 결국 같은 직렬 구조 위에서의 개선이었다면, Mercury 2는 그 구조 자체를 건드렸습니다.
다만 아직은 “추적하고 평가 준비를 해야 할 때”이지, “지금 당장 스택을 전환해야 할 때”는 아닙니다. 독립 벤치마크 축적, 특히 한국어 포함 다국어 성능, 장문 컨텍스트 안정성 데이터가 나오는 것을 보고 판단하는 것이 현실적인 접근입니다. 이미 API가 열려 있으니 자신의 워크로드 기준으로 직접 수치를 내볼 수 있습니다. 그게 가장 빠른 판단 방법입니다.
개인적으로는 에이전트 루프에서 지연 누적 문제를 겪어본 팀이라면 Mercury 2를 가장 먼저 테스트해볼 이유가 있다고 생각합니다. 같은 품질에서 인퍼런스 비용이 달라진다면, 그 차이는 프로덕션 규모에서 결코 작지 않습니다.
📎 본 포스팅 참고 자료
- Inception Labs 공식 블로그 — Introducing Mercury 2: https://www.inceptionlabs.ai/blog/introducing-mercury-2
- Business Wire 공식 보도자료 (2026.02.24) — Inception Launches Mercury 2: https://www.businesswire.com/news/home/20260224034496/en/
- OpenRouter — Mercury 2 벤치마크: https://openrouter.ai/inception/mercury-2/benchmarks
- dev.to/vainkop — Mercury 2 and the End of Autoregressive Monopoly (2026.02.27): https://dev.to/vainkop
- LevelUp GitConnected — Mercury 2: Why the World’s Fastest Reasoning LLM Is a Bigger Deal (2026.03.02): https://levelup.gitconnected.com
※ 본 포스팅 작성 이후 Mercury 2의 서비스 정책·가격·기능·벤치마크 수치가 변경될 수 있습니다. 모든 수치는 2026년 2월 24일 Inception Labs 공식 발표 기준이며, 제3자 독립 검증이 완료되지 않은 항목은 본문 내 별도 표기했습니다. 본 포스팅의 정보를 프로덕션 도입 판단에 활용할 경우 반드시 공식 채널 최신 정보를 직접 확인하시기 바랍니다.


댓글 남기기