Mercury 2 완전정복: 초당 1,000토큰, 5배 빠른 추론 AI 지금 안 쓰면 손해

Published on

2026년 3월 14일

Mercury 2 완전정복: 초당 1,000토큰, 5배 빠른 추론 AI — 지금 안 쓰면 손해

2026년 2월 24일, Inception Labs가 공개한 Mercury 2는 기존 자동회귀(Autoregressive) 방식을 완전히 버리고 Diffusion 아키텍처로 전환한 세계 최고속 추론 LLM입니다. Claude 4.5 Haiku·GPT 5 Mini보다 5배 이상 빠르면서, 비용은 대폭 낮췄습니다. 지금 이 순간에도 대부분의 국내 개발자·블로거가 이 모델의 존재조차 모르고 있습니다.

초당 1,009 토큰
5배 빠른 속도
$0.25/1M 입력 토큰
128K 컨텍스트
OpenAI API 호환
2026.02.24 출시

Mercury 2가 뭔데 이렇게 난리인가

Mercury 2는 미국 AI 스타트업 Inception Labs가 2026년 2월 24일에 공개한 추론 특화 대형 언어 모델입니다. 이 모델이 AI 개발자 커뮤니티에서 화제가 된 이유는 단 하나, 초당 1,009토큰이라는 경이로운 생성 속도 때문입니다. 기존에 “빠른 모델”의 기준으로 꼽혔던 Claude 4.5 Haiku나 GPT 5 Mini보다 무려 5배 이상 빠릅니다.

더 놀라운 건 단순히 속도만 빠른 게 아니라는 점입니다. Mercury 2는 추론(Reasoning) 기능까지 지원하면서도 실시간 응답 수준의 속도를 유지합니다. 지금까지 AI 업계의 암묵적 공식은 “추론 품질을 높이려면 속도와 비용을 포기해야 한다”는 것이었습니다. Mercury 2는 그 공식을 깨버렸습니다.

국내에서는 아직 한국어 블로그 포스팅이 손에 꼽을 정도입니다. 이 글은 공식 발표 자료와 실제 벤치마크 데이터를 기반으로 Mercury 2를 현재 시점에서 가장 깊게 정리한 한국어 가이드입니다.

💡 핵심 한 줄 요약: Mercury 2는 “빠르거나 똑똑하거나” 중 하나를 선택해야 했던 AI의 딜레마를 Diffusion 아키텍처로 동시에 해결한 최초의 상용 추론 모델입니다.

▲ 목차로 돌아가기

Diffusion LLM — 기존 AI와 뭐가 다른가

현재 ChatGPT, Claude, Gemini 등 모든 주요 LLM은 자동회귀(Autoregressive) 방식으로 작동합니다. 쉽게 말하면 타자기처럼 글자를 한 자씩, 왼쪽에서 오른쪽으로 순차 생성하는 방식입니다. 직관적이고 품질이 높지만, 구조적 병목이 있습니다. 토큰을 병렬로 생성할 수 없기 때문에 처리량 확대에 한계가 있습니다.

Diffusion LLM의 작동 원리

이미지 생성 AI인 Stable Diffusion이나 Midjourney의 “노이즈에서 이미지를 단계적으로 복원하는” 방식을 텍스트 생성에 적용한 것이 바로 Diffusion LLM(dLLM)입니다. Mercury 2는 타자기처럼 한 글자씩 치는 게 아니라, 편집자가 전체 초안을 한꺼번에 훑으며 여러 부분을 동시에 다듬는 방식으로 응답을 완성합니다. 이 병렬 처리 덕분에 극도로 빠른 속도가 가능합니다.

왜 지금까지 텍스트에는 안 쓰였나

이미지·오디오와 달리 텍스트는 순서에 따른 의미 의존성이 훨씬 강합니다. 앞 단어가 뒤 단어를 결정하는 구조이기 때문에, Diffusion 방식을 적용했을 때 문맥 일관성을 유지하기가 매우 어렵습니다. Inception Labs는 이 문제를 독자적인 훈련 방법론으로 해결했고, Mercury 2는 세계 최초의 상용 Diffusion 추론 LLM으로 등장했습니다.

🔍 개인적 견해: Diffusion LLM은 AI 아키텍처의 패러다임 전환 중 하나입니다. Transformer가 RNN을 대체했듯, Diffusion이 Autoregressive를 일부 대체하는 시대가 올 수 있습니다. Mercury 2가 그 시작점입니다.

▲ 목차로 돌아가기

성능 수치 완전 해부 — 벤치마크 & 속도 비교

Mercury 2의 핵심 경쟁력은 숫자로 증명됩니다. 아래 표는 주요 벤치마크에서의 Mercury 2 성능과 경쟁 모델 비교를 정리한 것입니다.

⚡ 속도 비교 (토큰/초)

모델	생성 속도 (토큰/초)	Mercury 2 대비
Mercury 2	1,009 tok/s	—
Claude 4.5 Haiku	~200 tok/s	약 5배 느림
GPT 5 Mini	~180 tok/s	약 5.5배 느림
Gemini 3.1 Flash-Lite	~250 tok/s	약 4배 느림

🏆 주요 벤치마크 점수 (Mercury 2)

벤치마크	점수	측정 대상
GPQA	77.0%	대학원 수준 과학 추론
IFBench	69.8%	지시 수행 능력
Tau2	70.8%	에이전트 태스크 수행
SciCode	38.7%	과학 코딩 능력
HLE	15.5%	인류 최고 수준 시험
LCR	36.3%	장문 컨텍스트 추론

GPQA 77.0%는 Claude Sonnet 4.6, GPT 5 Mini와 경쟁 가능한 수준입니다. Mercury 2는 “품질을 버리고 속도만 얻은” 모델이 아니라, 속도와 품질을 동시에 확보한 모델입니다. 단, HLE(인류 최고 수준 시험) 점수 15.5%는 최고급 추론 모델인 Claude Opus 4.6이나 GPT-5.4 대비 낮습니다. 최고 난도 추론 작업보다는 반복·고속·에이전트 루프 환경에서 압도적인 선택지입니다.

📌 속도 최적화 모델 중 “추론 기능”을 지원하는 건 Mercury 2가 사실상 유일합니다. 기존 빠른 모델들(Haiku, Flash)은 추론 모드가 없거나 제한적입니다.

▲ 목차로 돌아가기

Mercury 2 실전 활용 시나리오 4가지

Mercury 2의 공식 발표 자료와 실사용자 후기를 기반으로, 이 모델이 가장 빛나는 4가지 시나리오를 정리합니다.

1AI 에이전트 루프 (Agentic Loops)

에이전트 워크플로우는 단일 요청이 아니라 수십~수백 번의 LLM 호출이 연쇄됩니다. 기존 모델을 쓰면 각 스텝의 지연이 그대로 쌓입니다. Mercury 2로 교체하면 루프 전체 시간이 극적으로 단축됩니다. 광고 최적화 플랫폼 Viant는 Mercury 2를 캠페인 실시간 최적화에 적용해 에이전트 처리 효율을 크게 개선했다고 밝혔습니다.

2실시간 코드 자동완성 & 편집

VS Code의 Copilot이나 Cursor처럼 코드 자동완성이 빠를수록 개발자 집중이 깨지지 않습니다. Mercury 2는 자동완성 제안이 “내 생각의 일부처럼 느껴질 정도로 빠르다”는 평가를 받습니다. 코드 에디터 Zed의 공동창업자 Max Brunsfeld는 이를 직접 언급했습니다.

3실시간 음성 AI 인터페이스

음성 AI의 핵심 난제는 자연스러운 응답 속도입니다. 인간의 발화 속도와 동기화되려면 극도로 낮은 레이턴시가 필요합니다. Mercury 2는 AI 아바타 서비스 Happyverse AI와 음성 에이전트 플랫폼 OpenCall에서 실시간 음성 대화 스택의 핵심으로 채택되었습니다.

4RAG 검색 & 멀티홉 검색 파이프라인

검색 증강 생성(RAG)에서는 검색→추출→요약의 지연이 연달아 쌓입니다. Mercury 2는 검색 루프에 추론 능력을 추가하면서도 응답 지연 예산을 초과하지 않습니다. 기업 검색 솔루션 SearchBlox는 Mercury 2를 통해 “모든 고객 데이터에 대한 1초 미만 AI 분석”을 실현했다고 밝혔습니다.

💡 제 판단: Mercury 2는 “ChatGPT 대신 쓰는 범용 AI”가 아닙니다. 속도가 경쟁력의 핵심인 프로덕션 환경, B2B SaaS, AI 에이전트 시스템에서 극적인 효과를 발휘하는 전문가용 인프라 모델입니다.

▲ 목차로 돌아가기

API 연동 방법 — 코드 한 줄로 교체 가능

Mercury 2의 가장 큰 실용적 장점 중 하나는 OpenAI API 완전 호환이라는 점입니다. 기존에 ChatGPT API나 Claude API를 쓰고 있다면, 코드를 전면 재작성할 필요가 없습니다. 베이스 URL과 모델 식별자만 교체하면 됩니다.

Python 예시 코드

from openai import OpenAI
client = OpenAI(
api_key="YOUR_INCEPTION_API_KEY",
base_url="https://api.inceptionlabs.ai/v1"
)
response = client.chat.completions.create(
model="mercury-2",
messages=[
{"role": "user", "content": "에이전트 루프를 최적화하는 방법을 알려줘"}
],
# 추론 강도 조절 (선택)
extra_body={"thinking": {"type": "enabled", "budget_tokens": 1024}}
)
print(response.choices[0].message.content)

핵심 연동 포인트

base_url을 https://api.inceptionlabs.ai/v1로 교체하고, model에 mercury-2를 지정하면 됩니다. API 키는 Inception Labs 공식 사이트에서 발급받을 수 있으며, OpenRouter를 통해서도 접근 가능합니다. 특히 추론 강도를 budget_tokens로 조절할 수 있다는 점이 독특한데, 토큰을 적게 배정하면 더 빠르게, 많이 배정하면 더 깊이 생각합니다.

⚙️ 128K 컨텍스트를 지원하므로 긴 문서 분석, 코드베이스 전체 입력 등의 작업도 문제없이 처리됩니다. 네이티브 툴 사용(Tool Use)과 스키마 정렬 JSON 출력도 기본 지원합니다.

▲ 목차로 돌아가기

가격 비교 — 경쟁 모델 대비 얼마나 저렴한가

Mercury 2의 가격은 입력 $0.25/1M 토큰, 출력 $0.75/1M 토큰입니다. 이 수치는 단순히 저렴한 게 아니라, 속도 대비 가격이 혁신적으로 낮다는 점에서 의미가 있습니다. 아래 표를 보면 그 위치가 명확해집니다.

모델	입력 ($/1M)	출력 ($/1M)	속도 (tok/s)	추론 기능
Mercury 2	$0.25	$0.75	1,009	✅
Claude 4.5 Haiku	$0.80	$4.00	~200	제한적
GPT 5 Mini	$0.40	$1.60	~180	❌
Gemini 3.1 Flash-Lite	$0.10	$0.40	~250	❌
Claude Sonnet 4.6	$3.00	$15.00	~100	✅

Gemini 3.1 Flash-Lite이 입력 기준으로는 더 저렴하지만, 추론 기능이 없고 속도도 Mercury 2의 25% 수준입니다. Claude Sonnet 4.6은 추론 기능이 있지만 입력 기준 12배, 출력 기준 20배 비쌉니다. 추론이 필요한 고속 반복 작업에서 Mercury 2는 가성비 지표상 독보적인 위치입니다.

💰 에이전트 루프에서 하루 100만 회 LLM 호출을 가정할 경우, Claude Sonnet 4.6 대비 Mercury 2로 교체하면 비용이 최대 80~90% 절감될 수 있습니다. 스타트업이나 1인 개발자에게는 게임 체인저입니다.

▲ 목차로 돌아가기

한계와 주의사항 — 솔직한 평가

Mercury 2를 무조건 극찬하는 글이 아닌, 실제로 쓸 때 알아야 할 한계를 솔직하게 짚겠습니다. 이게 이 글에서 가장 실용적인 섹션이 될 수 있습니다.

① 최고 난도 추론에서는 밀린다

HLE(Humanity’s Last Exam) 점수 15.5%는 Claude Opus 4.6(50%대), GPT-5.4 대비 크게 낮습니다. 의학 논문 분석, 수학 올림피아드, 복합 법률 추론 같은 최고 수준 작업은 여전히 Opus 또는 GPT-5.4가 적합합니다. Mercury 2는 “가장 똑똑한 AI”가 아니라 “가장 빠른 충분히 똑똑한 AI”입니다.

② 텍스트 전용, 멀티모달 미지원

현재 Mercury 2는 텍스트 입출력만 지원합니다. 이미지 분석, 오디오 처리, 비디오 이해가 필요한 작업에는 사용할 수 없습니다. 멀티모달이 필요하다면 Gemini 3.1 Pro나 GPT-5.2를 선택해야 합니다.

③ 생태계와 문서가 아직 얇다

OpenAI나 Anthropic에 비해 Inception Labs는 신생 스타트업입니다. 커뮤니티 규모, 한국어 공식 문서, 지원 채널이 아직 부족합니다. 프로덕션 도입 전에 충분한 평가(Eval) 과정을 거치는 것을 권장합니다.

④ 한국어 성능은 별도 검증 필요

공개된 벤치마크는 대부분 영어 기반입니다. 한국어 콘텐츠 생성, 한국어 문서 분석에서의 성능은 아직 공식 데이터가 없습니다. 한국어 중심 서비스에 Mercury 2를 적용할 경우 반드시 자체 평가를 해보시기 바랍니다.

⚠️ 결론적으로: Mercury 2는 “모든 것을 대체하는 만능 AI”가 아닙니다. 속도가 품질보다 중요한 특정 워크플로우에 최적화된 전문 도구입니다. 맥락에 맞게 선택하는 것이 핵심입니다.

▲ 목차로 돌아가기

Q&A — 자주 묻는 질문 5가지

Mercury 2는 무료로 사용할 수 있나요?

LLMBase 등 일부 플랫폼에서 무료 체험 채팅이 가능합니다. API 사용은 유료이며, 입력 토큰 $0.25/1M, 출력 토큰 $0.75/1M으로 과금됩니다. OpenRouter를 통해서도 접근할 수 있으며, OpenRouter의 무료 크레딧으로 초기 테스트를 할 수 있습니다. Inception Labs 공식 사이트(inceptionlabs.ai)에서 API 키를 발급받으면 됩니다.

기존 ChatGPT API 코드를 Mercury 2로 바꾸려면 얼마나 걸리나요?

OpenAI API 호환 방식이기 때문에 코드 수정이 최소화됩니다. Python 기준으로 base_url을 Inception Labs 엔드포인트로, model을 "mercury-2"로 변경하면 대부분의 경우 5분 이내에 전환이 가능합니다. 다만 추론(Thinking) 기능을 활용하려면 extra_body 파라미터를 추가해야 합니다.

Diffusion LLM과 기존 LLM을 함께 쓰는 게 맞나요?

네, 실제로 이것이 현실적인 전략입니다. 빠르고 반복적인 작업(에이전트 루프, 자동완성, RAG 검색)에는 Mercury 2를, 최고 품질의 추론이 필요한 작업(복잡한 분석, 창작 등)에는 Claude Opus 4.6 또는 GPT-5.4를 병행하는 구조가 효율적입니다. 모델을 상황에 맞게 라우팅하는 것이 비용과 품질 모두를 최적화하는 방법입니다.

Mercury 2의 128K 컨텍스트는 실제로 잘 활용되나요?

공식적으로 128K 토큰 컨텍스트를 지원하며, 긴 코드베이스나 대용량 문서 분석에 활용 가능합니다. 다만 컨텍스트가 길수록 추론 품질의 일관성은 면밀히 검증이 필요합니다. 현재까지 공개된 LCR(긴 컨텍스트 추론) 벤치마크 점수는 36.3%로, 최고 성능 모델 대비 낮습니다. 짧은~중간 길이 컨텍스트에서 최적 성능을 발휘합니다.

Mercury 2, 앞으로 계속 발전할 가능성이 있나요?

Inception Labs는 2025년 초 Mercury 1(코딩 특화 모델)을 출시한 뒤 2026년 2월 Mercury 2로 빠르게 발전했습니다. NVIDIA와의 공식 파트너십, Blackwell GPU 최적화, 그리고 기업 고객들의 실제 프로덕션 채택이 확인되고 있어 지속적인 개발 의지가 강합니다. Diffusion LLM 자체가 초기 단계이기 때문에, 향후 성능 개선 여지가 Autoregressive 방식보다 클 수 있습니다.

▲ 목차로 돌아가기

마치며 — AI 속도 혁명의 시작점에서

Mercury 2는 2026년 2월 기준 가장 과소평가된 AI 모델 중 하나입니다. 초당 1,009토큰, 기존 속도 최적화 모델 대비 5배 이상 빠른 생성 속도, 그러면서도 추론 기능 지원, 128K 컨텍스트, 파격적인 API 가격. 어느 하나만으로도 주목받을 조건인데, 이 모든 걸 동시에 갖췄습니다.

물론 한계는 있습니다. 최고 난도 추론에서는 아직 최상위 모델에 미치지 못하고, 멀티모달을 지원하지 않으며, 생태계도 아직 초기 단계입니다. 하지만 에이전트 루프, 실시간 음성 AI, 코드 자동완성, RAG 파이프라인처럼 속도가 사용자 경험을 결정하는 영역에서는 Mercury 2를 무시하기 어렵습니다.

개인적으로 더 흥미로운 건 Diffusion LLM이라는 아키텍처의 가능성입니다. 이미지 생성 AI가 Diffusion 방식으로 품질 혁명을 이룬 것처럼, 텍스트 생성에서도 이 방식이 새로운 가능성을 열 수 있습니다. Mercury 2는 그 역사의 첫 페이지입니다. 지금 이 순간이 그 시작점입니다.

▲ 목차로 돌아가기

본 게시글은 공개된 공식 발표 자료, 벤치마크 데이터, 사용자 후기를 기반으로 작성되었습니다. 벤치마크 수치는 Inception Labs 공식 발표 및 Artificial Analysis 기준이며, 실제 사용 환경에 따라 성능이 다를 수 있습니다. API 가격은 2026년 3월 14일 기준이며 변동될 수 있습니다.

AI API 가격, AI 추론모델, Diffusion LLM, Inception Labs, Mercury2

Mercury 2 완전정복: 초당 1,000토큰, 5배 빠른 추론 AI 지금 안 쓰면 손해

Mercury 2 완전정복: 초당 1,000토큰, 5배 빠른 추론 AI — 지금 안 쓰면 손해

Mercury 2가 뭔데 이렇게 난리인가