2026.04.07 기준 / Mercury 2 기준
IT/AI

Mercury 2, 빠르다더니 첫 응답에서 느린 이유

초당 1,009토큰이라는 수치는 사실입니다. 그런데 그 숫자 뒤에는 아무도 잘 얘기하지 않는 구조적 한계가 있습니다. 실제 수치와 함께 짚어봤습니다.

1,009

토큰/초 (Blackwell GPU)

5~10×

기존 LLM 대비 처리 속도

$0.75

출력 1M 토큰당 (Claude Haiku 4.5의 1/4)

Mercury 2란 무엇인가 — 확산 LLM의 등장

2026년 2월 24일, Inception Labs가 Mercury 2를 공개했습니다. 창업자 Stefano Ermon은 스탠퍼드 AI 연구자로, 이미지 생성에 쓰이는 확산(diffusion) 기술의 공동 발명자입니다. Mercury 2는 그 기술을 언어 모델에 그대로 이식한 결과물입니다.

GPT, Claude, Gemini를 포함한 현재 모든 주요 LLM은 자기회귀(autoregressive) 방식으로 텍스트를 생성합니다. 토큰 하나를 만들고, 그 토큰을 입력 삼아 다음 토큰을 만드는 방식입니다. 500토큰짜리 응답이라면 모델이 500번 순차적으로 연산해야 합니다. GPU가 아무리 빨라도 이 순차 의존성은 피할 수 없습니다.

Mercury 2는 다른 길을 택했습니다. 이미지 생성 AI처럼 전체 출력 시퀀스를 한 번에 노이즈 상태에서 시작해서 반복적으로 정제하는 방식입니다. 출력의 모든 위치를 동시에 처리하기 때문에, 이론적으로 응답 길이에 무관하게 일정한 연산 횟수로 완성이 가능합니다. (출처: Inception Labs 공식 블로그, 2026.02.24)

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 속도 수치는 같은 조건을 전제하지 않으면 비교 자체가 무의미합니다. 이 점을 아래 섹션에서 구체적으로 풀겠습니다.

▲ 목차로 돌아가기

초당 1,009토큰, 이 숫자가 진짜인 이유

Inception Labs 공식 발표에 따르면, Mercury 2는 NVIDIA Blackwell GPU 기준 초당 1,009토큰을 생성합니다. 비교 대상인 Claude Haiku 4.5 Reasoning은 초당 약 89토큰, GPT-5 Mini는 약 71토큰입니다. 단순 수치만 놓으면 약 10~14배 차이입니다. (출처: BusinessWire 공식 보도자료, 2026.02.24)

이 속도가 가능한 구조적 이유는 분명합니다. Mercury 2는 5~10번의 ‘정제 단계(denoising step)’만으로 전체 응답을 완성합니다. 반면 자기회귀 모델은 500토큰 응답에 500번의 순차 연산이 필요합니다. GPU가 병렬 연산에 최적화되어 있다는 점을 감안하면, Mercury 2의 구조는 GPU 자원을 훨씬 효율적으로 씁니다.

모델	처리 속도 (tok/s)	출력 1M 토큰 가격	스트리밍
Mercury 2	약 890~1,009	$0.75	제한적
Claude Haiku 4.5	100~130	$3.00	지원
GPT-5.2 Mini	71~100	$0.60~1.20	지원
Gemini 3.1 Flash	120~160	가변	지원
Claude Opus 4.6	60~80	$25.00	지원

(출처: Artificial Analysis 독립 벤치마크 + Inception Labs 공식 발표 / 실제 API 환경에서는 서버 부하에 따라 다를 수 있음)

독립 평가 기관 Artificial Analysis의 측정에서는 890토큰/초로 집계됐고, “초당 890토큰은 비교 모델 평균의 102배 수준”이라고 표기했습니다. 공식 수치와 약간의 차이는 있지만, 오더 오브 매그니튜드(order of magnitude)가 다르다는 건 공통된 결론입니다. (출처: Artificial Analysis, Mercury 2 Model Card)

▲ 목차로 돌아가기

빠른데 왜 첫 응답은 더 느릴 수 있나

여기서 핵심 반전이 나옵니다. Mercury 2는 ‘전체 완성 시간’은 빠르지만, ‘첫 토큰 출력 시간(TTFT)’은 오히려 느립니다. 구조적으로 피할 수 없는 이유가 있습니다.

자기회귀 모델은 첫 번째 토큰을 거의 즉시 내보냅니다. 사용자가 질문을 보내자마자 텍스트가 흘러나오기 시작하는 이유입니다. 반면 Mercury 2는 전체 출력 시퀀스에 대한 정제 과정을 최소 5~10번 완료해야 어떤 텍스트든 출력할 수 있습니다. 500토큰짜리 응답이든 50토큰짜리 응답이든, 처음 번째 글자가 나오기까지 일정한 지연이 발생합니다.

⚠️ 실측 지연 비교 (2026.02 기준)

Mercury 2: 첫 응답까지 약 200~300ms (전체 완성 1.7초)
Claude Haiku 4.5: 첫 토큰 50~100ms 내외 (전체 완성 약 23.4초, 추론 포함 시)
GPT-4o mini: 첫 토큰 즉시 (토큰 단위 스트리밍)

(출처: memu.pro 분석, Inception Labs 공식 블로그, aitoolsreview.co.uk 2026.03.10)

채팅 UI처럼 ‘토큰이 흘러나오는 모습’을 보여주는 스트리밍 인터페이스에서 Mercury 2는 어색합니다. 완성된 응답이 한 번에 툭 나타나기 때문입니다. 응답 길이가 길수록 전체 시간에서 유리해지지만, 짧은 답변이나 채팅 맥락에서는 오히려 체감 속도가 더 느릴 수 있습니다.

공식 문서에서도 이 부분에 대한 해결책을 “연구 중”이라고만 표현하고 있습니다. 2026년 4월 현재 기준으로 스트리밍 지원은 정식 기능이 아닙니다.

▲ 목차로 돌아가기

추론 벤치마크 91.1인데 왜 복잡한 문제에서 막히나

공식 발표에서 Mercury 2의 AIME 2025 점수는 91.1입니다. GPQA는 73.6, LiveCodeBench는 67.3입니다. (출처: BusinessWire/Inception Labs 공식 보도자료, 2026.02.24) 숫자만 보면 꽤 강력해 보입니다.

그런데 이 벤치마크 숫자와 실제 ‘복잡한 다단계 추론’ 성능 사이에 간극이 있습니다. 이유는 구조에 있습니다. 자기회귀 모델은 앞 토큰이 뒤 토큰의 맥락이 되기 때문에, “먼저 생각하고 나서 결론을 낸다”는 chain-of-thought 방식이 자연스럽게 작동합니다. 토큰 순서 자체가 추론 흐름을 만들어주기 때문입니다.

💡 벤치마크 점수와 실사용 성능을 같이 놓고 보니 이런 패턴이 보였습니다 — AIME 같은 수학 벤치마크는 단일 답변 생성 능력을 측정하지만, 실제 복잡한 소프트웨어 엔지니어링처럼 여러 파일과 단계를 넘나드는 작업은 완전히 다른 능력을 요구합니다.

확산 모델은 모든 위치를 동시에 정제합니다. 중간 추론 단계를 ‘먼저 쓰고’ 그걸 바탕으로 ‘다음을 이어가는’ 구조가 없습니다. 결과적으로, 10단계 이상의 논리 사슬이 필요한 문제에서 Mercury 2는 패턴 매칭에 가까운 출력을 내놓는 경향이 있습니다. 독립 리뷰 사이트 aitoolsreview.co.uk가 정리한 비교표에 따르면, 다단계 추론 항목에서 Mercury 2는 Claude Opus 4.6 대비 “현저히 낮음(significantly below)” 등급을 받았습니다. (출처: aitoolsreview.co.uk, 2026.03.10)

SWE-Bench Verified(실제 소프트웨어 엔지니어링 작업) 기준으로는 Claude Sonnet 4.6 대비 격차가 크게 벌어집니다. 코드 자동완성처럼 ‘지역적으로 맞는 코드’를 빠르게 생성하는 건 강하지만, 여러 파일의 의존성을 추적하거나 수백 줄에 걸친 상태 변화를 다루는 작업에서는 한계가 분명합니다.

▲ 목차로 돌아가기

Mercury 2가 실제로 유리한 상황 vs 불리한 상황

솔직히 말하면, Mercury 2는 ‘만능 대체제’가 아닙니다. 특정 워크로드에서는 기존 LLM을 완전히 압도하고, 다른 워크로드에서는 오히려 맞지 않습니다. 판단 기준을 정리하면 이렇습니다.

✅ Mercury 2가 실제 유리한 상황

고용량 배치 처리: 계약서 1만 건 요약, 이메일 분류, 상품 설명 생성처럼 동일 패턴의 작업을 대량으로 돌릴 때입니다. 자기회귀 모델로 10시간 걸리던 작업이 1시간 내외로 줄어드는 효과를 실제 파트너사들이 보고했습니다. (출처: Inception Labs 공식 블로그, Skyvern CTO 인용)

코드 자동완성: 200토큰 이내의 짧은 코드 제안이 200ms 내외에 완성됩니다. 자기회귀 모델의 1.5~2초 대비 개발자 흐름이 끊기지 않는 수준입니다. Zed(코드 에디터) 공동창업자는 “제안이 내 생각의 일부처럼 느껴지는 속도”라고 표현했습니다. (출처: Inception Labs 공식 블로그)

에이전트 루프: 멀티스텝 AI 에이전트는 하나의 작업을 완성하기 위해 수십 번의 LLM 호출을 연결합니다. 각 호출의 지연이 누적되면 전체 처리 시간이 폭발적으로 늘어납니다. Mercury 2의 빠른 처리로 같은 시간에 더 많은 단계를 실행하거나, 더 많은 재시도로 결과 품질을 높일 수 있습니다.

❌ Mercury 2를 쓰면 안 되는 상황

채팅 인터페이스(스트리밍 필수 환경): 텍스트가 흘러나오는 UX를 기대하는 사용자에게 응답이 한 번에 뚝 나타나는 방식은 오히려 답답하게 느껴질 수 있습니다. 짧은 답변은 체감 속도가 더 느릴 수도 있습니다.

복잡한 수학·코딩 추론: 10단계 이상의 논리 사슬이 필요한 문제, 전체 코드베이스를 이해해야 하는 리팩토링, 복합 조건이 얽힌 법률·의료 판단에서는 Claude Opus 4.6이나 GPT-5.2가 훨씬 정확합니다.

긴 컨텍스트가 필요한 작업: Mercury 2의 컨텍스트 윈도우는 128K로, Claude Opus 4.6의 100만 토큰과 비교하면 상당한 제약입니다. 긴 문서 전체를 맥락으로 쥐고 분석하거나, 장시간 대화 히스토리를 유지해야 하는 경우에는 맞지 않습니다.

▲ 목차로 돌아가기

가격 구조로 보는 실제 도입 판단 기준

Mercury 2의 공식 가격은 입력 1M 토큰당 $0.25, 출력 1M 토큰당 $0.75입니다. (출처: Inception Labs 공식 발표, 2026.02.24 / puter.com developer docs) Claude Haiku 4.5 출력 가격이 $3.00 수준인 것과 비교하면 출력 기준으로 4배 저렴합니다.

실제 배치 처리 비용을 계산해보면 차이가 더 실감납니다. 500토큰짜리 문서 1만 건을 처리한다고 가정합니다.

📊 배치 처리 비용 비교 (문서 1만 건 × 500토큰 출력 기준)

Mercury 2: 5,000,000 토큰 × $0.75/1M = $3.75

Claude Haiku 4.5: 5,000,000 토큰 × $3.00/1M = $15.00

비용 차이: 약 4배 — 연간 반복 작업이라면 누적 절감 효과가 큽니다.

(출처: Inception Labs 공식 발표 가격 기준 / 서버 부하 및 플랫폼별로 실제 청구 금액은 다를 수 있음)

단, 이 계산에서 빠진 변수가 있습니다. Mercury 2는 현재 Groq 같은 LPU(언어 처리 전용 칩) 기반 인프라와도 경쟁해야 합니다. Groq에서 Llama 3.1 70B를 돌리면 초당 300~800토큰까지 도달하는 사례가 있습니다. Mercury 2의 아키텍처 우위가 진짜지만, 하드웨어 가속 기술 자체도 자기회귀 모델의 속도를 빠르게 끌어올리고 있다는 점은 간과하면 안 됩니다. (출처: aitoolsreview.co.uk, 2026.03.10)

현실적인 도입 전략은 이렇습니다. 빠른 속도와 저비용이 중요한 분류·요약·초안 작성 작업에는 Mercury 2를, 복잡한 추론이나 정확도가 핵심인 검토·판단 작업에는 프론티어 모델을 남겨두는 계층 구조입니다. 이 구조를 가져가는 팀이 비용과 성능 두 마리 토끼를 잡을 가능성이 높습니다.

▲ 목차로 돌아가기

Q&A

Q1. Mercury 2는 ChatGPT나 Claude 앱에서 쓸 수 있나요?

아닙니다. Mercury 2는 Inception Labs의 자체 API 포털(platform.inceptionlabs.ai)과 AWS Bedrock, Google Cloud Vertex AI를 통해 API로 제공됩니다. 일반 채팅 앱 형태는 아직 없습니다. OpenAI API 호환 방식을 지원하므로, 기존 GPT API를 쓰던 스택에서 엔드포인트 교체만으로 연결은 가능합니다.

Q2. 1,009토큰/초는 어떤 조건에서 측정된 건가요?

NVIDIA Blackwell GPU(최신 세대) 기준이고, Inception Labs 자체 인프라에서 측정한 수치입니다. 독립 기관 Artificial Analysis의 측정에서는 890토큰/초로 집계됐습니다. 실제 API 사용자는 서버 부하와 동시 요청 수에 따라 600~900 범위를 경험했다는 보고도 있습니다. 1,009는 이론적 최고치에 가까운 숫자로 보는 것이 정확합니다.

Q3. 한국어 처리 성능은 괜찮은가요?

공식 발표에서 한국어 특화 벤치마크는 별도 공개하지 않았습니다. 현재 공개된 벤치마크는 영어 기반입니다. 비영어 언어 처리에서의 성능은 Inception Labs가 공식 답변을 내놓지 않은 부분이라, 한국어 콘텐츠가 중심인 프로덕션에 바로 투입하기 전에 직접 평가를 거치는 것을 권합니다.

Q4. 스트리밍이 안 된다면 사용자 경험은 어떻게 처리하나요?

가장 현실적인 방법은 응답이 완성될 때까지 “타이핑 중” 인디케이터를 보여주다가, 완성된 전체 응답을 한 번에 표시하는 방식입니다. 긴 응답이라면 전체 완성 시간이 짧기 때문에 사용자가 오래 기다리지 않아도 됩니다. 단, 짧은 답변에서는 GPT-4o mini 같은 스트리밍 모델이 더 자연스러운 UX를 제공합니다.

Q5. 오픈소스 버전은 없나요?

Inception Labs는 소형 모델의 오픈웨이트(open-weight) 공개 계획을 언급했지만, 2026년 4월 기준으로 구체적인 일정은 공식적으로 발표되지 않았습니다. 현재는 API 전용입니다. 자체 서버 배포가 필요한 경우 엔터프라이즈 플랜을 통해 전용 GPU 배포 옵션을 문의할 수 있습니다.

▲ 목차로 돌아가기

마치며 — 속도 혁신, 그런데 다음은?

Mercury 2는 “LLM은 자기회귀 방식이어야 한다”는 고정관념을 실제로 깼습니다. 초당 1,000토큰이라는 수치는 마케팅이 아니라 구조에서 나온 결과입니다. 대규모 배치 처리, 코드 자동완성, 실시간 음성 에이전트처럼 지연에 민감한 영역에서 선택지가 하나 더 생겼습니다.

단, 속도가 전부가 아니라는 것도 직접 확인했습니다. 첫 토큰 지연이 자기회귀 모델보다 길고, 스트리밍이 안 되고, 다단계 추론에서는 프론티어 모델에 뚜렷하게 밀립니다. 특히 한국어 대상 비즈니스라면 벤치마크 데이터가 부족한 상태라 사전 검증이 필수입니다.

가장 현실적인 접근은 “Mercury 2로 전부 대체”가 아니라 “작업 유형별로 나누는 것”입니다. 빠른 속도와 저비용이 필요한 반복 작업에 Mercury 2를 넣고, 추론과 정확도가 중요한 작업은 기존 프론티어 모델에 남겨두는 구조입니다. 그 선을 어디서 긋느냐가 실제 도입 비용과 품질 모두에 영향을 줍니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 모든 수치는 2026.04.07 기준이며, Mercury 2는 현재도 활발히 업데이트 중인 서비스입니다. 최신 정보는 Inception Labs 공식 사이트에서 확인하시기 바랍니다.

Mercury 2, 빠르다더니 첫 응답에서 느린 이유

Mercury 2란 무엇인가 — 확산 LLM의 등장

초당 1,009토큰, 이 숫자가 진짜인 이유

빠른데 왜 첫 응답은 더 느릴 수 있나

추론 벤치마크 91.1인데 왜 복잡한 문제에서 막히나