Mercury 2, 빠르다고요? 이 수치가 먼저입니다

Published on

in

Mercury 2, 빠르다고요? 이 수치가 먼저입니다

📅 2026.03.18 기준
Mercury 2 기준
Inception Labs 공식 자료

Mercury 2, 빠르다고요? 이 수치가 먼저입니다

초당 1,009토큰. 숫자만 보면 Claude의 11배, GPT의 14배입니다. 근데 막상 써보면 첫 응답이 나오기까지 12초 넘게 기다려야 합니다. 그리고 “저렴하다”는 말과 달리, 같은 작업에 토큰을 4배 더 쓰는 구조적 문제도 있습니다. 공식 수치를 직접 놓고 계산해봤습니다.

1,009
토큰/초 처리 속도
12.74초
첫 토큰 출력 대기 시간
$0.25
입력 1M 토큰 가격
4x
경쟁 모델 대비 출력 토큰 과다 생성

Mercury 2가 뭔지, 30초 안에 정리합니다

2026년 2월 24일, 미국 스타트업 Inception Labs가 Mercury 2를 공개했습니다. 한마디로 정의하면, “기존 LLM이 글자를 한 자씩 찍어내는 방식”을 완전히 버리고 “이미지 생성 AI의 구조를 텍스트에 이식한 최초의 추론 모델”입니다. (출처: Inception Labs 공식 보도자료, 2026.02.24) 이 방식을 Diffusion LLM(dLLM)이라 부르고, Mercury 2는 그 구조를 처음으로 추론 기능에 적용했습니다.

기존 GPT, Claude, Gemini는 모두 자기회귀(Autoregressive) 방식입니다. 이전 토큰을 보고 다음 토큰을 예측하며, 절대로 병렬 처리가 안 됩니다. 반면 Mercury 2는 출력 전체를 “노이즈 상태”에서 시작해서, 수십 번의 정제 과정을 통해 동시에 여러 토큰을 완성합니다. 타자로 한 글자씩 치는 방식 대신, 초안 전체를 한 번에 편집하는 방식입니다.

회사 배경도 무시하기 어렵습니다. 창업자 Stefano Ermon은 스탠퍼드 교수이자 현재 이미지·영상 생성 AI 전반에 쓰이는 확산 기법의 공동 발명자입니다. 투자자 명단에는 Microsoft, NVIDIA, Snowflake, Mayfield가 있으며 2025년 11월 5,000만 달러 투자를 받았습니다. (출처: Businesswire 공식 보도자료, 2026.02.24)

💡 공식 발표 내용과 실제 배포 현황을 함께 놓고 보니 이런 점이 눈에 띄었습니다 — Inception Labs가 “최초”라는 타이틀을 강조하는 반면, Google DeepMind도 Gemini Diffusion을 2025년 5월에 연구 발표했지만 아직 프로덕션 버전을 내놓지 않았습니다. dLLM 상용화 시장은 현재 Inception이 유일합니다.

▲ 목차로 돌아가기

초당 1,009토큰 — 이 숫자가 실제로 의미하는 것

Artificial Analysis 독립 벤치마크 기준, Mercury 2는 NVIDIA Blackwell GPU에서 1,009 토큰/초를 기록합니다. 같은 기준에서 Claude 4.5 Haiku는 약 89 토큰/초, GPT-5 Mini는 약 71 토큰/초입니다. (출처: Inception Labs 공식 보도자료 + Artificial Analysis 독립 검증, 2026.02.24)

이걸 실생활 단위로 바꾸면 이렇습니다. 평균 한국어 문장 1개가 약 30~50토큰이라고 할 때, Mercury 2는 초당 약 20~33문장을 출력합니다. Claude 4.5 Haiku는 초당 약 2~3문장 수준입니다. 에이전트 루프처럼 LLM 호출이 수십 번 반복되는 구조에서 이 속도 차이는 단순 계산이 아닌 실제 사용 가능성과 비용의 차이로 이어집니다.

모델 출력 속도 (토큰/초) Mercury 2 대비 TTFT (첫 토큰)
Mercury 2 1,009 기준 12.74초
Claude 4.5 Haiku ~89 약 11x 느림 ~0.5초
GPT-5 Mini ~71 약 14x 느림 ~0.3초
Gemini 3 Flash ~200 약 5x 느림 ~0.4초

(출처: Inception Labs 공식 보도자료 / Artificial Analysis 독립 검증, 2026.02.24~03.04 / TTFT는 Awesome Agents 분석 기준)

▲ 목차로 돌아가기

속도 1위인데, 응답 시작은 가장 느린 이유

여기서 많은 사람이 놓치는 게 있습니다. “초당 1,009토큰”은 토큰이 나오기 시작한 이후의 속도입니다. 첫 토큰이 출력되기까지 걸리는 시간, 즉 TTFT(Time to First Token)는 Artificial Analysis 기준 12.74초입니다. 이는 동급 모델 중 가장 높은 수치로 “상위권에 해당한다”고 Awesome Agents는 명시했습니다. (출처: Awesome Agents 독립 분석, 2026.02.26)

왜 그럴까요? Diffusion 방식이기 때문입니다. Mercury 2는 출력을 시작하기 전에 전체 응답 길이를 설정하고 노이즈 상태에서 정제 사이클을 돌립니다. 이 과정 자체가 배치 단위 계산이라 앞부분이 완성돼도 전부 처리되기 전까지는 스트리밍 출력이 시작되지 않습니다. 결과적으로 “기다림 없이 빠르게”가 아니라 “12초 기다렸다가 한꺼번에 쏟아지는” 경험이 됩니다.

💡 발표 자료에는 “1.7초 엔드투엔드 레이턴시”라는 수치도 있습니다. 이건 짧은 출력 길이 기준 측정치입니다. 출력이 길어질수록 TTFT도 늘어나는 구조여서, 실제 긴 응답이 필요한 작업에서는 12초 이상의 대기가 일반적입니다. “1.7초”와 “12.74초”는 서로 다른 조건의 수치임을 확인 필요합니다.

일반 챗봇 대화처럼 “질문 → 즉각 반응”이 중요한 환경에서는 이 12초가 치명적입니다. 반면 에이전트 파이프라인처럼 요청을 미리 쌓아두고 병렬 처리하는 구조에서는 이 문제가 상쇄됩니다. 용도를 잘못 짚으면 “가장 빠른 모델”이 오히려 가장 답답하게 느껴질 수 있습니다.

▲ 목차로 돌아가기

저렴하다고요? 직접 계산해봤습니다

Mercury 2의 공식 가격은 입력 $0.25/1M 토큰, 출력 $0.75/1M 토큰입니다. (출처: OpenRouter 공식 모델 페이지, 2026.03.04) 블렌드 기준(입력:출력 = 3:1 가정)으로 약 $0.38/1M입니다. Gemini 3 Flash $1.13, Claude 4.5 Haiku $2.00과 비교하면 압도적으로 저렴해 보입니다.

⚠️ 그런데 여기서 결정적인 함정이 있습니다. Artificial Analysis가 독립 벤치마크를 진행하면서 확인한 수치 하나 — Mercury 2는 동일한 테스트 세트에서 6,900만 출력 토큰을 사용했습니다. 같은 테스트에서 다른 모델의 평균은 1,700만 토큰이었습니다. 약 4배 더 많은 토큰을 출력한 것입니다. (출처: Awesome Agents 독립 분석, 2026.02.26)

이걸 비용으로 환산하면 다음과 같습니다. 어떤 작업에서 경쟁 모델이 4,000토큰을 출력한다면 Mercury 2는 약 16,000토큰을 출력합니다. 계산식은 이렇습니다:

경쟁 모델 출력 비용 예시 (Claude 4.5 Haiku 기준)
4,000 토큰 × $5.00/1M = $0.020

Mercury 2 실제 출력 비용 (4배 verbosity 반영)
16,000 토큰 × $0.75/1M = $0.012

→ Mercury 2가 여전히 저렴하지만, 원래 기대했던 “5배 이상 저렴”이 아닌 약 1.7배 저렴으로 좁혀집니다.

※ verbosity 수치는 벤치마크 기준이며 실 사용 환경에 따라 달라질 수 있습니다. 직접 대표 쿼리로 사전 측정을 권장합니다.

▲ 목차로 돌아가기

벤치마크, 좋은 데만 보면 안 됩니다

Inception Labs는 Mercury 2가 AIME 2025(수학 추론)에서 91.1점을 기록하며 Claude 4.5 Haiku(84점), Gemini 3 Flash(78점)를 앞질렀다고 발표했습니다. (출처: Inception Labs 공식 보도자료, 2026.02.24) 이것만 보면 상당히 인상적입니다.

근데 전체 그림은 다릅니다. Awesome Agents가 정리한 비교표를 보면 SciCode(과학 코딩)에서는 38.4점, TAU2(작업 자동화)에서는 52.9점으로 Gemini 3 Flash(각 51, 80)에 크게 뒤집니다. GPQA Diamond(전문 과학 추론)에서도 Mercury 2는 73.6점, Gemini 3 Flash는 90점입니다. (출처: Awesome Agents 독립 분석, 2026.02.26)

벤치마크 Mercury 2 Gemini 3 Flash Claude 4.5 Haiku
AIME 2025 (수학 추론) 91.1 ✅ 78 84
GPQA Diamond (전문 과학) 73.6 90 ✅ 67
SciCode (과학 코딩) 38.4 51 ✅ 43
TAU2 (작업 자동화) 52.9 80 ✅ 55
LiveCodeBench (코딩) 67.3 91 ✅ 62

Artificial Analysis Intelligence Index에서 Mercury 2의 종합 점수는 135개 모델 중 20위, 점수 33점입니다. “비슷한 가격대 추론 모델 중 평균 이상”이라는 평가입니다. 수학적 추론 능력은 탁월하지만, 과학 코딩·복잡한 작업 자동화에서는 Gemini 3 Flash 대비 20~27포인트 차이가 납니다.

💡 Inception 발표 자료와 외부 분석 리포트를 나란히 놓으니 이런 차이가 보였습니다 — 회사가 강조한 AIME 점수는 진짜지만, 발표 자료엔 Gemini 3 Flash가 우위인 GPQA, SciCode, TAU2 수치가 빠져 있었습니다. 모델 선택 전에 반드시 전체 벤치마크 표를 직접 확인해야 합니다.

▲ 목차로 돌아가기

이 모델이 진짜 유리한 상황은 딱 하나입니다

솔직히 말하면, Mercury 2가 확실히 유리한 상황은 하나입니다. “LLM 호출이 루프 안에 여러 번 들어가는 에이전트 파이프라인”입니다. Inception 공식 발표에서도 “에이전트 루프, 실시간 음성·검색, 코딩 자동완성”을 주력 사용처로 명시했습니다. (출처: Inception Labs 공식 보도자료, 2026.02.24) 이 세 가지 공통점은 첫 응답을 기다리는 인터랙티브 경험보다 대량의 토큰을 빠르게 처리하는 처리량이 중요하다는 점입니다.

반면 Mercury 2를 쓰면 안 되거나, 쓰기 전에 신중히 생각해야 할 상황도 있습니다. 첫째, 일반 챗봇 인터페이스입니다. TTFT 12.74초는 사용자가 바로 느끼는 느림입니다. 둘째, 세부 과학 코딩이나 복잡한 멀티스텝 에이전트에서는 Gemini 3 Flash 대비 SciCode 12.6점, TAU2 27점 차이가 실제 성능 열위로 이어집니다. 셋째, API만 지원되고 오픈 웨이트가 없어 자체 서버 배포가 불가능합니다. 나중에 Inception이 API를 중단하거나 가격을 올리면 스택 전체를 바꿔야 합니다.

추가로, 현재 Mercury 2에 대한 벤치마크의 상당 부분이 Inception 자체 평가라는 점도 염두에 둬야 합니다. Artificial Analysis 같은 독립 기관이 속도 수치를 검증한 것은 맞지만, 추론 품질 전반에 대한 광범위한 커뮤니티 검증은 2026년 3월 기준 아직 진행 중입니다. (출처: Awesome Agents, 2026.02.26 — “독립 벤치마크 확보 필요” 명시)

정리하자면, 지금 이 시점에서 Mercury 2는 “수학 추론이 집중된 고속 배치 처리 파이프라인”에는 최고 선택지 중 하나입니다. 그 이외 범용 작업, 특히 과학·복잡 코딩에서는 Gemini 3 Flash를 비교 대상으로 넣어야 합니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Mercury 2를 무료로 써볼 수 있나요?
Inception Labs 공식 플레이그라운드(chat.inceptionlabs.ai)에서 무료 테스트가 가능합니다. 다만 대용량 프로덕션 사용은 API 키 발급 후 유료로 전환됩니다. 플레이그라운드는 Lambda Labs 서버에서 호스팅되며 별도 가입 없이 접속됩니다.
Q2. 기존 ChatGPT API 코드를 그대로 쓸 수 있나요?
네, Mercury 2 API는 OpenAI API 호환 포맷을 지원합니다. (출처: Inception Labs 공식 모델 페이지, 2026.03) Base URL을 https://api.inceptionlabs.ai/v1로 바꾸고 모델명을 mercury-2로 지정하면 기존 코드 대부분을 그대로 사용할 수 있습니다. 다만 TTFT가 긴 편이라 타임아웃 설정은 조정이 필요합니다.
Q3. 환각(hallucination) 문제는 기존 LLM보다 낫나요?
Inception Labs는 “반복 정제 구조가 생성 중 오류 수정을 가능하게 한다”고 주장하지만, arXiv 논문(2025.09)에 따르면 dLLM도 autoregressive 모델과 마찬가지로 환각 문제를 피하지 못합니다. (출처: arXiv “Unveiling the Potential of Diffusion Large Language Model”, 2025.09.26) 현재 독립 기관의 환각 전문 벤치마크 결과는 공개되지 않아 확인 필요 상태입니다.
Q4. 한국어 성능은 어느 정도인가요?
공식 자료에 한국어 성능 지표는 포함되지 않았습니다. 벤치마크 전체가 영어 중심(AIME, GPQA, LiveCodeBench 등)이며 다국어 처리 성능에 대한 공식 수치는 현재(2026.03 기준) 확인 불가입니다. 한국어 중심 서비스라면 사전 테스트가 반드시 필요합니다.
Q5. Diffusion LLM이 미래 주류가 될까요?
아직은 판단하기 이릅니다. Google DeepMind가 Gemini Diffusion 연구를 발표했지만 2026년 3월 기준 프로덕션 버전은 출시하지 않았습니다. IREN 기술 블로그는 “자기회귀와 확산 기법의 하이브리드 모델이 다음 단계”라고 예측하지만 공식 로드맵은 없습니다. 현 시점에서 dLLM 상용화 생태계는 Inception 사실상 단독 운영 구조입니다. (출처: Awesome Agents, 2026.02.26)

▲ 목차로 돌아가기

마치며

Mercury 2는 분명히 의미 있는 모델입니다. 이미지 생성 AI가 수년에 걸쳐 검증한 확산 구조를 텍스트 추론에 처음으로 상용화한 것 자체가 기술적 성취입니다. 초당 1,009토큰이라는 수치는 거짓이 아니고, 독립 기관도 검증했습니다.

그런데 “속도 1위 = 최고 선택지”는 성립하지 않습니다. TTFT 12.74초는 대화형 인터페이스에서 치명적이고, verbosity 4배 문제는 실제 비용을 광고 대비 훨씬 높이고, 과학 코딩·작업 자동화 성능은 Gemini 3 Flash에 눈에 띄게 밀립니다. API 전용이라 오픈 웨이트가 없고, 벤치마크 대부분이 아직 자체 평가 수준에 머물러 있습니다.

개인적으로는 이 모델이 “에이전트 처리 루프 + 수학적 추론 중심 + 높은 처리량 필요”라는 조건을 모두 갖춘 팀에는 지금 당장 테스트할 가치가 충분합니다. 그 외의 범용 서비스라면 독립 벤치마크가 더 쌓일 때까지 평가를 보류하는 게 합리적인 판단이라고 봅니다.

▲ 목차로 돌아가기

📎 본 포스팅 참고 자료

  1. Inception Labs 공식 블로그 — Introducing Mercury (inceptionlabs.ai/blog/introducing-mercury)
  2. Businesswire 공식 보도자료 — Inception Launches Mercury 2 (businesswire.com)
  3. Awesome Agents 독립 분석 리포트 — Mercury 2 Deep Dive (awesomeagents.ai)
  4. OpenRouter — Mercury 2 공식 API 가격 페이지 (openrouter.ai/inception/mercury-2)
  5. arXiv — Unveiling the Potential of Diffusion LLM (2025.09.26) (arxiv.org)

본 포스팅은 2026.03.18 공식 발표 자료 및 독립 분석 리포트 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·가격이 변경될 수 있습니다. API 요금 및 벤치마크 수치는 공식 채널에서 최신 내용을 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기