Mercury 2 속도, 1,000 토큰이 1초에 나옵니다

Published on

in

Mercury 2 속도, 1,000 토큰이 1초에 나옵니다

2026.02.24 공식 출시 기준 / Mercury 2 (Inception Labs)

Mercury 2 속도, 1,000 토큰이 1초에 나옵니다

2026년 2월 24일, Inception Labs가 Mercury 2를 공개했습니다. OpenAI도 Google도 Anthropic도 아닌 곳에서 나온 이 모델이 업계를 뒤흔든 이유는 단 하나 — 초당 1,009 토큰이라는 수치 때문입니다. GPT-5.2 Mini의 71 토큰/초, Claude 4.5 Haiku의 89 토큰/초와 비교하면 무려 14배, 11배 차이입니다. 그런데 이 속도가 항상 유리하게 작동하는 건 아닙니다.

1,009
토큰/초 (공식)
$0.75
출력 토큰 1M당
91.1
AIME 2025 점수
1.7초
End-to-End 지연

이게 왜 다른 건지 — Diffusion이라는 접근법

GPT, Claude, Gemini는 구조가 같습니다. 토큰 하나를 만들고, 그 다음 토큰을 만들고, 또 다음 토큰을 만드는 방식입니다. 이걸 자기회귀(Autoregressive) 생성이라고 하는데, 타자기처럼 왼쪽에서 오른쪽으로 한 글자씩 찍어가는 구조입니다. 속도의 상한이 이 순차 구조에서 결정됩니다.

Mercury 2는 다릅니다. 이미지 생성 AI(Stable Diffusion 같은 모델)가 노이즈에서 이미지를 점점 다듬어 나가는 방식을 텍스트에 적용했습니다. 처음에 대충 초안을 전체적으로 만들어 두고, 여러 번의 정제 과정을 거쳐 완성합니다. 토큰을 한 개씩 생성하는 게 아니라 전체 응답을 동시에 다듬는 방식입니다. Inception Labs 공식 블로그는 이를 “한 단어씩 쓰는 타자기가 아닌, 초안 전체를 한 번에 교정하는 편집자”에 비유했습니다. (출처: Inception Labs 공식 블로그, introducing-mercury-2, 2026.02.24)

💡 공식 발표문과 구조적 설명을 같이 놓고 보면 이런 차이가 보입니다 — 기존 모델의 속도 최적화(전문 칩, 경량화)는 결국 같은 순차 루프를 더 빠르게 돌리는 것입니다. Mercury 2는 루프 자체를 없앴습니다. 이 차이가 5배 속도 격차의 근원입니다.

▲ 목차로 돌아가기

1,009 토큰/초, 수치로 직접 따져봤습니다

Inception Labs의 공식 수치는 NVIDIA Blackwell GPU 기준 1,009 토큰/초입니다. End-to-End 지연시간은 1.7초. 같은 조건에서 Gemini 3 Flash는 14.4초, Claude Haiku 4.5(추론 모드)는 23.4초입니다. (출처: memu.pro, inception-mercury-2-diffusion-memory, 2026.02.25 — Inception Labs 공식 수치 인용) 이 수치가 의미하는 바는 하나의 추론 단계에서 Claude Haiku보다 약 13.7배 빠르다는 뜻이고, 에이전트 루프처럼 추론이 10~20번 반복되는 상황에서는 이 차이가 그대로 누적됩니다.

▲ 속도 최적화 모델 3종 비교 (공식 수치 기준, 2026.02 기준)
모델 출력 속도 E2E 지연 출력 토큰 가격
Mercury 2 1,009 tok/s 1.7초 $0.75/M
GPT-5.2 Mini ~71 tok/s $2.00/M
Claude 4.5 Haiku ~89 tok/s 23.4초 (추론) $5.00/M
Gemini 3 Flash 14.4초

(출처: Inception Labs 공식 보도자료, BusinessWire, 2026.02.24 / memu.pro 수치 정리)

에이전트 루프 10단계를 가정하면 Mercury 2는 17초, Claude 4.5 Haiku(추론)는 234초가 걸립니다. 같은 작업에 4분과 17초 — 실사용에서 이 차이는 시스템 설계 자체를 바꿉니다.

▲ 목차로 돌아가기

GPT-5 mini보다 싸다고요? 이 조건에서만 맞습니다

가격표만 보면 Mercury 2와 GPT-5.2 Mini는 입력 토큰 가격이 동일합니다 — 둘 다 $0.25/1M 토큰. 차이는 출력 토큰에서 납니다. Mercury 2는 $0.75/M, GPT-5.2 Mini는 $2.00/M. 출력이 많은 작업일수록 Mercury 2가 저렴합니다.

실제 시나리오를 계산해 보겠습니다. 하루 1M 캐시 입력 + 1M 신규 입력 + 1M 출력 구조(요약, 분석, 계획 생성 등)라면:

GPT-5.2 Mini 일일 비용:
캐시: 1M × $0.025 = $0.025
입력: 1M × $0.25 = $0.25
출력: 1M × $2.00 = $2.00
= $2.275/일

Mercury 2 일일 비용:
캐시: 1M × $0.025 = $0.025
입력: 1M × $0.25 = $0.25
출력: 1M × $0.75 = $0.75
= $1.025/일

같은 작업량에서 Mercury 2가 약 55% 저렴합니다. 월 단위로 환산하면 약 $37.5 절감 — 수백 개 에이전트를 운영하는 기업이라면 이 차이가 수천 달러로 커집니다. (출처: The Neuron, OpenClaw Fast Reasoning Model Comparison, 2026.02.24)

단, GPT-5.2 Mini가 유리한 경우가 하나 있습니다. 긴 시스템 프롬프트를 반복 캐싱하면서 출력 토큰이 아주 적은 경우(분류, 검증, 짧은 판정)입니다. 이 구조에서는 캐시 재사용율이 올라갈수록 GPT-5.2 Mini의 캐시 가격 이점이 사라지고, 오히려 Mercury 2가 더 저렴해집니다.

▲ 목차로 돌아가기

속도가 빠른데 왜 이 부분이 걸릴까요

Mercury 2가 초당 1,000 토큰을 만들어낸다는 건 사실입니다. 그런데 이 속도가 어디서 유리하고 어디서 함정이 되는지, 발표 이후 커뮤니티에서 공통으로 제기된 지점이 있습니다.

첫째, 세션 간 컨텍스트가 초기화됩니다. Mercury 2는 128K 컨텍스트 내에서는 문맥을 유지하지만, 세션이 끊기면 대화 기억이 완전히 사라집니다. 이건 자기회귀 모델도 마찬가지지만, Mercury 2는 특히 음성 에이전트나 실시간 코딩 도구처럼 “빠른 응답 + 장기 기억”이 함께 필요한 영역에 마케팅이 집중되어 있어서 오해가 생기기 쉽습니다. 빠르게 응답하지만, 다음 세션에서는 처음부터 다시 시작합니다. (출처: memu.pro, Inception Mercury 2 Is 5x Faster Than Any Speed-Optimized LLM, 2026.02.25)

둘째, 오픈 도메인 질의에서 환각(Hallucination) 발생이 확인됩니다. gnoppix.org 포럼에 인용된 분석에 따르면 “오픈 도메인 생성에서 간헐적 환각이 발생한다”는 점이 현재 Diffusion LLM의 알려진 한계로 명시됩니다. Diffusion 방식은 전체 응답을 동시에 정제하기 때문에, 문맥 의존도가 높은 긴 답변에서 일관성이 흔들릴 수 있습니다. (출처: gnoppix.org forum, Inception launches Mercury 2, 2026.02.24)

💡 발표된 수치와 실제 배포 사례를 교차해서 보니 이런 패턴이 나옵니다 — Mercury 2는 “1회성 고속 처리”에 가장 잘 맞습니다. 단일 요청이 반복되는 RAG 파이프라인, 코드 자동완성, 음성 스트리밍처럼 각 호출이 독립적인 곳에서 진가를 발휘합니다. 반면 장기 기억이 누적되어야 하는 고객 서비스 챗봇이나 개인화 에이전트에는 별도 메모리 레이어가 필수입니다.

▲ 목차로 돌아가기

추론 점수가 GPT-5 mini의 두 배 — 이건 예상 밖이었습니다

“속도가 빠른 모델은 품질을 희생한 경량 모델”이라는 게 지금까지의 통념이었습니다. Mercury 2의 벤치마크는 그 통념을 정면으로 깨뜨립니다.

▲ 품질 벤치마크 비교 (2026.02 기준, The Neuron 데이터 기반)
벤치마크 Mercury 2 GPT-5.2 Mini Claude 4.5 Haiku
AIME 2025 91.1 48 84
GPQA Diamond 74 80 67
LCB (코딩) 67 69 62
IFBench 71 71 54

(출처: The Neuron, OpenClaw Fast Reasoning Model Comparison, 2026.02.24)

AIME 2025에서 Mercury 2는 91.1점, GPT-5.2 Mini는 48점입니다. 이 수학 추론 벤치마크에서 Mercury 2가 GPT-5.2 Mini의 거의 두 배 점수를 받았다는 건, “싸고 빠른 모델은 추론 능력이 낮다”는 공식이 더 이상 유효하지 않다는 신호입니다.

다만 GPQA Diamond(과학 전문 지식 질의)에서는 GPT-5.2 Mini가 80점, Mercury 2가 74점으로 역전됩니다. 수학·코딩처럼 구조가 명확한 도메인에서는 Mercury 2가 강하고, 복잡한 사실 관계 추론에서는 아직 GPT-5.2 Mini가 앞선다고 볼 수 있습니다.

▲ 목차로 돌아가기

결국 어떤 상황에 맞는 모델인가

Inception Labs의 공식 발표와 실제 기업 도입 사례, 커뮤니티 검증을 종합하면 Mercury 2가 진짜로 빛나는 구간이 있고, 그렇지 않은 구간이 있습니다.

✅ 이 상황에 맞습니다

  • 에이전트 루프 (10~50단계 반복 추론)
  • 실시간 음성 어시스턴트 (응답 지연 민감)
  • 코드 자동완성 / 즉각 편집 제안
  • RAG 파이프라인 (독립 요청 반복)
  • 대용량 출력 생성 (요약, 분석 리포트)

⚠️ 이 상황은 확인 필요

  • 세션 간 기억 누적이 필요한 챗봇
  • 복잡한 사실 관계 추론 (GPQA 기준 GPT-5 Mini 열위)
  • 오픈 도메인 장문 생성 (환각 가능성 있음)
  • Claude 생태계 통합 필요 시 (Haiku 선택)

Mercury 2는 OpenAI API 호환 방식으로 제공되어 기존 OpenAI 기반 코드에 모델명만 교체하면 바로 테스트할 수 있습니다. 스택 전환 비용이 낮은 편입니다. 솔직히 말하면, 지금 GPT-5.2 Mini를 에이전트 루프에 쓰고 있다면 한 번쯤 Mercury 2로 교체 테스트를 해볼 이유는 충분합니다.

▲ 목차로 돌아가기

자주 나오는 질문들

Q1. Mercury 2의 초당 1,009 토큰이 어떤 GPU 기준인가요?
Inception Labs 공식 발표 기준으로 NVIDIA Blackwell GPU 환경에서 측정한 수치입니다. 같은 조건에서 Artificial Analysis의 독립 벤치마크도 약 1,200 tok/sec로 공식 수치를 상회하는 결과를 기록했습니다. (출처: X(Twitter) @volokuleshov 인용, 2026.02.24) 다만 소비자용 GPU나 공유 클라우드 환경에서는 수치가 달라질 수 있으며, 이 부분은 확인 필요입니다.
Q2. 한국어 생성 품질은 어떤가요?
Inception Labs 공식 발표에 한국어 특화 벤치마크는 포함되어 있지 않습니다. 현재까지 공개된 벤치마크(AIME, GPQA, LCB, IFBench)는 영어 기준이며, 한국어 성능은 확인 필요 상태입니다. 실사용 전 한국어 태스크로 직접 테스트를 권장합니다.
Q3. Claude나 GPT 코드베이스와 호환되나요?
Mercury 2는 OpenAI API 호환 방식으로 제공됩니다. 기존 OpenAI SDK 기반 코드에서 모델명과 API 엔드포인트만 변경하면 연동됩니다. Claude API 기반 코드는 일부 수정이 필요합니다. (출처: Inception Labs 공식 블로그, 2026.02.24)
Q4. Diffusion 방식이라 출력이 이상하게 나오는 경우가 있나요?
오픈 도메인 장문 생성에서 간헐적 환각이 보고됩니다. Diffusion LLM의 알려진 한계로, 병렬 정제 과정에서 문맥 일관성이 낮아지는 경우가 있습니다. 구조화된 출력(JSON, 코드, 수학 풀이)에서는 이 문제가 적게 나타납니다. (출처: gnoppix.org forum, 2026.02.24)
Q5. 개인 개발자도 지금 쓸 수 있나요?
2026년 2월 24일부터 Inception Labs API를 통해 공개 접근이 가능합니다. 기업 평가 목적이라면 Inception Labs 측과 별도 협의가 가능하며, 개인 개발자는 API 키 발급 후 바로 테스트할 수 있습니다. 가격은 $0.25/M 입력, $0.75/M 출력입니다. (출처: Inception Labs 공식 블로그, 2026.02.24)

▲ 목차로 돌아가기

마치며

Mercury 2는 분명히 달라진 모델입니다. 초당 1,009 토큰이라는 수치는 마케팅 용어가 아니라 공식 벤치마크에서 확인된 수치이고, 가격도 Claude 4.5 Haiku 출력 기준 대비 6.6배 저렴합니다. AIME 2025에서 91.1점이면 “빠르지만 성능이 낮다”는 편견을 단번에 무너뜨립니다.

그런데 이게 모든 상황에 맞는 선택은 아닙니다. 세션 간 기억이 필요한 서비스, 복잡한 사실 관계 추론, 오픈 도메인 장문 생성에서는 아직 검증이 필요한 부분이 있습니다. 속도와 비용 최적화가 핵심인 에이전트 루프, RAG 파이프라인, 실시간 음성 인터페이스에서는 지금 당장 테스트해볼 가치가 충분합니다.

OpenAI SDK 호환이라 전환 비용이 낮습니다. 테스트 자체가 어렵지 않으니, 현재 속도나 비용이 병목인 워크플로우가 있다면 한 번 직접 확인해 보는 게 가장 빠른 답입니다.

▲ 목차로 돌아가기

📌 본 포스팅 참고 자료

  1. Inception Labs 공식 블로그 — Introducing Mercury 2 (2026.02.24)
  2. BusinessWire 공식 보도자료 — Inception Launches Mercury 2 (2026.02.24)
  3. The Neuron — OpenClaw Fast Reasoning Model Comparison (2026.02.24)
  4. memu.pro — Inception Mercury 2 Is 5x Faster (2026.02.25)
  5. gnoppix.org — Mercury 2 한계 분석 (2026.02.24)

※ 본 포스팅은 2026년 3월 18일 기준으로 작성되었습니다. Inception Labs Mercury 2의 서비스 정책, UI, 기능, 가격은 출시사의 결정에 따라 언제든지 변경될 수 있습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있으니, 최신 정보는 Inception Labs 공식 홈페이지에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기