Mercury 2 속도: “빠르면 좋다”만 믿다 손해 보는 진짜 이유

magister

Published on

2026년 3월 15일

IT/AI

2026.02.24 공식 출시
Inception Labs Mercury 2 기준

Mercury 2 속도: “빠르면 좋다”만 믿다
손해 보는 진짜 이유

초당 1,009 토큰이라는 수치만 보고 바로 프로덕션에 투입했다가, 비용이 2배로 뛰고 응답이 더 느려지는 팀들이 생기고 있습니다. 공식 벤치마크와 실사용 데이터로 그 이유를 짚어드립니다.

1,009

토큰/초 (NVIDIA Blackwell)

기존 최적화 LLM 대비 속도

$0.75

/1M 출력 토큰

Mercury 2가 도대체 뭔데 이렇게 화제인가

2026년 2월 24일, 팔로알토의 스타트업 Inception Labs가 Mercury 2를 공식 출시했습니다. 한 줄로 요약하면, GPT·Claude·Gemini가 공통으로 사용하는 “한 토큰씩 순서대로 생성하는 방식”을 완전히 버리고, 이미지 생성 AI에서 써온 확산(Diffusion) 기술을 언어 모델에 적용한 첫 상용 추론 모델입니다. Inception은 스탠퍼드·UCLA·코넬 연구진이 공동 창업했으며, 확산 모델의 핵심 원천 기술 특허를 보유하고 있습니다.

투자사 면면만 봐도 왜 주목받는지 알 수 있습니다. Menlo Ventures, Mayfield, 그리고 Microsoft M12·Databricks·Snowflake Ventures가 이름을 올리고 있으며, 개인 투자자로는 Andrew Ng과 Andrej Karpathy가 참여했습니다. Karpathy는 Mercury 2 출시 직후인 3월 11일, 이 모델의 속도 철학에서 영감을 받아 ‘Auto Research’ 프로젝트를 GitHub에 공개하기도 했습니다.

핵심 스펙만 먼저 확인합니다. NVIDIA Blackwell GPU 기준 초당 1,009 토큰, 입력 $0.25/1M 토큰, 출력 $0.75/1M 토큰, 컨텍스트 창 128K. 네이티브 도구 호출·JSON 출력 지원, OpenAI API 완전 호환(기존 스택 재작성 불필요). 공식 발표 즉시 API로 제공됩니다.
(출처: Inception Labs 공식 블로그, 2026.02.24)

▲ 목차로 돌아가기

왜 기존 GPT·Claude는 근본적으로 느릴 수밖에 없는가

현재 세상에 존재하는 거의 모든 LLM은 오토리그레시브(Autoregressive) 방식입니다. 쉽게 말해, “나는 오늘”이라는 답변을 낼 때 “나” → “는” → “오늘” 순서로 딱 한 토큰씩 찍어냅니다. 1,000 토큰짜리 답변을 생성하려면 1,000번의 연산 단계가 필요합니다. 아무리 빠른 GPU를 써도, 아무리 모델을 경량화해도, 이 직렬 구조라는 천장은 극복이 안 됩니다.

Mercury 2는 다른 길을 선택했습니다. 이미지 생성 AI가 처음엔 흐릿한 전체 그림을 그리고 점점 선명하게 다듬어 나가는 것처럼, 먼저 전체 출력의 거친 초안을 병렬로 만들고, 이후 소수의 ‘노이즈 제거(denoising)’ 단계를 거치며 품질을 올립니다. 이 방식은 특정 토큰 위치에 얽매이지 않고 전체 시퀀스를 동시에 수정할 수 있어, 출력 길이가 길어져도 속도가 유지됩니다.

비유하자면, 오토리그레시브 모델이 ‘타이피스트’라면 Mercury 2는 ‘편집자’입니다. 타이피스트는 첫 글자부터 마지막 글자까지 순서대로 쳐야 하지만, 편집자는 초안 전체를 한 번에 보고 동시에 여러 곳을 고칩니다. 이 차이가 초당 1,000 토큰이라는 숫자의 근원입니다.

▲ 목차로 돌아가기

공식 벤치마크로 보는 실제 속도 — 숫자가 말해주는 것

BusinessWire 공식 보도자료와 Artificial Analysis의 독립 벤치마크를 교차하면 다음 수치가 나옵니다.
(출처: BusinessWire, 2026.02.24 / Artificial Analysis, 2026.02.24)

표 1. 주요 속도 최적화 LLM 처리량 비교 (2026.02 기준)
모델	토큰/초	출력 비용 ($/1M)	AIME 2025
Mercury 2	~1,009	$0.75	91.1
Claude 4.5 Haiku (추론)	~89	$1.25	비슷한 수준
GPT-5 Mini (추론)	~71	$1.10	비슷한 수준

💡 이 분석은 공식 BusinessWire 보도자료와 Artificial Analysis 독립 벤치마크를 교차 확인한 결과입니다.
위 수치가 독자에게 의미하는 것: Mercury 2는 Claude 4.5 Haiku 대비 약 11배 빠르면서도 비용은 약 40% 저렴하고, 품질은 동등한 수준입니다. 단순히 빠른 모델이 아니라, 같은 돈으로 더 많은 추론 루프를 돌릴 수 있다는 의미입니다.

다른 벤치마크도 확인합니다. GPQA 73.6, IFBench 71.3, LiveCodeBench 67.3, SciCode 38.4, Tau2 52.9. 코딩·과학 추론에서 프론티어 최상위 모델(GPT-5.4, Claude Opus 4.6 수준)보다는 낮지만, ‘두 번째 티어’ 속도 최적화 모델들과는 대등한 성능입니다.
(출처: Inception Labs 공식 발표, 2026.02.24)

▲ 목차로 돌아가기

잠깐, 이게 사실입니다 — “빠른 모델이 스마트한 모델보다 에이전트에서 앞선다”

많은 분들이 오해하는 부분이 있습니다. “Mercury 2가 GPT-5.4나 Claude Opus보다 품질이 낮으니 프론티어 작업엔 못 쓴다”는 생각입니다. 이게 단일 프롬프트 시나리오에선 맞습니다. 그러나 에이전트 루프 시나리오에선 완전히 다른 계산이 나옵니다.

🔢 직접 계산해보세요

시나리오: 1분 안에 코딩 에이전트 루프를 최대한 많이 돌린다고 가정.

• 프론티어 SOTA 모델 (회당 약 12초) → 약 5회 반복, 회당 65% 개선

• Mercury 2 (회당 약 1.2초) → 약 50회 반복, 회당 20% 개선 가정

SOTA 최종 점수 = 1 − (1 − 0.65)^5 ≈ 99.5%
Mercury 2 최종 점수 = 1 − (1 − 0.20)^50 ≈ 99.99%

→ 해석: 회당 개선율이 20%만 되어도, 50번 반복한 Mercury 2가 5번 반복한 SOTA 모델을 앞섭니다. 이 수식은 독자 여러분이 직접 엑셀이나 파이썬으로 검증 가능합니다.
(출처: ajfisher.me 분석 모델, 2026.02.26 / Inception Labs 공식 throughput 수치 기반)

Skyvern의 CTO Suchintan Singh은 실제 제품 환경에서 “Mercury 2가 GPT-5.2 대비 최소 2배 빠르다”고 공개했습니다. 이는 단순 토큰 속도가 아니라 전체 워크플로우 완료 시간 기준의 평가입니다. 속도의 이점이 품질의 차이를 충분히 상쇄하고도 남는다는 것이 실제 프로덕션 환경에서 입증되고 있습니다.
(출처: Inception Labs 공식 블로그 파트너 증언, 2026.02.24)

▲ 목차로 돌아가기

실제로 써보면 당황하는 이유 — 확산 단계 함정

Mercury 2의 가장 독특한 점은 ‘확산 단계(diffusion steps)’를 개발자가 직접 조절할 수 있다는 것입니다. 단계를 줄이면 더 빠르고, 늘리면 더 정교해집니다. 마치 이미지 생성 AI에서 스텝 수를 조절하는 것처럼요. 그런데 이게 실전에서 생각보다 훨씬 까다롭습니다.

⚠️ 실제로 발생하는 3가지 함정

① 스텝을 너무 줄이면 환각이 증가합니다. 확산 단계가 부족하면 초안 품질이 그대로 출력에 반영될 수 있습니다. ‘빠르다’는 이점만 보고 스텝을 최소화했다가 오류율이 급등하는 팀들이 실제로 보고되고 있습니다.

② 스텝을 너무 늘리면 SOTA 모델보다 느려집니다. 확산 단계를 과도하게 늘리면 병렬 처리의 이점이 사라지고, 오히려 오토리그레시브 모델과 비슷하거나 더 느린 전체 처리 시간이 나올 수 있습니다.

③ 비용 계산이 달라집니다. 확산 단계가 늘어나면 내부 연산량이 증가하고, 이는 실제 API 비용 구조에서 예상보다 높은 청구로 이어질 수 있습니다. 토큰 단가 $0.75/1M이 기본이지만, 깊은 에이전트 체인에서 컨텍스트 길이까지 늘어나면 비용은 곱셈으로 불어납니다.

Inception Labs 공식 문서는 “프로덕션 배포 전 반드시 실제 트래픽을 시뮬레이션하는 부하 테스트를 수행하라”고 명시합니다. 장난감 프롬프트로 측정한 속도와 실제 동시 접속 환경의 속도는 다릅니다.

✅ 배포 전 반드시 확인할 3단계 체크리스트

1. 실제 워크로드 기준 diffusion steps 최적값 측정 (단순 프롬프트 X, 실운영 패턴 O)

2. 동시 요청 수 증가 시 p95 레이턴시 변화 확인 (단일 사용자 테스트 결과만 믿지 말 것)

3. 스키마 출력 에지케이스 검증 (JSON 출력이 실제 계약 스키마와 100% 맞는지 확인)

▲ 목차로 돌아가기

속도가 빨라질수록 더 중요해지는 것 (아무도 안 말해준 내용)

Mercury 2가 루프를 10배 빠르게 돌릴 수 있다면, 이제 가장 느린 부분은 모델이 아니라 “검증(verification)”입니다. 이것이 이 모델의 진짜 함의입니다.

💡 공식 throughput 수치와 실사용 데이터를 교차 분석한 내용입니다.

기존 에이전트 루프에서 검증 시간은 전체 사이클의 약 3~5% 수준이었습니다. 모델 호출이 15~20초였으니까요. 그런데 Mercury 2로 사이클이 1~2초로 줄어들면, 검증이 전체 사이클의 30~50%를 차지하게 됩니다. 즉, 이 모델을 제대로 활용하려면 “빠른 모델 선택”이 아니라 “빠른 검증 파이프라인 구축”이 핵심 과제가 됩니다.
(출처: ajfisher.me 분석 글, 2026.02.26)

이는 단순히 “좋은 모델 쓰면 다 된다”는 기존 통념을 정면으로 뒤집습니다. Mercury 2 도입이 가장 효과적인 팀은 이미 빠른 단위 테스트·정적 분석·스키마 검증 파이프라인을 갖춘 팀입니다. 반대로 검증이 느리거나 수동인 팀은 Mercury 2를 도입해도 전체 사이클 단축 효과가 크지 않습니다.

Artificial Analysis 공식 데이터 기준으로, Mercury 2는 Intelligence Index에서 매우 장황한(verbose) 출력을 내는 특성도 확인됐습니다. 평균 모델이 약 2,000만 토큰을 생성할 때 Mercury 2는 6,900만 토큰을 생성했습니다. 이는 출력 토큰 단가 $0.75/1M 기준으로 비용이 예상보다 높아질 수 있음을 의미합니다. 출력 길이 제어 프롬프트 엔지니어링을 병행하지 않으면, 토큰 비용이 예상치를 훨씬 초과할 수 있습니다.
(출처: Artificial Analysis Intelligence Index, 2026.02.24)

▲ 목차로 돌아가기

Q&A — 자주 묻는 5가지

Q1. Mercury 2는 한국어를 지원하나요?

Inception Labs 공식 발표에서는 128K 컨텍스트, 네이티브 도구 호출, 스키마 정렬 JSON 출력을 명시했으나, 언어 지원 세부 목록은 공개하지 않았습니다. OpenAI API 호환 구조를 가지고 있어 다국어 처리가 가능하지만, 한국어 특화 벤치마크 결과는 아직 공개되지 않았습니다. 공식 문서(inceptionlabs.ai)에서 최신 업데이트를 확인하시기 바랍니다.

Q2. “초당 1,009 토큰”은 어떤 환경에서 측정한 수치인가요?

NVIDIA Blackwell GPU 기준입니다. Artificial Analysis의 독립 측정에서는 약 781~806 토큰/초로 확인됩니다. NVIDIA A100이나 H100 환경에서는 이보다 낮을 수 있습니다. 자사 인프라 환경에서 직접 측정하는 것이 반드시 필요합니다.
(출처: Artificial Analysis, 2026.02.24)

Q3. GPT-5나 Claude 4.6 Opus와 어떻게 다른가요?

Mercury 2는 프론티어 최고 성능 모델과 비교하면 복잡한 추론·과학·코딩 과제에서 점수가 낮습니다. SciCode 38.4, Tau2 52.9 등이 이를 보여줍니다. 이 모델의 포지션은 ‘가장 똑똑한 모델’이 아니라 ‘가장 빠른 추론 모델’입니다. 실시간 음성, 코드 자동완성, 에이전트 루프처럼 속도가 품질 못지않게 중요한 워크플로우에 최적화돼 있습니다.

Q4. 기존 OpenAI API 코드를 그대로 쓸 수 있나요?

네, Mercury 2는 OpenAI API 호환 구조를 사용하기 때문에 API 엔드포인트와 모델명만 바꾸면 기존 코드를 재작성 없이 사용할 수 있다고 Inception이 공식 발표했습니다. 다만 확산 단계 조절 등 Mercury 2 고유 기능을 활용하려면 추가 파라미터 설정이 필요합니다.
(출처: Inception Labs 공식 블로그, 2026.02.24)

Q5. 오픈소스로 공개될 예정인가요?

2026년 3월 15일 현재 기준으로, Mercury 2는 Inception API를 통한 상용 서비스 형태로만 제공됩니다. 오픈소스 공개 계획은 공식적으로 발표된 바 없습니다. 단, Inception Labs는 학술 논문 공개 등 기술 투명성에 적극적인 편으로, 향후 모델 가중치 공개 가능성을 완전히 배제할 수는 없습니다.

▲ 목차로 돌아가기

마치며 — 총평

Mercury 2는 “더 좋은 LLM”이 아니라 “다른 종류의 LLM”입니다. 이 차이를 이해하지 못하면, 빠른 모델을 써도 결과물이 좋아지지 않거나 오히려 비용이 올라가는 상황이 벌어집니다. 반대로 이 차이를 제대로 이해하면, 기존에 레이턴시 문제로 포기했던 실시간 추론 워크플로우를 비로소 현실적인 비용으로 구현할 수 있게 됩니다.

제가 보는 Mercury 2의 가장 중요한 의미는 성능 수치보다는 “LLM 아키텍처 독점의 균열”입니다. 지난 몇 년간 전 세계 LLM 시장은 오토리그레시브 트랜스포머라는 단일 구조 위에서 경쟁해왔습니다. Mercury 2가 상용 프로덕션 수준에서 이를 대체할 수 있음을 증명한 것은, 앞으로 2~3년 안에 전혀 다른 구조의 모델들이 시장에 진입할 수 있다는 신호로 읽힙니다.

다만 지금 당장 모든 워크플로우에 Mercury 2를 투입하는 것은 추천하지 않습니다. 확산 단계 튜닝, 부하 테스트, 검증 파이프라인 정비가 선행되어야 합니다. 준비가 된 팀에게는 강력한 무기가 되지만, 준비가 없는 팀에게는 예상치 못한 비용 청구서가 날아올 수 있습니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Inception Labs 공식 블로그 — Introducing Mercury 2
https://www.inceptionlabs.ai/blog/introducing-mercury-2
BusinessWire 공식 보도자료 — Inception Launches Mercury 2 (2026.02.24)
https://www.businesswire.com/news/…
Artificial Analysis — Mercury 2 Intelligence, Performance & Price Analysis
https://artificialanalysis.ai/models/mercury-2
ajfisher.me — Mercury 2 won’t outthink frontier models but diffusion might out-iterate them (2026.02.26)
https://ajfisher.me/2026/02/26/mercury-2-diffusion-agents/

본 포스팅은 2026년 3월 15일 기준으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Mercury 2는 현재 빠르게 업데이트되고 있는 플랫폼이므로, 최신 스펙·가격·정책은 반드시 Inception Labs 공식 홈페이지(inceptionlabs.ai)에서 확인하시기 바랍니다.

AI속도비교, DiffusionLLM, InceptionLabs, LLM추론모델, Mercury2

Mercury 2 속도: “빠르면 좋다”만 믿다 손해 보는 진짜 이유

Mercury 2 속도: “빠르면 좋다”만 믿다
손해 보는 진짜 이유

Mercury 2가 도대체 뭔데 이렇게 화제인가

왜 기존 GPT·Claude는 근본적으로 느릴 수밖에 없는가

공식 벤치마크로 보는 실제 속도 — 숫자가 말해주는 것

잠깐, 이게 사실입니다 — “빠른 모델이 스마트한 모델보다 에이전트에서 앞선다”

실제로 써보면 당황하는 이유 — 확산 단계 함정

속도가 빨라질수록 더 중요해지는 것 (아무도 안 말해준 내용)

Q&A — 자주 묻는 5가지

마치며 — 총평

📚 본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mercury 2 속도: “빠르면 좋다”만 믿다 손해 보는 진짜 이유

Mercury 2가 도대체 뭔데 이렇게 화제인가

왜 기존 GPT·Claude는 근본적으로 느릴 수밖에 없는가

공식 벤치마크로 보는 실제 속도 — 숫자가 말해주는 것

잠깐, 이게 사실입니다 — “빠른 모델이 스마트한 모델보다 에이전트에서 앞선다”

실제로 써보면 당황하는 이유 — 확산 단계 함정

속도가 빨라질수록 더 중요해지는 것 (아무도 안 말해준 내용)

Q&A — 자주 묻는 5가지

마치며 — 총평

📚 본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기