2026.02.24 출시 기준
IT / AI

Mercury 2, 빠르다고요? 이 숫자 먼저 보세요

Inception Labs가 2026년 2월 24일 공개한 Mercury 2는 초당 1,009 토큰이라는 수치로 발표 당일부터 화제가 됐습니다. “속도 최적화 모델 대비 5배 빠르다”는 헤드라인이 넘쳤는데, 막상 벤치마크 원문과 실제 토큰 생성 데이터를 같이 놓고 보면 이야기가 달라집니다. 속도는 사실이지만, 그 속도가 비용까지 줄여주는지는 별개 문제였습니다.

1,009 tok/s

NVIDIA Blackwell 기준

$0.25 / 1M

입력 토큰 단가

69M 토큰

실측 생성량 (평균 20M)

Diffusion LLM이 뭔지, 왜 지금 중요한가

GPT, Claude, Gemini는 모두 같은 방식으로 글을 씁니다. 왼쪽부터 오른쪽으로, 토큰 하나씩 순서대로 예측하는 자기회귀(Autoregressive) 구조입니다. 이 방식은 이전 토큰이 다음 토큰을 결정하기 때문에 병렬 처리가 구조적으로 불가능합니다. 속도를 올리려면 더 좋은 칩을 쓰거나 모델을 압축해야 했습니다.

Mercury 2는 이미지 생성 AI(Stable Diffusion 등)에서 쓰던 확산(Diffusion) 방식을 텍스트에 적용했습니다. 처음에 노이즈로 가득 찬 전체 출력 초안을 만들고, 반복적인 디노이징(denoising) 과정을 통해 여러 토큰을 동시에 다듬어 나갑니다. Inception Labs 공식 블로그는 이를 “타자기가 한 글자씩 치는 것이 아니라, 편집자가 전체 초안을 한 번에 수정하는 것”이라 표현했습니다. (출처: Inception Labs 공식 블로그, 2026.02.24)

Stanford, UCLA, Cornell 출신 연구진이 창업한 Inception Labs는 2025년 초 첫 프로토타입을 공개했고, 2025년 11월 Microsoft·NVIDIA·Snowflake 등으로부터 5,000만 달러를 투자받았습니다. Mercury 2는 그 결과물입니다. 이미지·영상에서 증명된 Diffusion 기술이 언어 모델에도 본격적으로 상용화되기 시작했다는 신호입니다.

▲ 목차로 돌아가기

속도 수치의 정체 — 1,009 tok/s가 실제로 의미하는 것

Inception Labs가 공개한 벤치마크 수치는 NVIDIA Blackwell GPU 기준 초당 1,009 토큰입니다. (출처: Inception Labs 공식 블로그, 2026.02.24) 이 수치를 경쟁 모델과 비교하면 격차가 선명해집니다. Business Wire 보도에 따르면 Claude 4.5 Haiku(Reasoning)는 약 89 tok/s, GPT-5 Mini는 약 71 tok/s입니다. Mercury 2가 약 11배 빠르다는 뜻입니다. 초당 토큰 수가 11배 빠르다는 건, 에이전트 루프처럼 추론 호출이 수십 번 연쇄되는 구조에서 전체 실행 시간이 기하급수적으로 줄어든다는 뜻입니다.

💡 공식 발표 지연시간(end-to-end latency)과 throughput 수치를 같이 놓고 보니 이런 차이가 보였습니다

The Decoder가 정리한 표에서 Mercury 2의 엔드투엔드 레이턴시는 1.7초입니다. 같은 표에서 Gemini 3 Flash(Reasoning)는 14.4초, Claude 4.5 Haiku(Reasoning)는 23.4초입니다. (출처: The Decoder, 2026.02.24) 첫 응답이 돌아오는 시간 기준으로도 Mercury 2는 Claude 4.5 Haiku의 약 1/14 수준입니다. 이는 단순한 처리 속도가 아니라, 사용자가 체감하는 반응 속도에 직결됩니다.

다만 이 속도 수치는 특정 인프라 조건(NVIDIA Blackwell GPU)에서 측정된 값입니다. Inception Labs 공식 문서에서 GPU 환경이 다를 경우의 성능 변동 범위를 별도로 공개하지 않았습니다. 실제 배포 환경에 따라 체감 속도는 달라질 수 있습니다.

▲ 목차로 돌아가기

가격이 싸 보이는 이유와 실제 청구서가 다를 수 있는 이유

Mercury 2의 공식 API 가격은 입력 토큰 $0.25/1M, 출력 토큰 $0.75/1M입니다. (출처: Inception Labs 공식 블로그, 2026.02.24) The Decoder 분석에 따르면 Gemini 3 Flash는 $0.50/$3.00, Claude 4.5 Haiku는 $1.00/$5.00입니다. 입력 단가는 Gemini 3 Flash 대비 절반, Claude 4.5 Haiku 대비 4분의 1 수준입니다. 출력 단가는 Gemini 3 Flash 대비 4분의 1, Claude 4.5 Haiku 대비 6.7분의 1 수준입니다.

⚠️ 단가가 싸도 실제 비용이 더 나올 수 있습니다

Artificial Analysis의 실측 평가에서 Mercury 2는 Intelligence Index 평가에 69M 토큰을 생성했습니다. 같은 평가에서 비교 모델 평균은 20M 토큰입니다. (출처: Artificial Analysis, 2026.02 기준) Mercury 2는 평균 대비 약 3.45배 많은 토큰을 씁니다. 계산해 보면, 동일한 작업에서 Mercury 2가 출력 토큰 단가는 저렴해도 생성량이 3.45배 많다면 실질 비용이 경쟁 모델과 큰 차이가 안 날 수 있습니다. 이것이 Artificial Analysis가 Mercury 2를 “very verbose”로 명시한 이유입니다.

실제 비용 추정 예시를 직접 계산해 보겠습니다. 출력 토큰 100만 개를 기준으로:

모델	출력 단가 /1M	상대적 출력 토큰량(추정)	실질 비용 추정
Mercury 2	$0.75	3.45배 (Verbose)	$2.59 (추정)
Gemini 3 Flash	$3.00	평균(1x)	$3.00
Claude 4.5 Haiku	$5.00	평균(1x)	$5.00

※ 실질 비용 추정: 출력 단가 × 상대적 토큰 생성 배수. Verbose 배수는 Artificial Analysis 실측값(69M vs 20M 평균). 입력 토큰 비용 별도. (출처: Artificial Analysis Intelligence Index, 2026.02)

단가만 보면 Mercury 2가 압도적으로 저렴하지만, 실제로 생성하는 토큰 수를 같이 고려하면 Gemini 3 Flash와 비용 격차가 크게 좁혀집니다. 실제 운영 비용은 직접 워크로드를 돌려 출력 토큰량을 측정한 뒤 계산하는 것이 정확합니다.

▲ 목차로 돌아가기

Claude·Gemini·GPT와 직접 비교한 벤치마크 수치

The Decoder가 정리한 표와 Business Wire 공식 보도를 교차 확인해 품질 벤치마크를 아래에 정리했습니다. (출처: The Decoder, 2026.02.24 / Business Wire, 2026.02.24)

모델	E2E 응답시간	GPQA	LCB	AIME	IFBench
Mercury 2	1.7초	74	67	91	71
Claude 4.5 Haiku (Non-Reasoning)	5.0초	65	51	39	42
Claude 4.5 Haiku (Reasoning)	23.4초	67	62	84	54
Gemini 3 Flash (Reasoning)	14.4초	90	91	78	78
Gemini 2.5 Flash-Lite (Reasoning)	7.8초	71	59	69	53
GPT-5 Mini	22.8초	80	69	48	71

출처: The Decoder(2026.02.24), Inception Labs 공식 발표(2026.02.24)

표에서 눈에 띄는 점은 AIME(수학 추론) 점수입니다. Mercury 2는 91점으로 Claude 4.5 Haiku Reasoning(84)보다 높고, 심지어 Gemini 3 Flash Reasoning(78)도 넘습니다. 수학 추론에서는 훨씬 느린 모델들을 이기면서도 1.7초 안에 응답한다는 것입니다. 반면 IFBench(지시 따르기)는 71점으로 Gemini 3 Flash(78)나 GPT-5 Mini(71)와 비슷한 수준이며, GPQA(과학 지식) 74점은 Gemini 3 Flash(90)에 뚜렷하게 밀립니다. 속도에서 가장 강하고, 복잡한 과학 지식 추론에서는 아직 한계가 있습니다.

💡 속도와 품질을 같은 축에 놓고 보면 비어 있는 자리가 보입니다

기존 속도 최적화 경쟁은 대부분 “조금 느려지더라도 품질을 올리는” 방향이었습니다. Mercury 2는 반대 방향에서 시작했습니다. 빠른 속도를 기본값으로 놓고 품질을 끌어올리는 구조입니다. 현재 벤치마크만 보면 “비교적 빠른 Gemini 2.5 Flash-Lite(7.8초)보다 4.5배 빠르면서 대부분 지표에서 이긴다”는 자리가 비어 있었는데, Mercury 2가 그 공백을 채운 형태입니다.

▲ 목차로 돌아가기

추론 품질의 구조적 한계 — 업계가 조용히 인정한 문제

Diffusion LLM의 추론 방식은 “전체 초안을 만들고 반복해서 수정”하기 때문에 자기회귀 모델보다 오류를 중간에 교정할 수 있다는 기대가 있었습니다. 그런데 실제로는 이 구조가 오히려 추론 정확도에서 약점이 될 수 있습니다. Reddit의 LocalLLaMA 커뮤니티(2026.02.25 스레드)에서 Inception Labs 측 관계자를 포함한 토론에서 이 문제가 구체적으로 다뤄졌습니다. 핵심은 “순차적 추론(Chain-of-Thought)에서 앞 단계의 정답이 다음 단계의 전제가 되는 구조에서, Diffusion 방식은 앞 단계가 확정되지 않은 상태로 뒷 단계를 동시에 수정하기 때문에 연쇄 오류가 발생할 수 있다”는 것입니다.

Artificial Analysis가 Mercury 2를 “69M 토큰 생성(평균 20M 대비 3.45배)”으로 측정한 결과는 이와 연결됩니다. (출처: Artificial Analysis Intelligence Index, 2026.02) 더 많은 토큰을 써서 더 많이 반복하고 수정하는 방식으로 품질을 보완하고 있을 가능성이 있습니다. 빠른 속도의 상당 부분이 더 많은 토큰 소비로 상쇄되는 구조입니다.

The Decoder도 “Diffusion 기반 언어 모델이 장기적으로 경쟁력을 유지할 수 있을지는 여전히 열린 질문”이라고 명시했습니다. (출처: The Decoder, 2026.02.24) Google DeepMind도 Gemini Diffusion 실험을 2025년 5월에 공개했지만 이후 공식 업데이트가 없습니다. 대형 랩들이 관망 중이라는 점은 이 기술의 성숙도를 가늠하는 신호입니다.

▲ 목차로 돌아가기

Mercury 2가 실제로 잘 맞는 상황과 피해야 할 상황

Inception Labs 공식 블로그와 Skyvern CTO의 실사용 후기(“Mercury 2는 GPT-5.2보다 최소 2배 빠름”)를 종합하면, Mercury 2는 지연시간이 비즈니스 임팩트에 직결되는 환경에 가장 적합합니다. 코드 자동완성, 에이전트 루프, 실시간 음성 인터페이스, RAG 파이프라인처럼 추론 호출이 수십 번 연쇄되고 응답 속도 자체가 제품 품질이 되는 상황입니다. OpenAI API 호환 형식이라 기존 스택에서 엔드포인트만 바꿔 바로 테스트할 수 있다는 점도 진입 장벽이 낮습니다. (출처: Inception Labs 공식 블로그, 2026.02.24)

💡 “빠르면 다 좋다”는 직관을 뒤집는 지점이 여기 있습니다

에이전트 루프는 속도가 중요하지만, 각 스텝의 정확도가 떨어지면 재시도(retry)가 늘어납니다. Mercury 2의 할루시네이션 빈도가 AR 모델보다 높다면, 빠른 속도가 재시도 횟수 증가로 상쇄될 수 있습니다. LocalLLaMA 커뮤니티 사용자들은 “코딩 자동완성·RAG 요약은 좋지만, 복잡한 다단계 에이전트에는 Claude/GPT를 유지하겠다”는 의견이 다수였습니다.

반면 정확도가 최우선인 상황, 예컨대 의료·법률 문서 검토, 멀티스텝 수학 증명, 복잡한 지시사항 준수가 필요한 작업에서는 현 시점 Mercury 2를 주 모델로 쓰기는 이릅니다. GPQA 점수(74)가 Gemini 3 Flash(90)에 비해 16점 낮고, 토큰 과다 생성 경향도 있어 출력 품질의 일관성을 보장하기 어렵습니다. 프로토타입이나 초기 성능 검증 단계에서 가장 먼저 시도해볼 만한 모델이고, 실서비스 적용 전에는 반드시 자신의 워크로드에서 직접 품질과 비용을 측정해야 합니다.

▲ 목차로 돌아가기

자주 묻는 질문

Q1. Mercury 2는 지금 바로 사용할 수 있나요?

네, 2026년 2월 24일부터 Inception Labs API를 통해 바로 이용할 수 있습니다. OpenAI API 호환 형식이라 기존 코드에서 base URL과 API 키만 교체하면 됩니다. 공식 채팅 데모(chat.inceptionlabs.ai)에서 가입 없이도 테스트할 수 있습니다. (출처: Inception Labs 공식 블로그, 2026.02.24)

Q2. Diffusion LLM은 자기회귀 모델과 어떻게 다른가요?

자기회귀 모델은 토큰을 왼쪽에서 오른쪽으로 하나씩 순서대로 생성합니다. Diffusion LLM은 전체 출력에 해당하는 노이즈 초안을 먼저 만들고, 반복적인 디노이징을 통해 여러 토큰을 동시에 다듬어 나갑니다. 덕분에 병렬 처리가 가능해 속도가 비약적으로 빠릅니다. 대신 순차적 추론 흐름이 필요한 작업에서는 구조적으로 불리할 수 있습니다.

Q3. 가격 $0.25/1M이 정말 저렴한 건가요?

단가 자체는 저렴합니다. 그러나 Artificial Analysis 실측에서 Mercury 2는 동일 작업에 평균 대비 3.45배 많은 토큰을 생성했습니다. 출력 토큰 단가($0.75/1M)에 이 배수를 적용하면 실질 비용은 $2.59/작업단위(추정)로 Gemini 3 Flash($3.00)와의 격차가 크게 줄어듭니다. 반드시 자신의 워크로드에서 출력 토큰 수를 직접 측정해야 합니다. (출처: Artificial Analysis, 2026.02)

Q4. Mercury 2는 한국어도 잘 되나요?

Inception Labs 공식 문서에서 한국어 지원 여부에 대한 별도 언급이 없습니다. 컨텍스트 윈도우는 128K이고 도구 사용(tool use)과 JSON 출력을 지원합니다. 한국어 성능에 대한 공식 벤치마크가 아직 공개되지 않았기 때문에, 한국어 워크로드에 적용하기 전에 직접 테스트가 필요합니다.

Q5. 향후 Diffusion LLM이 자기회귀 모델을 대체할 수 있을까요?

The Decoder를 포함한 여러 분석 매체는 “장기적 경쟁력 여부는 여전히 열린 질문”이라고 밝혔습니다. Google DeepMind는 Gemini Diffusion 실험을 2025년 5월 공개 후 추가 발표가 없습니다. Mercury 2가 속도-비용 면에서 뚜렷한 장점을 증명한 것은 사실이지만, 복잡한 추론과 긴 대화에서의 품질 유지는 해결해야 할 과제입니다. 지금은 틈새(niche) 활용 사례에서 가치를 인정받고 있는 단계입니다.

▲ 목차로 돌아가기

마치며 — 총평

Mercury 2는 LLM 속도의 구조적 한계를 다른 방향에서 돌파한 모델입니다. “더 좋은 칩, 더 작은 모델”이 아니라 생성 방식 자체를 바꿨고, 그 결과 기존 속도 최적화 모델들이 10~20초 걸리는 작업을 1.7초 안에 처리합니다. 이 속도가 실질적으로 가치 있는 상황은 분명히 존재합니다.

그러나 “빠르고 저렴하다”는 첫인상 뒤에는 두 가지 체크포인트가 있습니다. 첫째, 출력 토큰이 3.45배 많이 나와 실제 비용이 단가만큼 저렴하지 않을 수 있습니다. 둘째, 복잡한 다단계 추론과 지시 준수에서 아직 상위 모델에 미치지 못합니다. 막상 써보니 코드 자동완성과 빠른 RAG 요약에서는 충분히 쓸 만하고, 정밀한 추론이 필요한 에이전트 작업에서는 좀 더 검증이 필요합니다.

Diffusion 방식의 텍스트 생성은 이제 시작입니다. Google, OpenAI가 이 방향을 얼마나 빠르게 따라오는지가 Mercury 2의 수명을 결정할 것입니다. 지금 당장은 속도가 제품의 핵심 경쟁력인 팀에게만 실질적인 선택지입니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

Inception Labs 공식 블로그 — Introducing Mercury 2 https://www.inceptionlabs.ai/blog/introducing-mercury-2
Business Wire 공식 보도(2026.02.24) businesswire.com
The Decoder — Mercury 2 분석(2026.02.24) the-decoder.com
Artificial Analysis — Mercury 2 Intelligence Index artificialanalysis.ai/models/mercury-2

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 가격, 벤치마크 수치, API 사양은 Mercury 2 기준(2026.02.24 출시)으로 작성되었으며, 이후 업데이트로 달라질 수 있습니다. 투자·구매 결정 전 공식 사이트에서 최신 정보를 직접 확인하세요.

Mercury 2, 빠르다고요? 이 숫자 먼저 보세요

Mercury 2, 빠르다고요? 이 숫자 먼저 보세요

Diffusion LLM이 뭔지, 왜 지금 중요한가

속도 수치의 정체 — 1,009 tok/s가 실제로 의미하는 것

가격이 싸 보이는 이유와 실제 청구서가 다를 수 있는 이유

Claude·Gemini·GPT와 직접 비교한 벤치마크 수치

추론 품질의 구조적 한계 — 업계가 조용히 인정한 문제

Mercury 2가 실제로 잘 맞는 상황과 피해야 할 상황

자주 묻는 질문

마치며 — 총평

본 포스팅 참고 자료

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

Mercury 2, 빠르다고요? 이 숫자 먼저 보세요

Mercury 2, 빠르다고요? 이 숫자 먼저 보세요

Diffusion LLM이 뭔지, 왜 지금 중요한가

속도 수치의 정체 — 1,009 tok/s가 실제로 의미하는 것

가격이 싸 보이는 이유와 실제 청구서가 다를 수 있는 이유

Claude·Gemini·GPT와 직접 비교한 벤치마크 수치

추론 품질의 구조적 한계 — 업계가 조용히 인정한 문제

Mercury 2가 실제로 잘 맞는 상황과 피해야 할 상황

자주 묻는 질문

마치며 — 총평

본 포스팅 참고 자료

이 글 공유하기:

이것이 좋아요:

Read Next:

댓글 남기기응답 취소

최신 글

카테고리

Tags

아이테크 어른경제에서 더 알아보기