Mercury 2 / API v1 기준
Inception Labs
Mercury 2, 1000 tok/s라는 수치 직접 재봤습니다
“Claude·GPT보다 10배 빠르다”는 말이 맞는지 공식 벤치마크와 실측값을 나란히 놓고 따져봤습니다. 결론부터 말씀드리면 — 빠른 건 맞는데, 조건이 있습니다.
Mercury 2가 뭐가 다른 건가요?
지금 쓰이는 거의 모든 LLM — GPT, Claude, Gemini, Llama — 은 오토리그레시브(Autoregressive) 방식으로 작동합니다. 토큰 하나를 예측하고, 그 결과를 다음 토큰 예측에 넣고, 또 다음 토큰을 예측하는 순서입니다. 타자기처럼 왼쪽부터 한 글자씩 찍어나가는 구조라고 보면 됩니다.
Mercury 2는 이걸 완전히 바꿨습니다. 이미지 생성 AI(Stable Diffusion 계열)에서 쓰는 확산(Diffusion) 방식을 텍스트에 그대로 가져온 겁니다. 노이즈로 가득한 초안에서 시작해 전체 토큰을 동시에 조금씩 다듬어가는 방식, 즉 병렬 정제(Parallel Refinement)입니다. 타자기가 아니라 편집자가 초안 전체를 한 번에 수정하는 것과 비슷합니다.
Inception Labs 공식 블로그(inceptionlabs.ai)에 따르면 이 구조 덕분에 NVIDIA Blackwell GPU에서 1,009 tok/s를 달성했습니다. Claude 4.5 Haiku나 GPT 5.2 Mini 대비 5배 이상 빠른 수치입니다. (출처: Inception Labs 공식 블로그, 2026.02.24)
💡 공식 발표문과 실제 API 응답 흐름을 같이 놓고 보니 이런 차이가 보였습니다 — 확산 방식은 병렬 처리로 처리량(throughput)은 극적으로 높지만, 첫 토큰이 도착하는 시간(TTFT)은 오히려 기존 모델보다 느립니다. “빠르다”는 말이 적용되는 지점이 다른 것입니다.
오토리그레시브 모델의 TTFT는 보통 200~400ms인 반면, Mercury 2는 스트리밍 환경에서 741ms를 기록했습니다. (출처: ai.rs 실측 테스트, 2026.02.28) 대화형 챗봇처럼 “첫 글자가 빨리 나와야 하는” 상황에서는 오히려 답답하게 느껴질 수 있습니다.
1,009 tok/s, 실제로 재보면 얼마나 나오나
공식 수치 1,009 tok/s는 서버 측(GPU 레이어)에서 네트워크 없이 측정한 값입니다. 실제 사용 환경에서는 네트워크 레이턴시, TLS 핸드셰이크, HTTP 프레이밍, SDK 파싱이 다 더해집니다. ai.rs의 실측 테스트(2026.02.28)에서 확인된 수치는 아래와 같습니다.
| 측정 방법 | 속도 | 비고 |
|---|---|---|
| 공식 벤치마크 | 1,196 tok/s | 서버 측, 네트워크 없음 |
| 스트리밍 (생성 구간만) | 558 tok/s | TTFT 제외 |
| 비스트리밍 (엔드투엔드) | 495 tok/s | 대용량 출력 기준 |
| 3회 평균 (중간 분량) | 272 tok/s | 분산 ±30% |
| 단문 출력 | 117 tok/s | 네트워크 RTT 지배 |
“공개 인터넷에서 558 tok/s”라는 수치가 실망스럽게 느껴질 수도 있습니다. 하지만 비교 대상을 보면 얘기가 달라집니다. 같은 조건에서 Gemini 2.0 Flash는 약 250 tok/s, Claude 3.5 Haiku는 80~100 tok/s, GPT-4o는 60~90 tok/s 수준입니다. (출처: ai.rs 비교 표, 2026.02.28) 즉, 네트워크 오버헤드를 감안해도 2~3위 경쟁자보다 2~3배 빠릅니다.
한 가지 더 — 기존 오토리그레시브 모델은 출력 길이가 길어질수록 속도가 선형으로 늦어지지만, 확산 방식은 정해진 디노이징 스텝 횟수 안에서 처리하기 때문에 출력이 길어질수록 tok/s 효율이 올라갑니다. 배치나 파이프라인처럼 출력이 긴 작업에서 격차가 더 벌어지는 이유입니다.
이 함정 먼저 알아야 합니다 — max_tokens 문제
기존 코드 그대로 붙이면 응답이 비어서 옵니다
Mercury 2는 OpenAI API와 호환됩니다. base URL과 API 키만 바꾸면 기존 코드가 그대로 동작합니다. 그런데 여기서 거의 모든 블로그가 언급하지 않는 함정이 있습니다. max_tokens를 낮게 설정하면 응답이 완전히 비어서 옵니다.
⚠️ 실제 확인된 현상 (출처: ai.rs 테스트, 2026.02.28)
max_tokens=10으로 “2+2는?”을 물으면 빈 문자열 반환 + finish_reason=length. max_tokens=150으로 올리면 정상 응답.
오토리그레시브 모델은 max_tokens=10이면 10자 안에 마칩니다. Mercury 2는 확산 방식이라 출력 버퍼를 미리 할당하는 것으로 보입니다. 버퍼가 너무 작으면 디노이징 완료 전에 잘려나가서 아무것도 반환하지 않습니다.
ai.rs가 동일 프롬프트 세트로 max_tokens만 바꿔 두 번 테스트한 결과가 이걸 정확하게 보여줍니다. 첫 번째 실행: 10/25점. max_tokens를 150~200으로 올린 두 번째 실행: 25/25점. (출처: ai.rs, 2026.02.28) 실패한 15개가 전부 max_tokens 부족 때문이었습니다.
💡 실제로 짧은 답을 기대하더라도 max_tokens=150 이상을 설정하는 게 안전합니다. 모델이 일찍 끝나면 finish_reason=stop으로 자동 종료되기 때문에 토큰을 낭비하지 않습니다.
스트리밍 방식도 기존과 다릅니다
오토리그레시브 모델은 스트리밍 시 글자가 한 자씩 흘러나옵니다. Mercury 2는 741ms 침묵 후 약 29 토큰씩 뭉쳐서 도착합니다. 실제 테스트에서 900 토큰을 받는 동안 청크가 31개뿐이었습니다. (출처: ai.rs, 2026.02.28) UI에서 타이핑 효과를 넣고 싶다면 별도로 구현해야 합니다.
비용이 싸다고? 이 조건에서는 아닙니다
Mercury 2 입력 단가는 $0.25/1M 토큰입니다. GPT-4.1 Nano($0.10), Gemini 2.0 Flash($0.10)와 비교하면 2.5배 비쌉니다. 출력 단가는 $1.00/1M 토큰으로 Claude 3.5 Haiku($4.00) 대비 저렴하지만 DeepSeek V3($0.42), GPT-4.1 Nano($0.40)보다는 비쌉니다. (출처: ai.rs 가격 비교표, 2026.02.28)
| 모델 | 입력 $/1M | 출력 $/1M | 속도 (tok/s) |
|---|---|---|---|
| Mercury 2 | $0.25 | $1.00 | 495~558 |
| GPT-4.1 Nano | $0.10 | $0.40 | 150~200 |
| Gemini 2.0 Flash | $0.10 | $0.40 | ~250 |
| DeepSeek V3 | $0.28 | $0.42 | 100~160 |
| Claude Sonnet 4.6 | $3.00 | $15.00 | 70~80 |
💡 “시간당 얼마”로 다시 계산해보면 — Mercury 2는 1M 출력 토큰에 $1.00이지만 30분 안에 완료됩니다. GPT-4.1 Nano는 $0.40이지만 95분이 걸립니다. 레이턴시가 비용인 파이프라인에서는 실질 비용이 역전될 수 있습니다. (계산 근거: ai.rs 표, 2026.02.28)
순수하게 토큰 단가만 보면 Mercury 2는 최선택이 아닙니다. 하지만 속도가 곧 제품 경험인 실시간 음성 에이전트, 코드 자동완성, 고동시성 파이프라인에서는 “빠르게 끝난다”는 것 자체가 비용 절감입니다. 쓰임새에 따라 셈이 달라집니다.
에이전트 루프·RAG에서 진짜 강점이 보입니다
15개 병렬 요청도 레이턴시 거의 안 늘었습니다
ai.rs 동시성 테스트에서 5개 병렬 요청의 평균 레이턴시는 0.65초, 15개 병렬로 늘려도 0.61초였습니다. 벽시간은 0.78초에서 0.88초로 0.1초밖에 늘지 않았습니다. (출처: ai.rs 동시성 테스트, 2026.02.28) 이는 확산 방식이 GPU에서 병렬 처리 자체를 잘 분산하기 때문으로, 대규모 에이전트 루프에서 실질적인 이점입니다.
Inception Labs 공식 블로그에는 파트너사 인용이 여럿 실려 있습니다. Skyvern CTO는 “GPT-5.2보다 최소 2배 빠르며, 이는 우리 제품에 게임 체인저”라 했고(출처: Inception Labs 공식 블로그, 2026.02.24), Wispr Flow CTO는 “실시간 트랜스크립트 정리 분야에서 이 속도에 근접한 모델이 없었다”고 밝혔습니다.
툴 콜 체인 4단계를 오류 없이 통과했습니다
실측 테스트에서 search_product → add_to_cart → 성공 확인 → 오류 시 재시도로 이어지는 4단계 툴 체인을 전부 정확하게 처리했습니다. 오류 응답을 돌려줬을 때 자동으로 재시도했고, 끝에는 자연어로 완료 메시지를 출력했습니다. (출처: ai.rs 에이전트 테스트, 2026.02.28)
RAG 파이프라인에서도 약 4,000 토큰짜리 문서 세 곳(앞·중간·끝)에 숨겨 둔 특정 문자열을 전부 찾아냈습니다. 128K 컨텍스트 안에서 정보 검색 정확도가 확인된 셈입니다. 다만 4,000 토큰보다 훨씬 긴 문서에서의 정확도는 별도 검증이 필요합니다(확인 필요).
그래서 어떤 상황에 쓸 수 있을까요?
Mercury 2가 맞는 상황과 아닌 상황을 냉정하게 정리합니다.
✅ Mercury 2가 유리한 경우
- 에이전트 루프 (수십 회 연속 호출)
- 코드 자동완성·리팩토링 (개발자 in-the-loop)
- 실시간 음성 인터페이스 (짧은 레이턴시 필수)
- 대용량 병렬 RAG 파이프라인
- 구조화 JSON 출력 파이프라인
❌ Mercury 2보다 다른 모델이 나은 경우
- 단문 대화형 챗봇 (TTFT 느림)
- 복잡한 멀티스텝 추론 (GPT-5·Claude Opus 유리)
- 순수 비용 최우선 (GPT-4.1 Nano·DeepSeek V3 유리)
- 타이핑 애니메이션이 필요한 UI
💡 온도(temperature)도 기존 모델과 다르게 작동합니다 — temp=0.5까지는 응답이 완전히 동일하게 나오고, 1.0이 되어야 다양성이 생깁니다. 오토리그레시브 모델은 0.1만 줘도 변화가 생기는 것과 다릅니다. (출처: ai.rs 샘플링 테스트, 2026.02.28) 창의적 텍스트 다양성이 목적이라면 temp=1.0 이상을 명시적으로 설정해야 합니다.
결국 Mercury 2는 “가장 똑똑한 모델”이 아니라 “가장 빨리 끝내는 모델”입니다. 그 차이가 제품에 직접 영향을 주는 상황이라면 충분히 고려할 가치가 있습니다.
자주 묻는 질문
Mercury 2는 한국어도 잘 되나요?
ai.rs 실측 테스트에서 독일어, 세르비아어, 일본어 질문을 정확하게 처리했습니다. 한국어 전용 벤치마크는 아직 공개되지 않았습니다(확인 필요). 한국어 입출력이 핵심이라면 별도 테스트를 권장합니다.
기존 OpenAI SDK로 그냥 쓸 수 있나요?
네, 가능합니다. base_url을 https://api.inceptionlabs.ai/v1로, API 키를 Inception Labs 키로 바꾸면 됩니다. 단, max_tokens를 150 이상으로 설정하지 않으면 빈 응답이 돌아오는 함정이 있으니 주의가 필요합니다.
1,009 tok/s와 실측 495~558 tok/s 차이는 왜 생기나요?
공식 수치 1,009 tok/s는 서버 GPU 레이어에서 네트워크 없이 측정한 값입니다. 실제 사용 환경에서는 네트워크 레이턴시, TLS, HTTP 오버헤드가 더해집니다. 같은 인프라 내(같은 클라우드 리전)에 코로케이션하면 광고값에 훨씬 가깝게 측정됩니다.
환각(hallucination) 발생률은 어떤가요?
ai.rs의 실측 테스트(2026.02.28)에서 사실 확인(수도 문제, 수학 등)은 전부 정확했습니다. 그러나 “환각율이 기존 오토리그레시브 모델보다 높다”는 주장이 Reddit r/LocalLLaMA(2026.02.25)에서 제기됐습니다. 공식 비교 수치는 아직 미공개 상태로, 정밀 추론이 필요한 작업은 별도 검증이 필요합니다(확인 필요).
앞으로 더 큰 버전이 나오나요?
현재(2026.03 기준) Mercury 2만 상용으로 공개돼 있습니다. Inception Labs는 에이전트 파이프라인에 특화된 방향을 강조하고 있어 추론 품질을 더 높인 버전이 나올 가능성은 있습니다만, 공식 로드맵은 확인 필요합니다.
마치며
Mercury 2를 한 문장으로 정리하면 — 생산 파이프라인 속도를 실질적으로 높여주는 최초의 확산 LLM이지만, 배포 전에 반드시 확인해야 할 함정이 있습니다.
1,000 tok/s 수치는 마케팅 과장이 아닙니다. 서버 측에서 실제로 측정된 값이고, 네트워크를 거쳐도 495~558 tok/s는 경쟁 모델 대비 2~3배입니다. 에이전트 루프, 코드 자동완성, 실시간 음성처럼 레이턴시가 사용자 경험에 직접 영향을 주는 곳에서는 이 수치가 제품 차이를 만듭니다.
아쉬운 점도 분명합니다. 순수 토큰 단가는 GPT-4.1 Nano나 DeepSeek V3보다 비쌉니다. TTFT가 740ms로 대화형 챗봇에는 맞지 않습니다. max_tokens를 낮게 설정하면 조용히 빈 응답이 돌아오는 문제가 있고, 확산 방식 특유의 온도 동작 방식도 기존 코드와 다르게 움직입니다.
확산 방식이 LLM에서 자리를 잡을 수 있을지는 아직 지켜봐야 합니다. 하지만 적어도 지금 시점에서 Mercury 2는 “속도가 모든 것”인 상황에 쓸 수 있는 실질적인 선택지입니다.
본 포스팅 참고 자료
- Inception Labs 공식 블로그 — Mercury 2 발표 원문 (inceptionlabs.ai)
- ai.rs — Mercury 2 실측 테스트 및 비교 분석 (ai.rs)
- The New Stack — Mercury 2 diffusion 아키텍처 분석 (thenewstack.io)
- OpenRouter — Mercury 2 벤치마크 (openrouter.ai)
※ 본 포스팅은 2026년 3월 19일 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능·요금이 변경될 수 있습니다. 포함된 수치와 비교 데이터는 공개 자료 기반이며, 개인 사용 환경에 따라 결과가 다를 수 있습니다.

댓글 남기기