Mercury 2 / Inception Labs
TECH
Mercury 2, 속도가 빠르면 품질이 낮다고요?
“빠른 모델은 성능이 부족하다”는 말을 그냥 믿고 계셨다면, Mercury 2가 그 공식을 꽤 세게 흔들어 놓습니다. 초당 1,009토큰, AIME 2025 점수 91.1점. 수치만 보면 Claude 4.5 Haiku나 GPT-5.2 Mini와 비교해도 크게 밀리지 않습니다. 근거부터 먼저 짚어보겠습니다.
기존 AI 모델의 속도 한계, 칩 문제가 아니었습니다
GPT, Claude, Gemini는 전부 같은 방식으로 텍스트를 만듭니다. 토큰 하나를 예측하고, 그걸 기반으로 다음 토큰을 예측하고, 또 그걸 기반으로 다음 토큰을 예측합니다. 이 과정이 끝날 때까지 아무것도 나오지 않습니다. “자동회귀(autoregressive)” 방식이라고 부르는데, 구조 자체가 직렬(serial)이기 때문에 아무리 좋은 GPU를 붙여도 속도의 천장이 낮습니다.
Inception Labs 공식 발표문에는 이렇게 적혀 있습니다. “업계는 같은 토큰-바이-토큰 생성 루프에서 성능을 쥐어짜기 위해 수십억 달러를 쏟아부었다. 전문 칩, 최적화된 서빙 스택, 모델 압축 — 이 모든 것이 근본 구조를 바꾸지는 않는다.” (출처: Inception Labs 공식 블로그, 2026.02.24) 다시 말해, 지금까지의 속도 경쟁은 칩 교체나 압축으로 조금씩 개선하는 방식이었을 뿐, 구조 자체를 바꾼 건 Mercury가 처음입니다.
이 사실이 중요한 이유가 있습니다. 속도가 칩의 문제라면 돈으로 해결되지만, 아키텍처 문제라면 돈만으로는 안 됩니다.
Mercury 2가 텍스트를 만드는 방식이 다른 이유
Mercury 2는 텍스트를 이미지 생성 방식으로 만듭니다. 이미지 생성 AI(Stable Diffusion, Midjourney)가 노이즈 가득한 초안을 여러 단계에 걸쳐 점점 선명하게 다듬는 것처럼, Mercury 2도 응답 전체를 한꺼번에 뭉텅이로 잡아놓고 병렬로 다듬어가며 완성합니다. 이 방식을 “디퓨전 기반 텍스트 생성(Diffusion LLM, dLLM)”이라고 부릅니다.
공식 블로그에 따르면, “타자기처럼 한 글자씩 치는 게 아니라, 편집자가 초안 전체를 한 번에 수정하는 방식”입니다. (출처: Inception Labs 공식 블로그, 2026.02.24) 한 번의 네트워크 패스에서 단일 토큰이 아니라 여러 토큰을 동시에 처리하기 때문에 속도 이득이 구조적으로 발생합니다.
💡 공식 발표문과 이미지 생성 AI 원리를 같이 놓고 보니 이런 차이가 보였습니다 — 이미지 diffusion이 “노이즈 → 이미지”라면, Mercury 2는 “노이즈 텍스트 → 완성 텍스트”입니다. 기술 계보가 같기 때문에 병렬 처리가 가능하고, 그 덕분에 생성 도중 오류를 스스로 수정할 여지도 생깁니다. 기존 자동회귀 모델은 한번 낸 토큰을 되돌릴 수 없습니다.
수치로 직접 확인한 성능 — 얼마나 빠른가
공식 보도자료와 Artificial Analysis 벤치마크에서 확인한 수치는 다음과 같습니다. 직접 따라 계산할 수 있도록 정리했습니다.
| 모델 | 생성 속도 (토큰/초) |
AIME 2025 | GPQA | 입력 가격 (/1M 토큰) |
|---|---|---|---|---|
| Mercury 2 | 약 1,009 | 91.1 | 73.6 | $0.25 |
| Claude 4.5 Haiku | 약 89 | — | — | $0.80 |
| GPT-5.2 Mini | 약 71 | — | — | — |
(출처: Inception Labs 공식 보도자료, BusinessWire, 2026.02.24 / Artificial Analysis 벤치마크)
Claude 4.5 Haiku 대비 Mercury 2의 속도를 계산하면 이렇습니다. 1,009 ÷ 89 ≈ 11.3배. 공식 발표에서는 “5배 빠름”이라고 했는데, 이건 “속도 최적화 모델 중 가장 빠른 것 대비 5배”라는 의미입니다. Claude Haiku 기준으로는 10배가 훌쩍 넘습니다. 3,000토큰짜리 응답 기준으로 Haiku는 약 34초, Mercury 2는 약 3초면 끝납니다.
품질 측면에서는 AIME 2025 점수 91.1점을 받았습니다. 이 벤치마크는 미국 수학올림피아드 예선 문제를 AI에게 풀게 하는 수학 추론 테스트입니다. 그리고 GPQA는 박사급 과학 문제로 구성된 벤치마크입니다. Mercury 2가 73.6점을 받았다는 건, 단순히 빠르기만 한 “lite 모델”이 아니라는 뜻입니다.
에이전트 루프에서 레이턴시가 복리로 쌓이는 이유
“AI를 한 번 호출해서 답 하나 받는” 상황이라면 속도 차이는 크게 느껴지지 않을 수 있습니다. 그런데 에이전트 방식은 다릅니다. AI가 데이터를 검색하고, 결과를 분석하고, 코드를 작성하고, 오류를 수정하는 과정에서 수십 번 이상 모델을 호출합니다. 각 호출마다 3초가 걸린다고 하면 10번 호출에 30초, 50번 호출이면 2.5분이 됩니다.
Mercury 2 공식 블로그에는 이런 문장이 있습니다. “에이전트 워크플로우는 작업당 수십 번의 추론 호출을 연결합니다. 호출당 레이턴시를 줄이면 시간만 아끼는 게 아닙니다 — 몇 단계를 감당할 수 있는지 자체가 달라집니다.” (출처: Inception Labs 공식 블로그, 2026.02.24) 레이턴시가 낮으면 같은 시간 안에 더 많은 추론 단계를 밟을 수 있고, 최종 결과물의 품질 자체가 달라진다는 이야기입니다.
💡 Skyvern CTO는 “Mercury 2가 GPT-5.2 대비 최소 2배 빠르다”고 직접 밝혔습니다. (출처: Inception Labs 공식 블로그, 사용 파트너 코멘트, 2026.02.24) 에이전트 자동화 도구에서 속도 2배는 처리 가능한 작업 수 2배와 직결됩니다.
실시간 음성 인터페이스도 마찬가지입니다. 사람이 말하고 AI가 답하는 사이에 300ms가 넘으면 어색함이 느껴집니다. Wispr Flow CTO는 “실시간 트랜스크립트 정리와 인터랙티브 HCI 앱에서 이 속도를 제공하는 모델은 없었다”고 했습니다. (출처: Inception Labs 공식 블로그, 2026.02.24)
기존 블로그가 잘 말하지 않는 한계 3가지
Mercury 2의 속도 이야기만 하면 반쪽입니다. 실제 커뮤니티 피드백과 구조적 한계를 짚고 넘어가야 합니다.
한계 1
추론 과정에서 환각(hallucination)이 더 많이 나올 수 있습니다
LocalLLaMA 커뮤니티에서 직접 써본 사용자는 이렇게 정리했습니다. “추론 중 환각이 SOTA 순차 모델보다 확실히 더 취약하다.” 이유는 구조에 있습니다. 자동회귀 모델은 앞서 확정된 토큰을 기반으로 다음 토큰을 결정하기 때문에 문맥이 고정됩니다. 반면 diffusion 방식은 전체를 동시에 다듬기 때문에, n번째 위치의 텍스트가 “올바른” 기준이 흔들릴 수 있습니다. Inception Labs는 이 문제를 적극 해결 중이지만, 공식적인 수치 비교 자료는 아직 공개하지 않았습니다.
한계 2
답변이 지나치게 장황한 경향이 있습니다
Artificial Analysis 평가에서 Mercury 2는 다른 모델과 같은 테스트를 수행하는 데 6,900만 토큰을 생성했습니다. 동급 모델 평균이 2,000만 토큰입니다. 평균보다 약 3.5배 많은 출력을 냅니다. 이건 두 가지를 의미합니다 — 말이 길어지면 읽는 사람에게 피로를 주고, 출력 토큰 비용도 그만큼 올라갑니다. (출처: Artificial Analysis Intelligence Index, artificialanalysis.ai)
한계 3
긴 컨텍스트에서의 품질은 아직 검증이 부족합니다
Mercury 2는 128K 컨텍스트를 지원한다고 명시하지만, LocalLLaMA 커뮤니티 피드백에서는 “장문 컨텍스트에서 훈련 기법이 일반 순차 모델만큼 성숙하지 않은 것 같다”는 지적이 나왔습니다. 짧은 루프에서 빠른 응답을 많이 반복하는 용도에는 강하지만, 수만 토큰의 긴 문서를 처리하는 RAG 파이프라인에서의 성능은 추가 검증이 필요합니다.
가격 비교 — 입력 $0.25/M은 어느 위치인가
Mercury 2의 공식 가격은 입력 토큰 1M당 $0.25, 출력 토큰 1M당 $0.75입니다. (출처: Inception Labs 공식 블로그, 2026.02.24) Artificial Analysis에서 집계한 동급 모델 평균 입력 가격도 $0.25입니다. 즉, 평균 수준의 가격에 10배가 넘는 속도를 얻는 구조입니다.
단, 출력이 장황한 특성을 감안해야 합니다. 동급 모델보다 3.5배 많은 출력을 낸다면, 실제 청구 금액을 계산할 때 출력 토큰 비용이 생각보다 빠르게 쌓입니다. 예를 들어 매일 1,000번 호출하고 응답당 평균 1,500토큰이 나온다면 하루 150만 토큰 × $0.75 = 하루 약 $1.13입니다. 같은 작업에서 다른 모델이 500토큰 응답을 낸다면 $0.38입니다. 속도는 빠르지만 출력 토큰 낭비가 없는지 사전에 확인할 필요가 있습니다.
OpenAI API 호환 형식이기 때문에 기존 ChatGPT 기반 코드를 그대로 Mercury 2로 전환하는 데 별도 재작성이 필요 없습니다. (출처: Inception Labs 공식 블로그, 2026.02.24) 이 점은 실용적으로 꽤 큰 이점입니다.
실제로 Mercury 2가 맞는 상황, 안 맞는 상황
솔직히 말하면, Mercury 2가 모든 경우에 맞는 건 아닙니다. 써야 할 때와 쓰면 오히려 손해인 때가 꽤 명확하게 갈립니다.
✅ Mercury 2가 맞는 상황
- 에이전트 루프를 50회 이상 반복하는 백엔드 자동화
- 실시간 음성 응답 서비스 (p95 레이턴시가 UX를 결정하는 경우)
- 코드 자동완성·next-edit 제안처럼 개발자 흐름을 끊지 말아야 하는 경우
- 검색+RAG 파이프라인에서 응답 단계를 짧게 많이 반복하는 구조
❌ Mercury 2가 안 맞는 상황
- 단일 호출로 사실 정확도가 높아야 하는 법률·의료 문서 작업
- 수만 토큰 이상 장문 컨텍스트를 정밀하게 분석해야 하는 경우
- 응답 길이를 꼭 짧게 제어해야 하는 UI (긴 출력 경향 주의)
- Claude Sonnet 4.6이나 GPT-5.4 수준의 복잡한 추론이 필요한 경우
자주 나오는 질문 5가지
Q1. Mercury 2는 지금 바로 사용할 수 있나요?
네. 2026년 2월 24일부터 Inception Labs API(platform.inceptionlabs.ai)를 통해 즉시 이용 가능합니다. OpenAI API 호환 포맷이라 기존 코드베이스에 엔드포인트 주소만 바꿔주면 바로 연동됩니다.
Q2. “10배 빠름”이라는 수치, 무엇 대비인가요?
공식 보도자료에서 “5배 빠름”이라고 표현할 때는 “속도 최적화 LLM 중 가장 빠른 모델 대비”를 뜻합니다. Claude 4.5 Haiku(89 토큰/초) 기준으로 계산하면 1009 ÷ 89 ≈ 11.3배입니다. 어떤 모델을 기준으로 보느냐에 따라 5~14배 사이에서 달라집니다.
Q3. Diffusion LLM은 환각 문제가 더 나쁜가요?
실사용 피드백에서는 추론 중 환각이 자동회귀 모델보다 더 취약하다는 의견이 있습니다. 이론적으로는 병렬 수정 과정에서 문맥 일관성이 흔들릴 수 있는 구조입니다. Inception Labs가 이를 적극 개선 중이지만, 공식 비교 수치는 아직 공개하지 않았습니다.
Q4. Google도 Diffusion LLM을 만들고 있나요?
네. Google DeepMind의 Gemini Diffusion 프로젝트가 진행 중입니다. (출처: deepmind.google/models/gemini-diffusion) 대형 랩들도 이 방향을 주목하고 있지만, 상업적 추론 dLLM을 실제 API로 출시한 건 Inception이 처음입니다.
Q5. Mercury 2를 로컬에서 돌릴 수 있나요?
현재는 Inception API를 통해서만 이용 가능합니다. GGUF 등 로컬 실행 형태는 아직 공식 지원되지 않습니다. LocalLLaMA 커뮤니티에서도 “gguf when?” 이라는 요청이 올라온 상태이지만, Inception Labs가 공개 일정을 밝히지 않았습니다.
마치며 — Mercury 2, 어디에 놓을 만한 모델인가
Mercury 2는 “빠르면 나쁘다”는 공식을 꽤 강하게 흔듭니다. AIME 91.1, GPQA 73.6이라는 수치는 단순한 lite 모델 수준이 아닙니다. 그리고 Claude 4.5 Haiku 기준으로 11배 빠른 속도는, 에이전트 루프를 많이 돌리는 서비스에서 단순히 “비용 절감”이 아니라 “더 많은 단계를 밟을 수 있는 구조적 변화”를 가져옵니다.
솔직히, 아직 완전히 성숙한 모델은 아닙니다. 추론 중 환각 리스크, 지나치게 장황한 출력 경향, 긴 컨텍스트에서의 미검증 구간이 남아 있습니다. 이 부분을 감안하면, “모든 GPT 호출을 당장 Mercury 2로 바꾸면 된다”고 말하기는 어렵습니다.
그런데 AI 에이전트 자동화, 실시간 음성, 코드 자동완성처럼 “빠른 반복이 품질을 결정하는” 워크플로우라면, 지금 당장 테스트해 볼 가치가 있는 모델입니다. 아키텍처 자체가 다른 방향에서 온 모델이기 때문에, 앞으로의 개선 속도가 어떻게 될지가 이 모델의 진짜 관전 포인트입니다.
📎 본 포스팅 참고 자료
- Inception Labs 공식 블로그 — Introducing Mercury 2
https://www.inceptionlabs.ai/blog/introducing-mercury-2 - BusinessWire 공식 보도자료 — Inception Launches Mercury 2 (2026.02.24)
https://www.businesswire.com/news/home/20260224034496/en/ - Artificial Analysis — Mercury 2 Intelligence & Performance Index
https://artificialanalysis.ai/models/mercury-2 - Google DeepMind — Gemini Diffusion (참고)
https://deepmind.google/models/gemini-diffusion/ - Reddit r/LocalLLaMA — Mercury 2 실사용 피드백 (2026.02.25)
https://www.reddit.com/r/LocalLLaMA/comments/1re0zus/
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅에 포함된 수치와 기능 설명은 2026.02.24~2026.03.22 기준 공식 자료를 바탕으로 작성되었습니다. Mercury 2 관련 최신 정보는 Inception Labs 공식 사이트를 직접 확인하시기 바랍니다.


댓글 남기기