실험 데모 단계
Google DeepMind 공식 발표 기준
Gemini Diffusion, 빠른데 막히는 게 있습니다
초당 1,479토큰 생성이라는 숫자가 화제입니다. 그런데 공식 벤치마크를 직접 보면, 빠르다고 다 좋은 게 아니라는 게 바로 보입니다. 구조적으로 느릴 수밖에 없는 조건이 따로 있고, 추론 정확도에서는 현행 소형 모델에 뒤지는 항목이 있습니다.
Gemini Diffusion가 뭔지 30초에 이해하기
기존 GPT, Claude, Gemini 같은 언어 모델은 전부 자동회귀(Autoregressive) 방식으로 텍스트를 만듭니다. 단어 하나를 생성하고, 그 단어를 바탕으로 다음 단어를 만들고, 또 그다음… 이 방식을 수백~수천 번 반복해야 한 문장이 완성됩니다.
Gemini Diffusion은 다릅니다. 처음엔 무작위 노이즈처럼 보이는 토큰 블록 전체를 펼쳐놓고, 여러 번의 정제 과정(denoising)을 거치면서 점점 의미 있는 텍스트로 바꿉니다. 이미지 생성에서 쓰이던 확산(Diffusion) 기법을 텍스트에 적용한 겁니다.
💡 공식 발표문과 실제 동작 방식을 같이 보면 이런 차이가 보입니다 — 자동회귀는 줄 세워 하나씩, Diffusion은 전체를 동시에 조금씩 완성합니다. 속도 원리가 근본적으로 다릅니다.
2025년 5월 구글 I/O에서 처음 공개됐고, 현재(2026.03.21 기준)까지 Google DeepMind 공식 페이지에서 실험 데모 형태로 제한적으로 제공 중입니다. 정식 모델로 통합되지는 않았습니다.
속도는 진짜입니다 — 숫자로 확인
Google DeepMind 공식 페이지에 올라온 수치를 그대로 가져왔습니다. Gemini Diffusion의 샘플링 속도는 1,479 tokens/sec입니다. 오버헤드(첫 응답 준비 시간)는 0.84초입니다 (출처: deepmind.google/models/gemini-diffusion, 2025.05).
VentureBeat가 실제 테스트했을 때 600~1,300 tokens/sec 범위가 나왔고, 영상 채팅 인터페이스 코드를 2초 안에 완성했습니다. 비교 대상인 Gemini 2.5 Flash는 평균 272.4 tokens/sec 수준입니다 (출처: VentureBeat, 2025.06.13).
| 모델 | 샘플링 속도 | 방식 |
|---|---|---|
| Gemini Diffusion | 1,479 tokens/sec | 확산(Diffusion) |
| Gemini 2.5 Flash | 약 272 tokens/sec | 자동회귀 |
*샘플링 속도 기준, 오버헤드 미포함 / 출처: Google DeepMind 공식 + VentureBeat 실측
단순 비교만 하면 Diffusion이 약 5.4배 빠릅니다. 코드 생성이나 텍스트 편집처럼 긴 출력이 필요한 작업에서는 이 차이가 실감납니다.
빠르지만 첫 글자는 더 늦게 나옵니다
여기서 중요한 반전이 있습니다. 속도가 빠르다는 건 맞는데, “첫 글자가 화면에 나타나는 시간(TTFT)”은 오히려 더 깁니다.
Google DeepMind 연구원 Brendan O’Donoghue는 VentureBeat 인터뷰에서 이렇게 설명했습니다: “자동회귀 모델은 첫 토큰을 바로 내보낼 수 있지만, Diffusion 모델은 전체 토큰 블록이 완성될 때까지 첫 토큰을 낼 수 없다.”
⚠️ Diffusion은 블록 단위로 완성하는 구조라, 2~3 토큰짜리 짧은 응답에서는 자동회귀 방식보다 느릴 수 있습니다. 공식 오버헤드 0.84초가 여기서 실감납니다.
챗봇처럼 “빠릿하게 타이핑되는 느낌”이 중요한 UX에서는, 실제 완성 속도와 무관하게 Diffusion이 체감상 더 느리게 느껴질 수 있습니다. 이건 설계 구조상 피하기 어려운 부분입니다. 아직 Google이 공식 해결책을 내놓지 않은 부분입니다.
추론·과학 영역에서 보이는 격차
코딩에서는 Diffusion이 Flash-Lite와 거의 동급이거나 소폭 앞섭니다. 그런데 추론과 과학 쪽 벤치마크를 보면 이야기가 달라집니다.
| 벤치마크 | Gemini Diffusion | Gemini 2.0 Flash-Lite | 차이 |
|---|---|---|---|
| Code LiveCodeBench (v6) | 30.9% | 28.5% | +2.4%p |
| Code HumanEval | 89.6% | 90.2% | -0.6%p |
| GPQA Diamond (Science) | 40.4% | 56.5% | -16.1%p |
| BIG-Bench Extra Hard | 15.0% | 21.0% | -6.0%p |
| Math AIME 2025 | 23.3% | 20.0% | +3.3%p |
| Multilingual Global MMLU (Lite) | 69.1% | 79.0% | -9.9%p |
출처: Google DeepMind 공식 벤치마크 (deepmind.google/models/gemini-diffusion) / 전부 pass@1 기준
GPQA Diamond는 박사급 과학 지식이 필요한 추론 벤치마크입니다. 여기서 16.1%p 차이는 단순한 수치 이상의 의미입니다. 이미 출시된 소형 모델(Flash-Lite)보다 추론력이 떨어지는 상태로 데모가 공개됐다는 뜻입니다.
💡 벤치마크 표를 코딩 쪽과 추론 쪽으로 나눠서 보면 패턴이 뚜렷합니다 — Diffusion은 코드처럼 병렬로 완성할 수 있는 출력에 강하고, 단계적으로 생각을 이어야 하는 추론에 아직 약합니다.
O’Donoghue 연구원은 인터뷰에서 “비-순차 추론(non-causal reasoning) 덕분에 코딩과 수학에서 유리할 수 있다”고 했지만, GPQA와 BIG-Bench 결과는 아직 그 가능성이 충분히 발현되지 못했음을 보여줍니다 (출처: VentureBeat 인터뷰, 2025.06.13).
긴 문서에서 연산량이 급증하는 이유
또 하나 주목할 점이 있습니다. 기존 자동회귀 모델은 KV 캐시(Key-Value Cache)라는 구조 덕분에, 앞서 생성한 토큰들의 attention 계산 결과를 재활용합니다. 한 번 계산한 건 다시 안 해도 됩니다.
Diffusion 모델은 이걸 활용하기 어렵습니다. 블록 안의 토큰들이 매 denoising 패스마다 바뀌기 때문에, 정제 과정마다 전체 컨텍스트 윈도우를 대상으로 attention을 처음부터 다시 계산해야 합니다 (출처: Sean Goedecke, “Strengths and limitations of diffusion language models”, 2025.05.22).
💡 속도 수치 뒤에 숨어 있는 조건을 보면 — 1,479 tokens/sec는 단기 출력 기준입니다. 긴 문서를 입력으로 넣으면 구조적으로 연산량이 배수로 늘어납니다.
실제로 O’Donoghue가 인정한 단점 두 가지는 “서빙 비용이 더 높다(higher cost of serving)”는 것과 TTFT 문제였습니다. 롱컨텍스트 처리가 많을수록 이 비용 차이는 더 벌어집니다. 기업 입장에서 프로덕션 도입 시 가장 신중하게 따져봐야 할 부분이 여기 있습니다.
지금 실제로 쓸 수 있는가
솔직히 말하면, 아직 일반 사용 단계는 아닙니다. 2026년 3월 기준 Gemini Diffusion은 Google DeepMind 공식 실험 데모 단계이고, 대기자 명단에 등록해야 접근 가능합니다. Gemini 앱이나 AI Studio API에서 바로 쓸 수 있는 상태가 아닙니다.
Diffusion 기반 언어 모델로 일반 공개된 건 현재 Inception Labs의 Mercury와 오픈소스인 LLaDA가 있습니다. Gemini Diffusion은 이 생태계 안에서 구글의 포지셔닝을 보여주는 신호탄 성격이 강합니다.
💡 Mercury 2 출시 발표(2026.03)에서 “기존 Claude, ChatGPT 대비 10배 빠르다”는 주장이 나왔습니다. Diffusion 방식이 속도 경쟁의 새로운 축이 되고 있다는 신호로 읽힙니다.
지금 당장 쓸 수 있는 가장 가까운 방법은 Google AI Studio에서 대기자 등록 후 실험 데모에 접근하는 것입니다. Instant Edit 기능은 코드 수정, 텍스트 리라이팅 쪽에서 실용성이 확인되고 있습니다.
Q&A
마치며
Gemini Diffusion이 보여주는 1,479 tokens/sec는 분명 인상적입니다. 막상 공식 벤치마크를 같이 놓고 보면, 코딩·수학에서 강점이 확인되는 동시에 과학 추론(-16.1%p)과 다국어(-9.9%p)에서 현행 소형 모델보다 뒤처집니다.
게다가 첫 글자가 늦게 나오는 TTFT 문제, 긴 컨텍스트에서 KV 캐시를 쓰지 못해 연산량이 배가되는 구조도 현실적인 제약입니다. 지금 단계에서 “빠르니까 모든 것에 좋다”는 결론은 좀 이릅니다.
개인적으로는 코드 대량 생성이나 실시간 텍스트 편집처럼 출력이 길고 체감 속도가 중요한 영역에서 Diffusion 방식이 자리를 잡을 것으로 봅니다. 추론 정확도 격차가 좁혀지고 TTFT 문제가 해결되는 시점이 진짜 변곡점이 될 겁니다.
본 포스팅 참고 자료
- Google DeepMind 공식 모델 페이지 — deepmind.google/models/gemini-diffusion
- VentureBeat — “Beyond GPT architecture: Why Google’s Diffusion approach could reshape LLM deployment” (2025.06.13) — venturebeat.com
- Sean Goedecke — “Strengths and limitations of diffusion language models” (2025.05.22) — seangoedecke.com
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 본 포스팅은 2026년 3월 21일 기준 공개된 공식 자료를 바탕으로 작성됐으며, Gemini Diffusion은 실험 데모 단계로 정식 서비스 기능·일정은 변경될 수 있습니다.


댓글 남기기