Phi-4 reasoning vision, 작다고 얕봤습니다
15B 파라미터짜리 오픈소스 AI가 1조 토큰으로 학습한 대형 모델과 어깨를 나란히 합니다. Microsoft가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B 이야기입니다. 벤치마크 숫자가 아니라, 이 모델이 왜 만들어졌고 어디서 걸리는지를 공식 기술 보고서와 외부 분석 자료를 교차해 직접 확인했습니다.
GPU 240개 × 4일 학습
ScreenSpot v2 88.2점
MIT 라이선스 무료 공개
데이터가 5분의 1인데 성능이 비슷하다고요?
결론부터 말씀드리면, Phi-4 reasoning vision은 약 2,000억 토큰으로 학습됐습니다. 반면 Alibaba의 Qwen3-VL, Google의 Gemma3, Moonshot AI의 Kimi-VL은 모두 1조 토큰 이상을 사용했습니다. 숫자만 보면 5배 이상 차이가 납니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)
그런데 MathVista-MINI에서 75.2점, ChartQA-TEST에서 83.3점, ScreenSpot v2에서 88.2점을 기록했습니다. Qwen3-VL-8B(비슷한 크기 모델)와 비교하면 MathVista에서 75.2 대 77.1로 오히려 더 좁은 차이입니다. 이걸 어떻게 이해해야 할까요?
💡 공식 발표문과 학습 데이터 구성을 같이 놓고 보니 이런 차이가 보였습니다 — Microsoft 연구팀은 오픈소스 데이터를 그냥 모은 게 아니라, 각 데이터셋을 직접 손으로 검토하며 잘못된 답을 GPT-4o와 o4-mini로 재생성하고 불량 이미지는 통째로 제외했습니다. 데이터셋 하나당 검토에 5~10분을 쏟았다고 기술 보고서에 명시돼 있습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)
이 의미는 단순합니다. 학습 데이터 규모가 절대 지표가 아니라는 겁니다. 데이터 5분의 1로도 경쟁 모델과 비슷한 성능이 나왔다면, 나머지 5분의 4는 어쩌면 품질 낮은 데이터였을 수도 있습니다.
AI가 알아서 ‘생각 모드’를 켜고 끕니다
대부분의 추론 모델은 항상 thinking 모드로 동작하거나, 항상 빠른 응답 모드로 동작합니다. 둘 다 하려면 두 모델을 따로 운용해야 했습니다. Phi-4 reasoning vision은 이 문제를 다르게 풀었습니다.
학습 데이터의 약 20%는 <think>...</think> 블록이 포함된 추론 샘플로, 수학·과학 문제처럼 단계적 사고가 필요한 데이터에 해당합니다. 나머지 80%는 <nothink> 태그가 달린 직접 응답 샘플로, 이미지 캡션·OCR·단순 질문처럼 빠른 답이 유리한 데이터입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)
💡 추론 모드를 강제로 켰더니 오히려 점수가 떨어진 벤치마크가 있었습니다 — Microsoft 자체 벤치마크에서, ScreenSpot v2의 경우 thinking을 강제하면 88.2 → 88.1로 소폭 하락합니다. AI2D의 경우 thinking 강제 시 84.8 → 79.7로 오히려 5점 이상 떨어집니다. 이건 이 모델이 “항상 깊게 생각하면 더 잘한다”는 통념을 정면으로 뒤집는 수치입니다. (출처: HuggingFace Model Card, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)
물론 수동 오버라이드도 됩니다. 프롬프트에 <think> 또는 <nothink> 토큰을 직접 붙이면 모드를 강제할 수 있습니다. 단, 모드 전환 경계는 명시적 규칙이 아닌 학습 데이터 분포에서 암묵적으로 결정된 것이라, 경계가 항상 명확하지는 않다고 연구팀 스스로 인정하고 있습니다.
화면을 읽는 눈, 어떻게 만들었나
GUI 자동화 에이전트를 만드는 데 가장 큰 병목은 모델이 화면 속 버튼 하나를 못 찾는 것입니다. 작고 밀집된 인터페이스 요소를 정확히 인식하려면 고해상도 처리가 필수입니다.
Microsoft는 이미지 처리 방식을 4가지로 비교 실험했습니다. Dynamic-S2, Multi-crop, Multi-crop with S2, 그리고 최종 채택된 동적 해상도(SigLIP-2 Naflex). 최대 3,600개의 시각 토큰을 사용하는 이 방식은 720p HD 해상도에 근접한 품질입니다. 아래는 5B 프록시 모델로 진행한 비교 실험 결과입니다.
| 방식 | 최대 토큰 | MathVista | ScreenSpot | ScreenSpot-Pro |
|---|---|---|---|---|
| Dynamic-S2 | 3096 | 42.9 | 78.4 | 9.4 |
| Multi-crop | 3096 | 43.4 | 67.8 | 5.4 |
| Multi-crop + S2 | 2048 | 43.4 | 79.1 | 10.6 |
| 동적 해상도 (채택) | 3600 | 44.9 | 79.7 | 17.5 |
(출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, 2026.03.04. 5B 프록시 모델 기준)
ScreenSpot-Pro 수치가 동적 해상도에서 17.5로, 다른 방식보다 거의 2배 가까이 차이가 납니다. 이 수치는 단순히 해상도가 높을수록 좋다는 게 아니라, 해상도를 이미지마다 동적으로 조정하는 방식 자체가 결정적이었음을 보여줍니다.
수학 데이터를 늘렸더니 UI 점수도 올랐습니다
막상 써보면 이 단계에서 멈추는 실험이 있었습니다. Microsoft 팀은 수학 데이터와 컴퓨터 UI 데이터를 어떤 비율로 섞어야 하는지를 5B 프록시 모델로 직접 실험했습니다.
💡 수학 전용 데이터를 늘렸는데 UI 자동화 점수도 함께 올랐습니다 — 직관적으로 수학 데이터는 수학 성능에만 영향을 준다고 생각하기 쉽습니다. 그런데 실험 결과, 수학 데이터를 150K에서 450K(3배)로 늘리면서 CUA 데이터를 그대로 유지했을 때 ScreenSpot-V2 점수가 48.2 → 63.1로 크게 올랐습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)
이걸 수치로 직접 따라가 보면 이렇습니다. 일반 데이터 1M + 수학 150K + CUA 450K = 총 1.6M 데이터셋일 때 ScreenSpot-V2가 48.2였습니다. 수학만 450K로 늘리고 CUA는 그대로 두면 총 1.9M에서 ScreenSpot-V2가 48.3으로 소폭 상승합니다. 그리고 수학 450K + CUA 850K를 동시에 쓰면 63.1로 뛰어오릅니다.
연구팀은 이 결과를 보고 “수학적 추론 능력 향상이 GUI 이해 능력 향상으로도 이어진다”고 해석했습니다. 수학 문제를 풀 때 훈련된 단계별 논리 추적 능력이 화면 요소를 식별하고 탐색하는 과정에도 전이된다는 겁니다. 확인된 실험 수치 기반의 결론입니다.
그래도 이 부분은 솔직히 아쉬웠습니다
기대했던 것과 달랐던 부분도 분명히 있습니다. Forbes 분석과 VentureBeat 보도를 함께 보면 공식 발표에서 잘 부각되지 않는 한계가 세 가지 보입니다.
① MMMU에서 Qwen3-VL-32B와의 격차는 큽니다
MMMU-VAL(광범위 멀티모달 이해 벤치마크)에서 Phi-4는 54.3점입니다. 같은 벤치마크에서 Qwen3-VL-32B-Thinking은 72.2점을 기록합니다. 두 배 이상 큰 모델이니 차이가 당연하다고 볼 수도 있지만, Qwen3-VL-8B조차 Thinking 모드에서 65.3점입니다. 15B임에도 8B에 뒤처지는 벤치마크가 존재한다는 점은 확인이 필요한 부분입니다. (출처: HuggingFace Model Card, microsoft/Phi-4-reasoning-vision-15B)
② 영어 외 언어 성능은 공식적으로 보장되지 않습니다
모델 카드에 명시된 문구입니다: “Languages other than English may experience degraded performance.” (출처: HuggingFace Model Card, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04) 한국어 텍스트가 포함된 이미지나 한국어 질문에 대해서는 별도의 품질 보장이 없습니다. 실사용 전 한국어 시나리오 테스트는 직접 해봐야 합니다.
③ 추론 모드 전환 경계는 여전히 열린 문제입니다
20%의 reasoning 데이터와 80%의 non-reasoning 데이터로 정한 비율은, 연구팀 스스로 “모든 도메인과 배포 환경에 최적이지 않을 수 있다”고 밝혔습니다. 모델이 언제 think 모드로 전환할지는 데이터 분포로 암묵적으로 학습된 것이라 예측이 어렵습니다. 프로덕션 환경에서 일관된 응답 품질을 원한다면 <think> 또는 <nothink>을 명시적으로 제어하는 게 현실적입니다.
⚠️ 기술 요구 사항: torch ≥ 2.7.1, transformers ≥ 4.57.1, NVIDIA A6000/A100/H100/B200 환경에서 테스트됨. 다른 GPU 아키텍처는 동작이 확인되지 않았습니다. (출처: HuggingFace Model Card, 2026.03.04)
자주 묻는 질문
Phi-4 reasoning vision 15B는 완전 무료인가요?
한국어 이미지 처리에도 쓸 수 있나요?
로컬 실행에 어느 정도 사양이 필요한가요?
GUI 자동화 에이전트에 바로 쓸 수 있나요?
마치며 — 이 모델이 진짜 흥미로운 이유
솔직히 말하면, Phi-4 reasoning vision은 “가장 좋은 모델”이 아닙니다. MMMU 같은 광범위한 이해 벤치마크에서 32B 모델들에 상당히 밀립니다. 그리고 한국어 환경에서의 성능은 직접 테스트 전까지 미지수입니다.
그런데도 이 모델이 중요한 건, 방법론 때문입니다. 1조 토큰이 아닌 2,000억 토큰으로, 240개 B200 GPU로 단 4일 만에 경쟁 모델과 유사한 성능을 냈다는 사실은 데이터 품질이 데이터 규모를 이길 수 있다는 실증입니다. 게다가 MIT 라이선스로 완전히 공개해, 파인튜닝 코드와 벤치마크 로그까지 붙여서 배포했습니다.
에지 디바이스, 온프레미스 서버, 레이턴시에 민감한 인터랙티브 환경을 고려하는 팀이라면 살펴볼 가치가 있는 모델입니다. 막상 써보면 어디서 막히는지는, 직접 해봐야 압니다.
본 포스팅 참고 자료
- Microsoft Research 공식 블로그 — Phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model
https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/ - HuggingFace Model Card — microsoft/Phi-4-reasoning-vision-15B
https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B - Phi-4-reasoning-vision-15B Technical Report — arXiv 2603.03975
https://arxiv.org/html/2603.03975v1 - Forbes 분석 — Microsoft Builds A Compact AI Model That Decides When To Think (Janakiram MSV, 2026.03.06)
https://www.forbes.com/sites/janakirammsv/2026/03/06/microsoft-builds-a-compact-ai-model-that-decides-when-to-think/ - VentureBeat — Microsoft built Phi-4-reasoning-vision-15B to know when to think and when not to (2026.03.04)
https://venturebeat.com/technology/microsoft-built-phi-4-reasoning-vision-15b-to-know-when-to-think-and-when
본 포스팅은 2026년 3월 4일 공개된 공식 자료를 기반으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치는 Microsoft 공식 기술 보고서 및 HuggingFace Model Card 기준이며, 독자적 환경에서의 성능은 다를 수 있습니다.


댓글 남기기