Phi-4 reasoning vision, 작다고 얕봤습니다

Published on

in

Phi-4 reasoning vision, 작다고 얕봤습니다

2026.03.04 기준 / Phi-4-reasoning-vision-15B (MIT License)

Phi-4 reasoning vision, 작다고 얕봤습니다

15B 파라미터짜리 오픈소스 AI가 1조 토큰으로 학습한 대형 모델과 어깨를 나란히 합니다. Microsoft가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B 이야기입니다. 벤치마크 숫자가 아니라, 이 모델이 왜 만들어졌고 어디서 걸리는지를 공식 기술 보고서와 외부 분석 자료를 교차해 직접 확인했습니다.

학습 데이터 2,000억 토큰
GPU 240개 × 4일 학습
ScreenSpot v2 88.2점
MIT 라이선스 무료 공개

데이터가 5분의 1인데 성능이 비슷하다고요?

결론부터 말씀드리면, Phi-4 reasoning vision은 약 2,000억 토큰으로 학습됐습니다. 반면 Alibaba의 Qwen3-VL, Google의 Gemma3, Moonshot AI의 Kimi-VL은 모두 1조 토큰 이상을 사용했습니다. 숫자만 보면 5배 이상 차이가 납니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

그런데 MathVista-MINI에서 75.2점, ChartQA-TEST에서 83.3점, ScreenSpot v2에서 88.2점을 기록했습니다. Qwen3-VL-8B(비슷한 크기 모델)와 비교하면 MathVista에서 75.2 대 77.1로 오히려 더 좁은 차이입니다. 이걸 어떻게 이해해야 할까요?

💡 공식 발표문과 학습 데이터 구성을 같이 놓고 보니 이런 차이가 보였습니다 — Microsoft 연구팀은 오픈소스 데이터를 그냥 모은 게 아니라, 각 데이터셋을 직접 손으로 검토하며 잘못된 답을 GPT-4o와 o4-mini로 재생성하고 불량 이미지는 통째로 제외했습니다. 데이터셋 하나당 검토에 5~10분을 쏟았다고 기술 보고서에 명시돼 있습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)

이 의미는 단순합니다. 학습 데이터 규모가 절대 지표가 아니라는 겁니다. 데이터 5분의 1로도 경쟁 모델과 비슷한 성능이 나왔다면, 나머지 5분의 4는 어쩌면 품질 낮은 데이터였을 수도 있습니다.

▲ 목차로 돌아가기

AI가 알아서 ‘생각 모드’를 켜고 끕니다

대부분의 추론 모델은 항상 thinking 모드로 동작하거나, 항상 빠른 응답 모드로 동작합니다. 둘 다 하려면 두 모델을 따로 운용해야 했습니다. Phi-4 reasoning vision은 이 문제를 다르게 풀었습니다.

학습 데이터의 약 20%는 <think>...</think> 블록이 포함된 추론 샘플로, 수학·과학 문제처럼 단계적 사고가 필요한 데이터에 해당합니다. 나머지 80%는 <nothink> 태그가 달린 직접 응답 샘플로, 이미지 캡션·OCR·단순 질문처럼 빠른 답이 유리한 데이터입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

💡 추론 모드를 강제로 켰더니 오히려 점수가 떨어진 벤치마크가 있었습니다 — Microsoft 자체 벤치마크에서, ScreenSpot v2의 경우 thinking을 강제하면 88.2 → 88.1로 소폭 하락합니다. AI2D의 경우 thinking 강제 시 84.8 → 79.7로 오히려 5점 이상 떨어집니다. 이건 이 모델이 “항상 깊게 생각하면 더 잘한다”는 통념을 정면으로 뒤집는 수치입니다. (출처: HuggingFace Model Card, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04)

물론 수동 오버라이드도 됩니다. 프롬프트에 <think> 또는 <nothink> 토큰을 직접 붙이면 모드를 강제할 수 있습니다. 단, 모드 전환 경계는 명시적 규칙이 아닌 학습 데이터 분포에서 암묵적으로 결정된 것이라, 경계가 항상 명확하지는 않다고 연구팀 스스로 인정하고 있습니다.

▲ 목차로 돌아가기

화면을 읽는 눈, 어떻게 만들었나

GUI 자동화 에이전트를 만드는 데 가장 큰 병목은 모델이 화면 속 버튼 하나를 못 찾는 것입니다. 작고 밀집된 인터페이스 요소를 정확히 인식하려면 고해상도 처리가 필수입니다.

Microsoft는 이미지 처리 방식을 4가지로 비교 실험했습니다. Dynamic-S2, Multi-crop, Multi-crop with S2, 그리고 최종 채택된 동적 해상도(SigLIP-2 Naflex). 최대 3,600개의 시각 토큰을 사용하는 이 방식은 720p HD 해상도에 근접한 품질입니다. 아래는 5B 프록시 모델로 진행한 비교 실험 결과입니다.

방식 최대 토큰 MathVista ScreenSpot ScreenSpot-Pro
Dynamic-S2 3096 42.9 78.4 9.4
Multi-crop 3096 43.4 67.8 5.4
Multi-crop + S2 2048 43.4 79.1 10.6
동적 해상도 (채택) 3600 44.9 79.7 17.5

(출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, 2026.03.04. 5B 프록시 모델 기준)

ScreenSpot-Pro 수치가 동적 해상도에서 17.5로, 다른 방식보다 거의 2배 가까이 차이가 납니다. 이 수치는 단순히 해상도가 높을수록 좋다는 게 아니라, 해상도를 이미지마다 동적으로 조정하는 방식 자체가 결정적이었음을 보여줍니다.

▲ 목차로 돌아가기

수학 데이터를 늘렸더니 UI 점수도 올랐습니다

막상 써보면 이 단계에서 멈추는 실험이 있었습니다. Microsoft 팀은 수학 데이터와 컴퓨터 UI 데이터를 어떤 비율로 섞어야 하는지를 5B 프록시 모델로 직접 실험했습니다.

💡 수학 전용 데이터를 늘렸는데 UI 자동화 점수도 함께 올랐습니다 — 직관적으로 수학 데이터는 수학 성능에만 영향을 준다고 생각하기 쉽습니다. 그런데 실험 결과, 수학 데이터를 150K에서 450K(3배)로 늘리면서 CUA 데이터를 그대로 유지했을 때 ScreenSpot-V2 점수가 48.2 → 63.1로 크게 올랐습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, arXiv 2603.03975, 2026.03.04)

이걸 수치로 직접 따라가 보면 이렇습니다. 일반 데이터 1M + 수학 150K + CUA 450K = 총 1.6M 데이터셋일 때 ScreenSpot-V2가 48.2였습니다. 수학만 450K로 늘리고 CUA는 그대로 두면 총 1.9M에서 ScreenSpot-V2가 48.3으로 소폭 상승합니다. 그리고 수학 450K + CUA 850K를 동시에 쓰면 63.1로 뛰어오릅니다.

연구팀은 이 결과를 보고 “수학적 추론 능력 향상이 GUI 이해 능력 향상으로도 이어진다”고 해석했습니다. 수학 문제를 풀 때 훈련된 단계별 논리 추적 능력이 화면 요소를 식별하고 탐색하는 과정에도 전이된다는 겁니다. 확인된 실험 수치 기반의 결론입니다.

▲ 목차로 돌아가기

그래도 이 부분은 솔직히 아쉬웠습니다

기대했던 것과 달랐던 부분도 분명히 있습니다. Forbes 분석과 VentureBeat 보도를 함께 보면 공식 발표에서 잘 부각되지 않는 한계가 세 가지 보입니다.

① MMMU에서 Qwen3-VL-32B와의 격차는 큽니다

MMMU-VAL(광범위 멀티모달 이해 벤치마크)에서 Phi-4는 54.3점입니다. 같은 벤치마크에서 Qwen3-VL-32B-Thinking은 72.2점을 기록합니다. 두 배 이상 큰 모델이니 차이가 당연하다고 볼 수도 있지만, Qwen3-VL-8B조차 Thinking 모드에서 65.3점입니다. 15B임에도 8B에 뒤처지는 벤치마크가 존재한다는 점은 확인이 필요한 부분입니다. (출처: HuggingFace Model Card, microsoft/Phi-4-reasoning-vision-15B)

② 영어 외 언어 성능은 공식적으로 보장되지 않습니다

모델 카드에 명시된 문구입니다: “Languages other than English may experience degraded performance.” (출처: HuggingFace Model Card, microsoft/Phi-4-reasoning-vision-15B, 2026.03.04) 한국어 텍스트가 포함된 이미지나 한국어 질문에 대해서는 별도의 품질 보장이 없습니다. 실사용 전 한국어 시나리오 테스트는 직접 해봐야 합니다.

③ 추론 모드 전환 경계는 여전히 열린 문제입니다

20%의 reasoning 데이터와 80%의 non-reasoning 데이터로 정한 비율은, 연구팀 스스로 “모든 도메인과 배포 환경에 최적이지 않을 수 있다”고 밝혔습니다. 모델이 언제 think 모드로 전환할지는 데이터 분포로 암묵적으로 학습된 것이라 예측이 어렵습니다. 프로덕션 환경에서 일관된 응답 품질을 원한다면 <think> 또는 <nothink>을 명시적으로 제어하는 게 현실적입니다.

⚠️ 기술 요구 사항: torch ≥ 2.7.1, transformers ≥ 4.57.1, NVIDIA A6000/A100/H100/B200 환경에서 테스트됨. 다른 GPU 아키텍처는 동작이 확인되지 않았습니다. (출처: HuggingFace Model Card, 2026.03.04)

▲ 목차로 돌아가기

자주 묻는 질문

Phi-4 reasoning vision 15B는 완전 무료인가요?
MIT 라이선스로 공개되어 있어 상업적 사용도 무료입니다. HuggingFace, GitHub, Microsoft Azure AI Foundry를 통해 다운로드하거나 API로 호출할 수 있습니다. Azure Foundry는 API 호출에 사용량 과금이 적용될 수 있으므로 확인이 필요합니다. (출처: microsoft/Phi-4-reasoning-vision-15B Model Card, 2026.03.04)
한국어 이미지 처리에도 쓸 수 있나요?
모델은 주로 영어 텍스트로 학습되었고, 공식 모델 카드는 영어 외 언어에서 성능 저하가 있을 수 있다고 명시합니다. 한국어 텍스트가 포함된 이미지나 한국어 질문에 대한 별도 벤치마크는 공개되지 않았습니다. 직접 테스트 후 사용 여부를 결정하는 것이 현실적입니다. (출처: HuggingFace Model Card, 2026.03.04)
로컬 실행에 어느 정도 사양이 필요한가요?
공식 권장 환경은 NVIDIA A6000, A100, H100, B200 GPU에 Ubuntu 22.04.5 LTS입니다. bf16 정밀도로 vLLM 서버 구동이 권장됩니다. 15B 모델이므로 최소 24GB 이상의 GPU 메모리가 필요할 것으로 예상되나, 공식 최소 사양은 기술 보고서에 명시되지 않아 확인이 필요합니다. (출처: HuggingFace Model Card, 2026.03.04)
공식 벤치마크에서 GPT-4o, Gemini 2.0과의 직접 비교 수치는 공개되지 않았습니다. 다만 Qwen3-VL-8B와 유사하거나 일부 항목에서 앞서는 수준입니다. MathVista 기준 75.2점은 Gemma3-12B(57.4점)보다 높지만, Qwen3-VL-32B(81.8점)보다는 낮습니다. 상업용 클로즈드 모델과의 직접 비교는 확인 필요합니다.
GUI 자동화 에이전트에 바로 쓸 수 있나요?
ScreenSpot v2에서 88.2점을 기록한 만큼 GUI 요소 인식과 그라운딩 기반의 에이전트 구성에 적합합니다. 다만 이 모델 자체가 에이전트 루프를 제공하지는 않으며, 비전 인식 컴포넌트로 활용하는 구조입니다. Codex CLI나 별도의 오케스트레이션 레이어와 결합해야 실제 자동화 에이전트가 됩니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

▲ 목차로 돌아가기

마치며 — 이 모델이 진짜 흥미로운 이유

솔직히 말하면, Phi-4 reasoning vision은 “가장 좋은 모델”이 아닙니다. MMMU 같은 광범위한 이해 벤치마크에서 32B 모델들에 상당히 밀립니다. 그리고 한국어 환경에서의 성능은 직접 테스트 전까지 미지수입니다.

그런데도 이 모델이 중요한 건, 방법론 때문입니다. 1조 토큰이 아닌 2,000억 토큰으로, 240개 B200 GPU로 단 4일 만에 경쟁 모델과 유사한 성능을 냈다는 사실은 데이터 품질이 데이터 규모를 이길 수 있다는 실증입니다. 게다가 MIT 라이선스로 완전히 공개해, 파인튜닝 코드와 벤치마크 로그까지 붙여서 배포했습니다.

에지 디바이스, 온프레미스 서버, 레이턴시에 민감한 인터랙티브 환경을 고려하는 팀이라면 살펴볼 가치가 있는 모델입니다. 막상 써보면 어디서 막히는지는, 직접 해봐야 압니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Microsoft Research 공식 블로그 — Phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model
    https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/
  2. HuggingFace Model Card — microsoft/Phi-4-reasoning-vision-15B
    https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B
  3. Phi-4-reasoning-vision-15B Technical Report — arXiv 2603.03975
    https://arxiv.org/html/2603.03975v1
  4. Forbes 분석 — Microsoft Builds A Compact AI Model That Decides When To Think (Janakiram MSV, 2026.03.06)
    https://www.forbes.com/sites/janakirammsv/2026/03/06/microsoft-builds-a-compact-ai-model-that-decides-when-to-think/
  5. VentureBeat — Microsoft built Phi-4-reasoning-vision-15B to know when to think and when not to (2026.03.04)
    https://venturebeat.com/technology/microsoft-built-phi-4-reasoning-vision-15b-to-know-when-to-think-and-when

본 포스팅은 2026년 3월 4일 공개된 공식 자료를 기반으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 수치는 Microsoft 공식 기술 보고서 및 HuggingFace Model Card 기준이며, 독자적 환경에서의 성능은 다를 수 있습니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기