⚙️ 모델 버전: Phi-4-reasoning-vision-15B
MIT 라이선스 · 오픈웨이트
Phi-4-reasoning-vision 직접 써봤습니다
— 잘 되는 것과 안 되는 것
결론부터 말씀드리면, 이 모델은 “작은 게 당연히 약하다”는 공식을 숫자로 직접 깨뜨립니다. 경쟁사 대비 학습 데이터가 5분의 1도 안 되는데 비슷하거나 더 빠릅니다. 단, 그게 모든 상황에 해당하진 않습니다.
200B 토큰으로 1조 토큰 경쟁 모델과 싸우는 배경
AI 모델 학습에서 데이터 규모는 성능의 대리 지표로 쓰여왔습니다. Qwen3 VL, Kimi-VL, Gemma3 같은 경쟁 멀티모달 모델들은 모두 1조 토큰(1T tokens) 이상을 학습에 썼습니다. Phi-4-reasoning-vision-15B는 그 5분의 1도 안 되는 200B 토큰으로 훈련됐습니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)
비결은 데이터 양이 아니라 데이터 품질이었습니다. 연구팀은 오픈소스 데이터셋을 하나씩 직접 훑어보면서 “데이터셋당 5~10분”을 써서 품질을 수동으로 분류했다고 기술 보고서에 기록했습니다. 잘못된 정답이 포함된 데이터는 GPT-4o와 o4-mini로 재생성했고, 이미지만 좋고 질문이 엉터리면 그 이미지를 씨앗(seed)으로 새 데이터를 만들었습니다.
실제로 팀은 “널리 쓰이는 오픈소스 데이터셋에서 놀라울 정도로 많은 포맷·논리 오류를 발견했다”고 보고서에 직접 썼습니다. 이 사실이 의미하는 건 간단합니다 — 많은 모델들이 결함 있는 데이터 위에서 훈련되고 있다는 뜻입니다.
Phi-4-reasoning-vision-15B의 학습 구조는 3단계입니다. 1단계(MLP 사전훈련, 1.4B 토큰), 2단계(전체 모델 인스트럭션 튜닝, 188.5B 토큰), 3단계(멀티이미지·안전 데이터, 12B 토큰)입니다. 학습 GPU는 NVIDIA B200 240개, 소요 시간은 4일입니다. (출처: Hugging Face 모델카드, 2026.03.04) 같은 파라미터 규모 모델 중 이 정도 학습 효율은 현재로선 보기 드뭅니다.
모델 구조는 SigLIP-2 비전 인코더 + Phi-4-Reasoning 언어 백본을 미드퓨전(mid-fusion) 방식으로 결합했습니다. 이미지 토큰을 언어 모델의 임베딩 공간에 투영하는 방식이라 이미지와 텍스트를 처음부터 함께 처리하는 얼리퓨전 대비 연산 비용이 크게 낮습니다.
“생각을 켠다”는 기능, 항상 켜면 오히려 손해인 이유
요즘 AI 추론 모델의 트렌드는 “많이 생각할수록 정확하다”입니다. 실제로 OpenAI o-시리즈나 DeepSeek R1은 이 방향으로 설계됐습니다. 그런데 멀티모달 환경에서는 이 공식이 그대로 적용되지 않습니다.
공식 벤치마크 데이터를 보면, 특정 태스크에서는 <think> 모드를 강제로 켰을 때 오히려 점수가 내려갑니다. ChartQA는 기본값 83.3에서 강제 think 시 82.9로 떨어지고, ScreenSpot-v2에서는 nothink 강제가 88.3으로 기본값(88.2)보다 미세하게 높습니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)
| 벤치마크 | 기본값(혼합) | think 강제 | nothink 강제 |
|---|---|---|---|
| ChartQA_TEST | 83.3 | 82.9 ↓ | 76.5 |
| ScreenSpot_v2 | 88.2 | 88.1 | 88.3 ↑ |
| AI2D_TEST | 84.8 | 79.7 ↓ | 84.7 |
출처: Microsoft Research 공식 블로그 Table 4 (2026.03.04) / 독자가 직접 VLMEvalKit으로 재현 가능
연구팀은 기술 보고서에서 이렇게 직접 밝혔습니다. “이미지 캡셔닝이나 OCR 같은 지각 위주 태스크에서 추론은 불필요할 뿐 아니라 해로울 수도 있다.” 이 모델은 학습 데이터의 약 20%에만 추론 트레이스를 붙이고, 나머지 80%는 직접 응답으로 처리하도록 훈련됐습니다.
이를 실용적으로 바꾸면 이렇습니다 — 이 모델을 쓸 때 think 모드를 기본으로 켜는 건 오히려 일부 태스크에서 응답 품질을 깎습니다. 개발자라면 <nothink>와 <think>를 태스크에 맞게 선택적으로 지정하는 게 낫습니다.
수학 데이터 3배 늘렸더니 GUI 점수까지 올랐습니다
기술 보고서에서 발견한 데이터 비율 실험 결과는 꽤 낯설었습니다. 수학 데이터를 3배로 늘리면 수학 점수만 오를 것 같은데, 실제로는 GUI 그라운딩 점수도 같이 올라갔습니다. 직접 확인한 수치입니다.
| 수학 데이터 | CUA 데이터 | MathVista | ScreenSpot-V2 |
|---|---|---|---|
| 150K | 450K | 37.4 | 48.2 |
| 450K (3배) | 450K | 36.0 | 48.3 ↑ |
| 450K (3배) | 850K | 38.9 ↑ | 63.1 ↑↑ |
출처: Phi-4-reasoning-vision-15B Technical Report (arXiv:2603.03975, 2026.03.04)
연구팀은 이걸 “하나의 모델이 여러 추론 도메인에서 균등하게 뛰어날 수 있다”는 근거로 제시했습니다. 단일 도메인 전문화 모델을 여러 개 만드는 대신, 데이터 비율 설계만 잘 하면 범용 모델로도 충분히 커버된다는 의미입니다.
이 실험은 5B 파라미터 프록시 모델로 진행됐지만, 최종 15B 모델에도 같은 원리가 적용됐습니다. 수학적 추론 능력을 단련한 백본이 시각적 그라운딩 능력에도 양의 전이 학습(positive transfer)을 일으킨다는 것 — 이 부분이 기존 멀티모달 모델 학습 상식과 다릅니다.
이미지 해상도 설정 하나로 벤치마크가 2배 달라집니다
비전 인코더의 이미지 처리 방식 실험 결과도 눈길을 끌었습니다. 비주얼 토큰 상한을 2048에서 3600으로 늘리는 것만으로 ScreenSpot-Pro 점수가 9.2에서 17.5로 올랐습니다. 거의 두 배입니다. (출처: Technical Report, Table 1, 2026.03.04)
3600 토큰은 대략 720p HD 해상도에 해당합니다. 이게 중요한 이유는 현실 화면 — 데스크탑, 웹, 모바일 스크린 — 이 고밀도 정보를 담고 있기 때문입니다. 버튼 하나, 텍스트 필드 하나를 정확하게 찾아내려면 충분한 해상도로 인코딩해야 합니다.
다만 여기엔 트레이드오프가 있습니다. 비주얼 토큰이 많아질수록 어텐션 연산이 컨텍스트 길이에 대해 이차 복잡도(quadratic complexity)로 증가합니다. 연구팀은 이걸 “미해결 연구 과제(open research question)”로 직접 명시했습니다.
실제 배포 환경에서 고해상도 이미지를 많이 처리한다면 이 설정을 올리는 게 유리하지만, 지연 시간에 민감한 서비스라면 기본값을 유지하는 게 현실적입니다.
실제로 잘 쓸 수 있는 상황과 그렇지 않은 상황
✅ 이 모델이 강한 경우
GUI 에이전트 기반 작업에서의 강점은 수치로 명확합니다. ScreenSpot-v2 88.2점은 파라미터 규모가 비슷한 Gemma-3-12b-it(3.5점)와는 비교 자체가 안 되는 수준이고, Kimi-VL-A3B(89.8점)와는 1.6점 차이입니다. (출처: 공식 벤치마크, 2026.03.04) 스크린을 읽고 버튼을 찾는 용도로는 현재 오픈웨이트 모델 중 최상위권에 속합니다.
MathVista 75.2점도 같은 크기 모델 중에선 돋보입니다. Kimi-VL-A3B(67.1점), Gemma-3-12b-it(57.4점)를 큰 폭으로 앞섭니다. 이 수치가 의미하는 건 — 수식이 포함된 이미지를 넣고 계산을 시켜도 상당히 신뢰할 수 있다는 뜻입니다.
낮은 지연 시간이 필수인 온디바이스 또는 엣지 서버 환경, 그리고 영어 중심의 수학·과학 교육 콘텐츠 처리에서 이 모델은 실질적인 옵션입니다.
⚠️ 이 모델이 약한 경우
고난도 수학 추론에서는 큰 모델과 격차가 뚜렷합니다. MathVerse에서 Qwen3-VL-32B의 think 모드가 78.2인 반면, Phi-4-reasoning-vision의 think 강제 시 53.1에 그칩니다. 격차가 25점 이상입니다. MMMU에서도 Qwen3-VL-32B-Thinking(72.2) 대비 55.0으로 17점 이상 차이가 납니다.
다국어 처리도 공식 한계로 명시됩니다. 모델카드에는 “주로 영어 텍스트로 훈련됐고, 영어 이외 언어는 성능 저하가 있을 수 있다”고 직접 기재돼 있습니다. (출처: Hugging Face 모델카드, 2026.03.04) 한국어 문서 이해나 한국어 수식 풀이에 쓰려면 추가 파인튜닝이 필요할 수 있습니다.
컨텍스트 창 크기도 16,384 토큰으로 제한됩니다. 긴 문서를 통째로 처리하는 시나리오에서는 다른 선택지를 고려하는 게 현실적입니다.
공식 문서가 인정한 한계 — 제 생각도 담았습니다
솔직히 말하면, 이 모델 발표에서 가장 인상 깊었던 부분은 벤치마크 숫자보다 연구팀이 쓴 자기 비판 문장들이었습니다.
기술 보고서는 think/nothink 모드 전환 경계가 “학습 데이터 분포에서 암묵적으로 학습된 것”이라 “항상 최적이라 보장하기 어렵다”고 썼습니다. 또 20/80의 추론-비추론 데이터 비율이 “모든 도메인과 배포 환경에 최적은 아닐 수 있다”고도 인정했습니다. (출처: arXiv:2603.03975, 2026.03.04)
이미지-to-텍스트 안전 결함률(Image to Text Safety defect rate)이 4.5%라는 수치도 모델카드에 공개됐습니다. 텍스트-to-텍스트는 1.4%인데 이미지가 포함되면 3배 이상 올라갑니다. 비주얼 입력이 안전 판단을 흐릴 수 있다는 뜻이고, 이유는 아직 공개되지 않았습니다.
법적 판단, 의료 진단, 금융 계획, 고위험 의사결정 자동화 — 이 네 가지는 모델카드에 직접 “사용에 적합하지 않음”으로 기재돼 있습니다. 결과물의 정확성과 신뢰성을 인간이 반드시 검증해야 하는 영역에 단독 사용해선 안 됩니다. (출처: Hugging Face 모델카드, 2026.03.04)
개인적으로 이 모델이 흥미로운 건 “잘 된다”는 주장 못지않게 “이 부분은 아직 모른다”는 내용을 기술 보고서에 담았다는 점입니다. AI 모델 발표에서 이런 투명성은 아직 드뭅니다. 평가 로그를 공개하겠다고 약속한 것도 같은 맥락입니다.
자주 나오는 질문 5가지
마치며
Phi-4-reasoning-vision-15B는 “작은 모델은 타협의 산물”이라는 인식을 실제 수치로 흔드는 결과물입니다. 1조 토큰이 아닌 200B 토큰으로 경쟁하고, 4일 학습으로 경쟁 모델들과 어깨를 나란히 합니다.
그러나 이게 모든 걸 해결한다는 뜻은 아닙니다. 고난도 수학 추론, 다국어 처리, 긴 문서 컨텍스트 — 이 세 가지에서는 큰 모델들과 격차가 아직 분명합니다. 이 모델이 맞는 상황과 그렇지 않은 상황을 구분하는 게 실제 활용의 출발점입니다.
MIT 라이선스 오픈웨이트 공개, 파인튜닝 코드, 평가 로그 공개 약속까지 — 연구팀의 태도 자체도 주목할 만합니다. 이 모델이 얼마나 실전에서 쓰일지는 앞으로 커뮤니티 실측 결과들이 채워줄 것입니다.
- Microsoft Research 공식 블로그 — Phi-4-reasoning-vision (2026.03.04)
- Hugging Face 모델카드 — microsoft/Phi-4-reasoning-vision-15B (2026.03.04)
- arXiv:2603.03975 — Phi-4-reasoning-vision-15B Technical Report (2026.03.04)
- GitHub — microsoft/Phi-4-vision (파인튜닝 코드 및 예제)
- VentureBeat — Microsoft built Phi-4-reasoning-vision-15B (2026.03.04)
본 포스팅은 2026년 3월 24일 기준으로 공개된 공식 자료를 바탕으로 작성됐습니다.
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다.
벤치마크 수치는 Microsoft Research 자체 평가 결과이며, 독립적 재현 결과와 다를 수 있습니다.

댓글 남기기