📅 2026.03.04 기준 / Phi-4-reasoning-vision-15B
Phi-4-reasoning-vision, 클수록 좋다고요?
마이크로소프트가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B는 15B 파라미터짜리 오픈소스 멀티모달 추론 모델입니다. 경쟁 모델들이 1조 토큰 이상의 데이터로 훈련됐을 때, 이 모델은 그 1/5인 2,000억 토큰만 쓰고도 비슷한 크기의 모델들과 경쟁하는 성능을 냈습니다. 그런데 공식 수치를 직접 보면, “추론 모드를 켜면 당연히 성능이 오를 것”이라는 생각이 틀릴 때가 있다는 걸 발견했습니다.
MathVista 75.2점
ScreenSpot v2 88.2점
오픈소스 MIT 라이선스
이 모델이 갑자기 주목받는 이유
Phi-4-reasoning-vision-15B는 2026년 3월 4일 마이크로소프트 리서치가 공개한 멀티모달 추론 모델입니다. 이미지와 텍스트를 동시에 받아 수학 문제를 풀거나, 컴퓨터 화면 UI를 읽고 버튼 위치를 짚어내거나, 차트·문서를 분석하는 작업을 합니다. 현재 HuggingFace, GitHub, Microsoft Foundry에서 MIT 라이선스로 무료 공개 중입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)
이 모델이 화제가 된 이유는 크기보다 효율입니다. Phi 계열은 처음부터 “데이터 규모보다 데이터 품질”이라는 원칙을 고수해 왔고, 이번 비전 모델도 같은 흐름입니다. 240대의 NVIDIA B200 GPU로 딱 4일 만에 훈련을 마쳤습니다. 이건 수주에서 수개월이 걸리는 대형 모델 훈련과 비교하면 현실적인 차이입니다.
솔직히 말하면 벤치마크 순위가 가장 높은 모델은 아닙니다. 하지만 “같은 시간 안에 얼마나 정확한가”라는 기준으로 보면 이야기가 달라집니다. MS 공식 발표 Figure 1에서 정확도 대 응답 시간 그래프를 보면, Phi-4-reasoning-vision-15B는 파레토 최적 경계선 위에 위치합니다. 즉, 비슷한 속도의 모델보다 더 정확하고, 비슷한 정확도의 모델보다 훨씬 빠릅니다.
1/5 데이터로 어떻게 경쟁이 되나 — 훈련 전략 뜯어보기
이 대목이 핵심입니다. 경쟁 모델인 Qwen3-VL, Kimi-VL, Gemma3는 모두 멀티모달 훈련에 1조 토큰 이상을 사용했습니다. Phi-4-reasoning-vision-15B는 2,000억 토큰을 씁니다. 딱 5분의 1입니다. (출처: Microsoft Research 기술 보고서, arxiv.org/abs/2603.03975, 2026.03.04) 5배 적은 데이터로 경쟁이 된다는 건, 모델 품질이 데이터 양이 아닌 데이터 정제 과정에서 만들어진다는 뜻입니다.
💡 공식 발표문과 실제 데이터 처리 방식을 같이 놓고 보니 이런 차이가 보였습니다
MS 팀은 각 오픈소스 데이터셋을 수작업으로 뒤졌습니다. 데이터셋 하나당 5~10분씩 직접 샘플을 보면서 ① 우수 품질 ② 질문은 좋은데 정답이 틀린 것 ③ 이미지는 좋은데 질문이 형편없는 것 ④ 근본적으로 결함 있는 이미지 — 이렇게 네 가지로 분류했습니다. 정답이 틀린 경우에는 GPT-4o와 o4-mini로 재생성했고, 이미지만 괜찮은 경우는 그 이미지를 씨앗 삼아 새로운 질문-답변 쌍을 만들었습니다. MS 팀이 “놀라울 정도로 많은 포매팅 오류와 논리 오류를 발견했다”고 공식 보고서에 직접 밝혔습니다. 널리 쓰이는 오픈소스 데이터셋에도 오류가 많았다는 얘기입니다.
아키텍처는 미드퓨전(mid-fusion) 방식입니다. 이미지를 먼저 시각 토큰으로 변환한 뒤 언어 모델 임베딩 공간에 투영해 넣는 구조입니다. 비전 인코더는 SigLIP-2의 NaFlex 변형을 쓰고, 최대 3,600개의 시각 토큰을 처리합니다. 이는 대략 720p HD 해상도에 해당합니다. 덕분에 화면 UI처럼 밀도 높고 작은 요소들이 많은 이미지에서도 버튼 위치를 정확히 짚어낼 수 있습니다.
| 모델 | 파라미터 | 멀티모달 훈련 토큰 | MathVista | ScreenSpot v2 |
|---|---|---|---|---|
| Phi-4-reasoning-vision | 15B | 약 200B | 75.2 | 88.2 |
| Qwen3-VL-8B | 8B | 1T 이상 | 77.1 | 91.5 |
| Gemma3-12B | 12B | 1T 이상 | 57.4 | 3.5 |
| Qwen3-VL-32B | 32B | 1T 이상 | 81.8 | 93.9 |
출처: Microsoft Research 공식 기술 보고서 Table 3 (2026.03.04), 직접 벤치마크 수행 기준
눈에 띄는 건 Gemma3-12B의 ScreenSpot v2 점수가 3.5에 불과하다는 점입니다. 비슷한 크기인데 화면 UI 인식 능력이 전혀 없는 것이나 마찬가지입니다. 이건 단순 크기 비교가 의미 없다는 걸 숫자로 보여줍니다.
생각하면 더 잘하나요? — think 모드의 함정
“추론 모드를 강제로 켜면 무조건 정확도가 오른다”는 건 당연해 보이는 생각입니다. 막상 공식 수치를 보면 그렇지 않습니다. 이 부분이 기존 다른 곳에서 잘 다루지 않는 포인트입니다.
💡 공식 벤치마크 로그를 직접 놓고 비교하니 이런 수치가 나왔습니다
아래는 기본 동작 vs 강제 thinking 모드 vs 강제 nothink 모드의 공식 수치입니다. (출처: HuggingFace 모델카드 Table 2, 2026.03.04)
| 벤치마크 | 기본 동작 | 강제 thinking | 강제 nothink |
|---|---|---|---|
| AI2D (과학 다이어그램) | 84.8 | 79.7 | 84.7 |
| ChartQA (차트 이해) | 83.3 | 82.9 | 76.5 |
| MathVerse (수학 시각화) | 44.9 | 53.1 | 43.8 |
| ScreenSpot v2 (UI 인식) | 88.2 | 88.1 | 88.3 |
| OCRBench (문자 인식) | 76.0 | 73.7 | 75.6 |
출처: HuggingFace 모델카드 Table 1·2 (2026.03.04), 온도=0.0, 최대 4,096 출력 토큰 기준
AI2D처럼 과학 다이어그램 이해 과제에서는 thinking을 강제로 켰을 때 점수가 84.8 → 79.7로 오히려 떨어집니다. OCR도 마찬가지입니다. 반면 MathVerse처럼 수학적 추론이 필요한 벤치마크는 thinking 강제 시 44.9 → 53.1로 오릅니다. 기본 모드가 가장 우수한 이유는 모델이 과제 성격에 따라 스스로 판단해서 모드를 선택하기 때문입니다.
쓸 때 실용적인 포인트가 있습니다. 수학·과학 문제처럼 다단계 추론이 필요할 땐 프롬프트 뒤에 <think> 토큰을 붙여 강제로 추론 모드를 켤 수 있습니다. 반대로 캡션이나 빠른 인식 작업엔 <nothink>를 붙이면 불필요한 토큰 소비 없이 빠른 응답을 받을 수 있습니다.
수학 데이터 늘렸더니 화면 인식이 좋아진 이유
훈련 데이터 비율 실험에서 생각지도 못한 결과가 나왔습니다. 수학·과학 데이터를 3배 늘렸더니 수학 점수뿐 아니라 화면 UI 인식(CUA) 점수도 함께 올랐습니다. 직관적으로는 서로 관계없어 보이는 두 영역이 연결된 셈입니다.
💡 훈련 데이터 비율 실험 결과를 교차해서 보니 보이지 않던 연결이 나왔습니다
MS 기술 보고서 Table 4 기준 — 수학 데이터 150K → 450K(3배)로 늘리고 CUA 데이터는 450K로 유지했을 때 ScreenSpot-V2 점수가 48.2 → 48.3으로 유지됐고, 수학과 CUA를 동시에 3배로 늘렸을 때 ScreenSpot-V2가 63.1까지 올라갔습니다. 흥미로운 건 수학 데이터만 3배 늘려도 CUA 성능이 유지되거나 살짝 오른다는 점입니다. 이건 수학적 추론 훈련이 시각적 요소를 정밀하게 인식하는 능력과 공유하는 기저 능력(perception)을 강화하기 때문으로 해석됩니다.
MS 팀이 직접 밝힌 내용을 가져오면: “수학 데이터를 3배 늘리면서 CUA 데이터를 고정했을 때 수학, 과학, 컴퓨터 사용 벤치마크가 동시에 개선됐다.” (출처: MS Research 기술 보고서 Table 2 설명 텍스트, arxiv.org/abs/2603.03975) 작은 모델에서 영역 간 데이터가 서로를 강화하는 이 패턴은, AI 훈련에서 데이터 종류를 늘리는 것보다 품질 높은 추론 데이터를 집중시키는 게 더 효율적이라는 근거가 됩니다.
실용적으로는 이걸 로컬에서 파인튜닝할 때 참고할 수 있습니다. 화면 자동화 에이전트를 만들 목적이라면, CUA 데이터만 잔뜩 넣는 것보다 수학·추론 데이터를 함께 포함하는 게 성능을 끌어올리는 더 나은 경로일 수 있습니다.
실제 쓸 수 있는 곳과 쓰면 안 되는 곳
공식 모델카드에 명시된 주요 사용 적합 케이스는 두 가지입니다. 첫째, 과학·수학 시각 추론 — 수식이 포함된 이미지, 다이어그램 기반 문제, 차트 데이터 분석, 그래프 해석 등입니다. 둘째, 컴퓨터 화면 에이전트(CUA) — 데스크톱·웹·모바일 UI에서 버튼, 메뉴, 텍스트 필드를 찾고 좌표를 반환하는 작업입니다. 저지연이 필요한 인터랙티브 환경에서 특히 유리합니다.
쓰면 안 되는 상황도 공식 문서에 명확히 나와 있습니다
영어 외 언어는 성능이 눈에 띄게 낮아집니다. 모델카드에 “다국어 사용을 지원하도록 의도되지 않았다”고 직접 나옵니다. 한국어 문서 분석이나 한국어 이미지 OCR에 바로 쓰기엔 아직 무리가 있습니다. 의료 진단, 법률 조언, 금융 플래닝처럼 결과가 삶에 직접 영향을 주는 고위험 시나리오에도 사용을 권장하지 않습니다. 이 이유는 공개되지 않은 상세 사유가 아니라, 모델카드 2.2 Out-of-Scope Use Cases 항목에 명시된 사항입니다.
이미지 관련 안전 평가에서 Image-to-Text Safety Defect Rate가 4.5%로 나왔습니다. 텍스트 투 텍스트는 1.4%인데 시각적 입력에서는 비율이 높습니다. 멀티모달 특성상 이미지 안에 포함된 유해 요소 감지가 텍스트 전용보다 더 어렵기 때문입니다. 민감한 시각 콘텐츠를 다루는 서비스에는 추가 안전 레이어가 필요합니다. (출처: HuggingFace 모델카드 Section 3.1, 2026.03.04)
32B 모델과 비교하면 어디서 지는가
VentureBeat 보도와 공식 기술 보고서를 같이 놓고 보면 솔직한 그림이 나옵니다. Qwen3-VL-32B-Thinking(40K 토큰)과 비교 시 가장 차이가 크게 나는 곳은 복잡한 수학 추론입니다. MathVerse에서 Phi-4-reasoning-vision(thinking 강제 시 53.1) vs Qwen3-VL-32B-Thinking-40K(78.2)로 약 25점 차이가 납니다. MMMU 전반적 멀티모달 이해에서도 55.0 vs 72.2로 17점 이상 벌어집니다.
💡 추론 한도 토큰 수가 점수 차이의 핵심 변수입니다
Qwen3-VL-32B-Thinking에서 40K 토큰 설정이 4K 토큰 설정보다 수학 점수를 크게 끌어올리는 이유는, 더 긴 추론 과정을 허용하기 때문입니다. Phi-4-reasoning-vision-15B의 최대 출력 토큰 기준은 4,096개(4K)입니다. 경쟁 모델들이 40K까지 쓸 때, 같은 4K 한도에서 평가하면 격차가 많이 줄어듭니다. Qwen3-VL-8B-Thinking-4K는 MathVerse에서 67.3, Phi-4는 53.1로 여전히 차이가 있지만, 8B 모델 대비 격차는 관리 가능한 수준입니다.
반면 Phi-4-reasoning-vision이 확실히 앞서는 영역도 있습니다. HallusionBench(환각 탐지)에서는 Qwen3-VL-8B-Thinking(73.0)에는 밀리지만, ChartQA에서는 82.9로 Qwen3-VL-8B-Thinking-40K(78.6)를 넘습니다. ScreenSpot v2도 88.2로 Qwen3-VL-8B(91.5)와 근접한 수치입니다.
MS 팀 스스로 “20/80 추론 대 비추론 데이터 비율이 모든 도메인에서 최적이 아닐 수 있다”고 기술 보고서에 밝혔습니다. 추론과 비추론 모드를 언제 전환할지 정확히 판단하는 능력도 여전히 “열린 문제”로 명시돼 있습니다. 솔직한 공개 방식이지만, 바꿔 말하면 특정 도메인에서 기대와 다른 결과가 나올 수 있다는 뜻이기도 합니다.
Q&A
마치며
Phi-4-reasoning-vision-15B를 정리하면 이렇습니다. 벤치마크 1등 모델이 아닙니다. 그런데 “같은 시간 안에, 같은 하드웨어로, 얼마나 잘 동작하는가”라는 실제 배포 기준으로 보면 15B 오픈소스 모델 중 가장 현실적인 선택지 중 하나입니다.
가장 인상적인 건 “생각을 언제 할지 스스로 판단한다”는 설계 방향입니다. 큰 모델들이 모든 질문에 긴 추론 과정을 거치는 동안, 이 모델은 이미지 캡션에서는 즉시 답하고 수학 문제에서만 사고 과정을 펼칩니다. 공식 수치상 이게 효과가 있고, 추론을 강제로 켜면 오히려 단순 과제에서 성능이 떨어집니다.
한계도 분명합니다. 한국어 지원 부재, 복잡한 수학 추론에서 32B급 모델과의 점수 차, 출력 토큰 한도 4K가 만드는 추론 깊이 제약 — 이 세 가지는 실제 서비스에 쓰기 전 반드시 확인해야 할 조건들입니다. MIT 라이선스 오픈소스이고, 파인튜닝 코드까지 공개돼 있어서 한국어 특화 버전을 만드는 게 불가능하지는 않습니다.
📎 본 포스팅 참고 자료
- Microsoft Research 공식 블로그 — Phi-4-reasoning-vision-15B 발표 (microsoft.com/research/blog/…)
- Phi-4-reasoning-vision-15B Technical Report — arXiv (arxiv.org/abs/2603.03975)
- HuggingFace 공식 모델카드 (huggingface.co/microsoft/Phi-4-vision-reasoning-15B)
- VentureBeat — “Microsoft built Phi-4-reasoning-vision-15B to know when to think” (venturebeat.com/…)
- Microsoft Foundry 모델 카탈로그 (ai.azure.com/…)
⚠️ 본 포스팅은 2026년 3월 4일 출시 기준으로 작성됐습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 Microsoft Research 자체 평가 기준이며 독립적인 제3자 검증 결과와 다를 수 있습니다. 본 포스팅에 포함된 정보는 일반 참고 목적으로 제공되며, 법률·의료·금융 판단의 근거로 사용해서는 안 됩니다.











댓글 남기기