Phi-4-reasoning-vision-15B / MIT 라이선스
오픈 웨이트 공개
Phi-4-reasoning-vision,
생각할 때만 생각합니다
결론부터 말씀드리면, 이 모델의 핵심은 크기가 아닙니다. 15B 파라미터짜리 모델이 1조 토큰으로 훈련된 경쟁작들과 나란히 서는 이유는 딱 하나, 무엇을 학습시키느냐의 문제입니다. 그리고 그 선택의 결과가 생각보다 훨씬 날카롭게 나왔습니다.
(ScreenSpot v2)
(경쟁작 1/5 수준)
(240× B200 GPU)
(상업 이용 가능)
경쟁 모델의 1/5 데이터로 어떻게 비슷한 성능이 나올까요?
Phi-4-reasoning-vision-15B는 2026년 3월 4일 마이크로소프트 리서치가 공식 발표한 오픈 웨이트 멀티모달 추론 모델입니다. 15B 파라미터에 MIT 라이선스, 그리고 HuggingFace·GitHub·Azure AI Foundry를 통해 무료로 배포됩니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)
학습 데이터 양이 이 모델에서 가장 자주 거론되는 숫자입니다. 200B(2,000억) 토큰. Alibaba Qwen 3 VL, Google Gemma3, Moonshot AI Kimi-VL은 모두 1조 토큰(1T) 이상을 사용했습니다. 단순 비율로 계산하면 Phi-4가 경쟁작의 약 20%에 해당하는 데이터만 쓴 셈입니다. (출처: Microsoft Research 기술 보고서 arXiv:2603.03975, 2026.03.04)
💡 공식 발표문과 실제 학습 파이프라인을 같이 놓고 보니 이런 차이가 보였습니다 — 마이크로소프트는 오픈소스 데이터셋을 그냥 쌓은 것이 아니라, GPT-4o와 o4-mini로 오답을 재생성하고 저품질 이미지는 새 캡션 생성의 시드로 재활용했습니다. 데이터 볼륨이 아닌 데이터 밀도를 높이는 방식인데, 이 접근은 기존 대형 모델 훈련 패러다임과 정반대 방향입니다.
실제로 연구팀은 각 오픈소스 데이터셋을 직접 수작업으로 검토했습니다. 데이터셋당 5~10분이면 품질을 분류할 수 있었다고 밝혔는데, 그 과정에서 “널리 쓰이는 오픈소스 데이터셋 전반에서 놀라울 정도로 많은 포맷·논리 오류를 발견했다”고 명시했습니다. (출처: arXiv:2603.03975, Section 3.1) 이 수치가 실생활에서 의미하는 것은 하나입니다. 지금 수많은 AI 모델이 품질 검증 없이 수집된 데이터를 그대로 학습하고 있을 가능성이 높다는 점입니다.
수학 데이터를 늘렸더니 화면 인식 성능도 올라갔습니다
이 부분이 기술 보고서에서 가장 흥미로운 실험 결과입니다. 마이크로소프트 팀은 5B 파라미터 프록시 모델로 수학/과학 데이터 비율과 컴퓨터 사용(CUA) 데이터 비율을 달리하며 성능을 측정했습니다. 상식적으로는 서로 다른 도메인의 데이터니까 한쪽을 늘리면 다른 쪽에 영향이 없어야 할 것 같습니다.
| 일반 데이터 | 수학 데이터 | CUA 데이터 | MathVista | ScreenSpot-V2 |
|---|---|---|---|---|
| 1M | 150K | 450K | 37.4 | 48.2 |
| 1M | 450K (3배) | 850K | 38.9 | 63.1 (+15%p) |
CUA 데이터를 유지한 상태에서 수학 데이터를 3배로 늘렸더니 ScreenSpot-V2(화면 UI 인식)가 48.2에서 63.1로 15%p 급등했습니다. 이 수치가 의미하는 것은, 수학적 추론 능력과 시각적 공간 인식은 별개의 능력이 아니라 깊은 층에서 공유되는 구조적 표현을 통해 함께 향상된다는 것입니다. 단순히 더 많은 스크린샷 데이터를 넣어야 화면 인식이 좋아진다고 생각했다면, 이 결과는 그 직관에 정면으로 어긋납니다. (출처: arXiv:2603.03975, Section 3.2)
💡 두 도메인을 각각 학습한 별도 모델보다 하나의 모델을 함께 훈련하는 것이 더 효율적일 수 있다는 논거가 이 실험에서 나옵니다. 모델을 분리해 운영하는 MLOps 비용을 고려하면 실용적으로도 의미 있는 발견입니다.
20%만 생각하고, 나머지 80%는 바로 답합니다
현재 AI 업계의 주류 흐름은 “항상 생각하게 하자”입니다. 추론 모드(Thinking Mode)를 켜면 응답 품질이 올라간다는 경험칙 때문입니다. 그런데 마이크로소프트는 여기서 다른 선택을 했습니다.
Phi-4-reasoning-vision-15B는 훈련 데이터의 약 20%에만 <think>...</think> 추론 토큰이 포함되어 있습니다. 수학·과학처럼 단계적 추론이 유용한 도메인이 여기에 해당합니다. 나머지 80%는 <nothink> 태그로 처리해 이미지 캡션 생성, OCR, 간단한 VQA 같은 인식 중심 작업에서는 즉시 응답합니다. (출처: HuggingFace 모델 카드, microsoft/Phi-4-reasoning-vision-15B)
📌 공식 연구팀이 직접 인정한 내용: 추론 모드를 무조건 켜면 이미지 캡션 같은 단순 지각 작업에서는 오히려 성능이 떨어진다는 사실이 논문에 명시되어 있습니다. (출처: arXiv:2603.03975, Section 4) 이 말은 단순한 사진 설명을 부탁할 때는 항상 추론 모드를 끄는 편이 더 좋은 결과를 줄 수 있다는 뜻입니다.
생각할지 말지를 모델이 자동으로 판단하게 하되, 사용자가 명시적으로 <think> 또는 <nothink> 토큰을 프롬프트 끝에 붙이면 동작 방식을 강제로 바꿀 수 있습니다. 다만 연구팀은 “어느 상황에서 어떤 모드가 더 낫냐는 아직 열린 질문”이라고 밝혔습니다. 완벽하게 정해진 규칙은 없다는 뜻입니다.
공식 벤치마크에서 이 부분이 걸립니다
성능이 좋다는 말은 맞지만, “어떤 기준에서 좋다”는 말을 정확히 해야 합니다. 마이크로소프트는 자체 평가를 직접 수행하고, 리더보드 숫자를 그대로 인용하지 않았다고 명시했습니다. (출처: HuggingFace 모델 카드) 이 투명성은 오히려 실제 수치의 신뢰도를 높여줍니다.
| 벤치마크 | Phi-4-r-v (15B) |
Qwen3-VL (8B) |
Qwen3-VL (32B) |
|---|---|---|---|
| ChartQA (차트 이해) | 83.3 | 83.1 | 84.0 |
| MathVista (수학 추론) | 75.2 | 76.4 | 81.8 |
| ScreenSpot v2 (UI 인식) | 88.2 | 91.5 | 93.7 |
| MMMU (종합 이해) | 54.3 | 60.7 | 68.6 |
| MathVerse (심화 수학) | 44.9 | 57.4 | 64.2 |
숫자를 보면 차트 이해와 UI 인식에서는 동급 8B 모델과 사실상 같은 수준입니다. 그런데 심화 수학(MathVerse)에서는 차이가 벌어집니다. Qwen3-VL-8B가 57.4, Qwen3-VL-32B는 64.2인데 Phi-4는 44.9입니다. 이 부분이 솔직히 좀 아쉬웠습니다. 사용자가 복잡한 다단계 수학 문제 풀이를 주요 목적으로 삼는다면, 파라미터 크기 차이를 데이터 효율성만으로 완전히 메우기는 아직 어렵습니다.
또한 공식 모델 카드에는 “영어 중심 학습 데이터로 훈련되었으므로 영어 이외 언어에서 성능이 저하될 수 있다”고 명시되어 있습니다. (출처: HuggingFace 모델 카드) 한국어·다국어 환경에서의 성능 격차는 현 시점에서 확인 필요 상태입니다.
실제로 어디에 쓸 수 있고, 어디서 멈추나요?
공식 기술 보고서에서 명시한 주요 사용 사례는 크게 두 가지입니다. 첫째는 화면 기반 에이전트(Computer-Using Agent, CUA)이고, 둘째는 수학·과학 시각 추론입니다. UI 인식 ScreenSpot v2 기준 88.2%는 데스크톱·웹·모바일 화면에서 버튼, 메뉴, 텍스트 필드를 찾아내는 성능을 측정한 결과입니다. (출처: arXiv:2603.03975)
이런 상황에서 강점이 나왔습니다
영수증·문서 텍스트 읽기(OCR), 차트에서 수치 추출, 손으로 쓴 수학 문제 풀기, 여러 이미지를 연속으로 보며 변화 파악하기, 고해상도 스크린샷에서 클릭할 UI 요소 정확히 짚어내기가 여기 해당합니다. 특히 720p(3,600 토큰) 수준의 고해상도 인코딩 덕분에 작은 버튼이나 밀집된 화면에서도 성능 저하가 제한적입니다.
막상 써보면 이 단계에서 멈춥니다
컨텍스트 길이가 16,384 토큰으로 제한되어 있습니다. 긴 문서 전체를 한 번에 처리하거나 매우 긴 대화를 유지하는 용도에는 적합하지 않습니다. 한국어를 포함한 비영어권 언어, 의료·법률·금융 전문 영역, 고위험 의사결정 시나리오에서는 추가적인 검증이 반드시 필요합니다. (출처: HuggingFace 모델 카드, ‘2.2 Out-of-Scope Use Cases’) 모델이 자신 있게 말하더라도 그 내용을 맹신하면 곤란한 상황이 생길 수 있습니다.
한국어 사용 환경에서 먼저 확인해야 할 것
이 부분은 기존 영어권 리뷰에서 거의 다루지 않는 시각입니다. Phi-4-reasoning-vision-15B의 훈련 데이터와 안전 평가 기준은 영어 중심으로 설계되어 있습니다. 모델 카드에는 “영어 이외 언어는 성능 저하가 예상되며, 이 모델은 다국어 사용을 지원하도록 설계되지 않았다”는 문장이 명시되어 있습니다. (출처: HuggingFace 모델 카드, Section 2.6)
⚠️ 한국어 화면(스크린샷)을 입력했을 때의 UI 인식 성능, 한국어 수식 이미지에서의 수학 추론 정확도는 공식 벤치마크에 포함되어 있지 않습니다. 실사용 전 직접 테스트가 필요합니다.
실행 환경도 확인해야 합니다. HuggingFace 모델 카드에 따르면 Phi-4-reasoning-vision-15B는 NVIDIA A6000, A100, H100, B200 GPU에서 테스트됐습니다. torch >= 2.7.1, transformers >= 4.57.1이 요구됩니다. bf16 정밀도로 vLLM 서버를 통해 구동하는 방식을 공식 권장합니다. 소비자용 GPU에서의 동작은 확인 필요 상태입니다. (출처: HuggingFace 모델 카드, Section 2.5)
MIT 라이선스이므로 상업적 활용이 가능하고, 파인튜닝 코드와 벤치마크 평가 로그도 함께 공개됩니다. 한국어 특화 파인튜닝을 직접 진행하는 팀이라면 이 투명성이 큰 이점입니다. 다만 파인튜닝 없이 한국어로 바로 프로덕션에 쓰기는 어려울 수 있습니다.
자주 나오는 질문들
Phi-4-reasoning-vision-15B는 무료인가요?
MIT 라이선스로 오픈 웨이트 공개됩니다. HuggingFace와 GitHub에서 모델 가중치를 무료로 다운로드할 수 있고, 상업적 활용도 가능합니다. Azure AI Foundry를 통한 API 호출은 별도 요금이 발생할 수 있습니다. (출처: HuggingFace 모델 카드, 2026.03.04)
GPT-4o나 Gemini와 비교하면 어떤 수준인가요?
직접 비교 벤치마크는 이 기술 보고서에 포함되어 있지 않습니다. 공개된 데이터 기준으로 동급 오픈 웨이트 소형 모델(8B~15B) 범주에서 경쟁력 있는 수치를 보여주지만, GPT-4o·Gemini 같은 대형 API 모델과의 정량적 비교는 확인 필요 상태입니다.
한국어 이미지나 한국어 화면 입력이 가능한가요?
기술적으로 입력은 가능하지만, 공식 모델 카드는 “다국어 사용을 위해 설계되지 않았으며 영어 외 언어에서 성능 저하가 예상된다”고 명시했습니다. 한국어 환경에서의 성능은 사전 테스트 후 판단해야 합니다. (출처: HuggingFace 모델 카드)
think/nothink 모드는 어떻게 제어하나요?
프롬프트 끝에 <think> 토큰을 붙이면 추론 모드, <nothink>를 붙이면 직접 응답 모드로 강제 전환됩니다. 기본 동작은 모델이 자동으로 판단합니다. HuggingFace 모델 카드에 입력 형식 예시가 공식 제공됩니다.
일반 소비자용 GPU에서도 돌아가나요?
공식 테스트 환경은 NVIDIA A6000, A100, H100, B200입니다. 소비자용 RTX 40 시리즈에서의 동작은 공식적으로 확인되지 않았습니다. Reddit의 LocalLLaMA 커뮤니티에서는 퀀타이즈된 버전(GGUF 등)으로 실행 시도가 진행 중이지만 안정성은 확인 필요 상태입니다.
마치며 — 이게 핵심입니다
Phi-4-reasoning-vision-15B가 흥미로운 이유는 단지 “작은데 잘한다”는 말 때문이 아닙니다. 데이터 1/5로 비슷한 결과를 낸 배경에는 수작업 품질 검토, 오답 재생성, 이미지 재활용이라는 구체적인 방법론이 있습니다. 그리고 수학 데이터를 늘렸더니 화면 인식 성능까지 올라간 실험 결과는 AI 학습에 관한 통념을 실제 수치로 흔든 사례입니다.
다만 심화 수학 추론에서의 격차, 16K 컨텍스트 제한, 한국어·다국어 지원의 한계는 사용 전에 반드시 고려해야 합니다. 특히 한국어 화면이나 한국어 문서를 주로 다루는 환경이라면 직접 테스트 없이 바로 프로덕션에 투입하기는 이른 시점입니다.
MIT 라이선스와 공개된 파인튜닝 코드를 활용해 한국어 특화 버전을 만드는 것은 충분히 현실적인 선택지입니다. 이 부분이 향후 커뮤니티에서 어떻게 발전하는지 지켜볼 만합니다.
📚 본 포스팅 참고 자료
- Microsoft Research 공식 블로그 — Phi-4-reasoning-vision (2026.03.04)
- arXiv 기술 보고서 — arXiv:2603.03975 (2026.03.04)
- HuggingFace 모델 카드 — microsoft/Phi-4-reasoning-vision-15B
- VentureBeat — Microsoft built Phi-4-reasoning-vision-15B to know when to think (2026.03.04)
- Forbes — Microsoft Builds A Compact AI Model That Decides When To Think (2026.03.06)
⚠️ 면책 조항: 본 포스팅은 2026년 3월 19일 공개된 공식 자료를 기반으로 작성되었습니다. 본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 마이크로소프트의 AI 서비스는 업데이트로 인해 모델 성능·가격·라이선스·접근 방식이 달라질 수 있으므로, 실사용 전 공식 채널에서 최신 정보를 반드시 확인하시기 바랍니다.


댓글 남기기