Phi-4 reasoning vision, 5분의 1 데이터로 공식 수치 검증했습니다

Published on

in

Phi-4 reasoning vision, 5분의 1 데이터로 공식 수치 검증했습니다

2026.03.04 공개 기준
Phi-4-reasoning-vision-15B
TECH 카테고리

Phi-4 reasoning vision, 5분의 1 데이터로 공식 수치 검증했습니다

마이크로소프트가 2026년 3월 4일 공개한 Phi-4-reasoning-vision-15B는 “작은 모델이 큰 모델을 이긴다”는 주장의 가장 최신 버전입니다. 1조 토큰 이상을 쓴 경쟁 모델 대비 5분의 1 데이터만 써서 비슷한 정확도를 냈다고 하는데, 공식 보고서 수치를 직접 들여다봤습니다. 생각보다 훨씬 복잡한 구조가 있었습니다.

200B
학습 토큰
15B
파라미터
75.2
MathVista 점수
88.2
ScreenSpot v2

이 모델이 지금 주목받는 이유

2026년 3월 4일, Phi-4-reasoning-vision-15B가 Microsoft Foundry·HuggingFace·GitHub를 통해 오픈웨이트로 공개됐습니다. 150억 개 파라미터에 이미지와 텍스트를 동시에 처리하는 멀티모달 모델입니다. (출처: Microsoft Research 공식 블로그, 2026.03.04)

주목을 끈 건 성능보다 학습 방식이었습니다. 경쟁 모델들이 1조 개 이상의 멀티모달 토큰으로 학습한 것과 달리, 이 모델은 200억 개 토큰만 썼다는 점이 핵심이었습니다. 단순 비교로도 데이터 규모 차이가 5배에 달합니다.

동시에 퍼미시브 라이선스로 공개됐고, 파인튜닝 코드와 벤치마크 로그까지 함께 배포됐습니다. 기업 실무나 엣지 디바이스 배포를 고려하는 쪽에서 관심을 가질 만한 구조입니다. 물론 그게 실제로 쓸 만한지는 별개 문제입니다.

💡 공식 발표 타이밍과 시장 상황을 같이 놓고 보니 이런 구조가 보였습니다. 오픈소스 진영에서 Qwen3 계열이 치고 올라오는 시점에 MS가 “규모보다 효율”로 포지셔닝을 잡은 건데, 이게 실제 배포 비용 계산에서도 의미가 있는지 따져볼 필요가 있습니다.

▲ 목차로 돌아가기

5분의 1 데이터로 경쟁한다는 게 사실일까

MS 공식 발표에 따르면, Phi-4-reasoning-vision-15B는 총 200억 개의 멀티모달 토큰으로 학습됐습니다. 비교 대상인 Qwen2.5-VL, Qwen3-VL, Kimi-VL, Gemma3는 각각 1조 개 이상 사용했습니다. 숫자만 보면 Phi 쪽이 압도적으로 적습니다. (출처: Microsoft Research Blog, 2026.03.04)

그렇다면 어떻게 가능했을까요. 핵심은 “데이터를 많이 쓰는 대신 잘 쓴다”는 접근이었습니다. 팀원들이 오픈소스 데이터셋을 샘플 단위로 수동 검토했고, 오답이 있는 데이터는 GPT-4o와 o4-mini를 써서 재생성했습니다. 이미지는 좋은데 질문이 형편없으면 그 이미지를 새 데이터 생성의 씨드로 재활용했습니다.

MS 팀은 오픈소스 데이터셋에서 “놀라울 정도로 많은 포맷·논리 오류”를 발견했다고 직접 밝혔습니다. 이 부분이 흥미롭습니다. 업계에서 널리 쓰이는 오픈소스 학습 데이터 품질 자체에 물음표를 던진 셈입니다. 데이터 규모를 늘리는 게 능사가 아닐 수 있다는 증거이기도 합니다.

모델 파라미터 멀티모달 학습 토큰
Phi-4-reasoning-vision 15B 약 200B
Qwen3-VL (8B / 32B) 8B / 32B 1T 이상
Kimi-VL A3B 1T 이상
Gemma3 12B 1T 이상

출처: Microsoft Research Blog (2026.03.04), 각 모델 공식 기술 보고서

하지만 여기서 중요한 전제가 하나 있습니다. Phi-4-reasoning-vision은 이미 강력한 언어 모델 백본(Phi-4-Reasoning, 160억 토큰 학습)과 Phi-4(4000억 고유 토큰 학습)를 기반으로 합니다. 순수하게 처음부터 200억 토큰만 쓴 게 아니라는 뜻입니다. 누적 학습량으로 보면 차이가 줄어듭니다.

▲ 목차로 돌아가기

더 많이 생각할수록 나빠지는 경우가 있습니다

AI 모델이 추론을 많이 할수록 당연히 더 좋은 결과가 나올 거라고 기대하기 쉽습니다. 근데 공식 보고서에 딱 이렇게 나옵니다. 이미지 캡션 작성이나 OCR 작업에서는 추론 과정이 오히려 성능을 떨어뜨릴 수 있습니다. (출처: Phi-4-reasoning-vision-15B Technical Report, 2026.03.04)

실제 벤치마크 수치를 보면 더 명확합니다. ChartQA 테스트에서 기본 모드(혼합 추론)는 83.3점인데, 추론을 강제로 켠 경우 82.9점으로 오히려 낮아집니다. 불필요한 추론이 답변 품질을 끌어내리는 현상입니다. 길게 생각하면 항상 더 잘할 거라는 예상과 반대입니다.

💡 추론 켜기·끄기 효과를 벤치마크별로 따로 비교해보니 이게 나왔습니다.

  • ChartQA: 기본 83.3 → 추론 강제 82.9 (소폭 하락)
  • MathVerse: 기본 44.9 → 추론 강제 53.1 (수학에선 상승)
  • ScreenSpot v2: 기본 88.2 → 추론 강제 88.1 (거의 동일)

출처: MS Research Blog Table 3, 4 (2026.03.04) — 직접 계산한 수치

그래서 이 모델은 “언제 생각하고 언제 바로 답할지” 스스로 판단하도록 설계됐습니다. 학습 데이터의 약 20%에만 단계적 사고 과정(`<think>` 태그)을 포함하고, 나머지 80%는 바로 응답(`<nothink>` 태그)으로 처리됩니다. 사용자가 원하면 명시적으로 태그를 써서 모드를 강제할 수도 있습니다.

이 20/80 비율이 최적이냐는 MS 팀도 확언하지 않습니다. 공식 보고서에 “도메인이나 배포 환경에 따라 최적 비율이 다를 수 있다”고 직접 적혀 있습니다. 열린 문제라는 인정입니다.

▲ 목차로 돌아가기

공식 벤치마크 수치, 직접 확인한 결과

MS 팀은 자체 평가를 직접 실행했고, 리더보드 수치를 그대로 인용하지 않았습니다. 온도 0.0, 그리디 디코딩, 최대 출력 토큰 4096으로 통일해서 돌린 결과입니다. 공식 블로그에 “다른 곳 숫자보다 낮을 수 있다”고 명시했는데, 그게 오히려 신뢰할 수 있는 이유가 됩니다. (출처: Microsoft Research Blog, 2026.03.04)

벤치마크 Phi-4-RV (15B) Qwen3-VL (8B) Qwen3-VL (32B)
AI2D_TEST (과학 도해) 84.8 83.0 85.0
ChartQA_TEST 83.3 83.2 84.0
MathVista_MINI 75.2 76.4 81.8
MMMU_VAL 54.3 64.6 70.6
ScreenSpot_v2 (UI 그라운딩) 88.2 91.5 93.9

출처: Microsoft Research Blog, Table 3 (2026.03.04) / 기본(혼합 추론) 모드 수치

수치를 해석하면 이렇습니다. ChartQA와 AI2D에서는 절반 크기인 Qwen3-VL-8B와 거의 대등하거나 오히려 앞섭니다. 그런데 MMMU(다분야 멀티모달 이해)에서는 54.3점으로 8B 모델의 64.6점에도 못 미칩니다. 파라미터가 두 배인데 이 항목에서 뒤지는 건 분명히 아쉬운 부분입니다.

ScreenSpot v2는 88.2점으로 높은 편이지만, 역시 8B와 32B Qwen3-VL에는 미치지 못합니다. 특히 GUI 에이전트 쪽으로 쓸 계획이라면 이 간격이 실제 사용에서 어떻게 드러나는지 테스트가 필요합니다.

▲ 목차로 돌아가기

실제 쓸 때 막히는 지점들

Reddit LocalLLaMA 커뮤니티 반응을 보면, 가장 많이 언급된 한계는 두 가지입니다. 먼저 16K 컨텍스트 제한입니다. 2026년 기준으로 경쟁 모델 대부분이 32K~128K를 지원하는데, Phi-4-reasoning-vision은 16K에 머뭅니다. 긴 문서 분석이나 멀티턴 대화가 많은 사용 환경에서는 실제로 부족합니다. (출처: Reddit r/LocalLLaMA, 2026.03.05)

다음은 범용 멀티모달 이해(MMMU)에서의 성능 격차입니다. 앞서 표에서 봤듯 MMMU 54.3점은 파라미터 대비 기대치를 밑돕니다. 멀티턴 추론과 복잡한 지식 통합이 필요한 작업에서는 경쟁 모델 대비 체감 차이가 날 수 있습니다.

⚠️ 쓰기 전에 확인할 것

  • 긴 문서 전체를 한 번에 분석해야 한다면 16K 컨텍스트가 벽이 됩니다
  • 수학·과학 이미지 추론에는 강하지만, 광범위한 지식 통합(MMMU 유형) 작업에는 약합니다
  • 멀티턴 대화 품질이 Phi-4 계열 전반의 약점으로 꼽힙니다 (커뮤니티 의견)
  • 20/80 추론 비율이 내 사용 환경에 맞지 않을 경우, 직접 프롬프트로 모드를 강제해야 합니다

그럼에도 240개 NVIDIA B200 GPU를 4일 돌린 규모의 학습이 “적은 비용”으로 소개된다는 점은 솔직히 웃기긴 합니다. 일반 개인이나 소규모 팀이 복제하거나 파인튜닝할 수 있는 범위의 얘기는 아닙니다. 다만 추론(인퍼런스) 자체는 12GB VRAM 환경에서 Q4_K_M 양자화로 구동 가능하다는 점은 실용적인 소식입니다.

▲ 목차로 돌아가기

어떤 상황에서 진짜 쓸모 있나

공식 보고서와 실사용 후기를 교차해서 보면, 이 모델이 실제 가치를 발휘하는 상황이 꽤 구체적으로 좁혀집니다. 수학·과학 이미지 기반 추론, 고해상도 UI 스크린 해석, 영수증·문서 OCR, 차트 데이터 추출처럼 추론과 시각 인식이 함께 필요한 좁은 작업에서 경쟁력이 확인됩니다.

특히 GUI 에이전트(컴퓨터 사용 에이전트, CUA) 분야에서 낮은 지연 시간과 소형 모델 사이즈가 강점으로 작용합니다. 실시간 화면 캡처를 분석하면서 버튼을 클릭하거나 메뉴를 탐색하는 에이전트 파이프라인에서는 크고 느린 모델보다 빠르고 작은 모델이 현실적입니다. ScreenSpot v2 88.2점은 그 쪽에서 쓸 만한 근거가 됩니다.

💡 배포 비용 관점으로 다시 놓고 보면 수치가 다르게 읽힙니다.

32B 모델 대비 정확도를 5~10% 포기하고 추론 속도와 인프라 비용을 획기적으로 낮출 수 있다면, API 호출 수가 많은 프로덕션 환경에서는 실제로 의미 있는 선택지가 됩니다. 벤치마크 점수가 아니라 호출당 비용과 지연 시간으로 따지는 시각이 필요합니다.

오픈웨이트라는 점도 간과하면 안 됩니다. 파인튜닝 코드와 벤치마크 로그가 모두 공개됐기 때문에, 특정 도메인 데이터로 추가 학습할 환경이 된다면 범용 점수의 한계를 상당 부분 커버할 수 있습니다.

반면 광범위한 일반 지식, 긴 문서 이해, 복잡한 멀티턴 대화가 중심이 되는 상황이라면 Qwen3-VL-8B나 -32B가 현 시점에서 더 현실적인 선택입니다. MMMU 수치 차이는 무시하기 어렵습니다.

▲ 목차로 돌아가기

Q&A 5가지

Q1. Phi-4-reasoning-vision-15B는 무료로 쓸 수 있나요?

모델 웨이트 자체는 HuggingFace와 GitHub에서 무료로 다운로드 가능합니다. Azure AI Foundry에서는 API 방식(종량제)으로 사용할 수 있고, 로컬 실행은 12GB VRAM 이상 환경에서 Q4_K_M 양자화 버전으로 가능합니다. (출처: Microsoft Foundry 공식 페이지, 2026.03.04)

Q2. GPT-4o나 Gemini 3 Pro보다 성능이 좋은 건가요?

전체 범용 성능에서는 아닙니다. 수학·과학 이미지 추론과 UI 그라운딩 같은 좁은 영역에서는 경쟁력이 있지만, MMMU 같은 광범위한 멀티모달 이해에서는 GPT-4o나 대형 모델과 상당한 격차가 있습니다. 전반적 능력보다 특정 사용 사례에서 속도와 비용 효율이 강점입니다.

Q3. <think> 태그를 직접 써야 하나요?

기본적으로는 모델이 스스로 판단합니다. 수학·과학 문제에는 자동으로 추론 모드를 켜고, 캡션이나 OCR은 바로 답합니다. 원하는 모드를 명시하고 싶다면 프롬프트에 <think> 또는 <nothink> 토큰을 직접 포함하면 강제할 수 있습니다. (출처: MS Research Blog 공식 가이드, 2026.03.04)

Q4. 한국어 지원은 어느 정도 되나요?

Phi 계열 모델은 기본적으로 영어에 최적화되어 학습됐습니다. Microsoft 공식 문서에서 다국어 성능은 제한적이라고 밝히고 있으며, 한국어 복잡 추론 작업에서는 영어 대비 품질 차이가 발생할 수 있습니다. 한국어 특화 작업은 파인튜닝을 고려해야 합니다. (출처: Azure Microsoft Phi 공식 제품 페이지)

Q5. Phi-5 출시 계획은 있나요?

Microsoft는 공식적인 Phi-5 출시 로드맵을 공개하지 않은 상태입니다. Reddit 커뮤니티에서는 2026년 3월 기준으로 MAI-1 이후 새로운 대형 모델 발표가 없다는 점을 언급하기도 했습니다. Phi-4 기반 확장 모델들이 계속 나오는 흐름이지만 차세대 라인업은 아직 이유가 공개되지 않았습니다.

▲ 목차로 돌아가기

마치며

Phi-4-reasoning-vision-15B를 공식 수치로 들여다보면, “작아도 충분하다”는 주장이 완전히 틀리진 않습니다. ChartQA·AI2D에서 두 배 크기 모델과 거의 대등하고, 학습 토큰은 5분의 1이라는 수치는 인상적입니다. 수학·과학 이미지 추론과 GUI 에이전트 파이프라인에서는 실제로 고려할 만한 옵션입니다.

그런데 솔직히 말하면, MMMU 54.3점과 16K 컨텍스트 한계는 무시하기 어렵습니다. 2026년 기준으로 범용 멀티모달 이해 쪽을 노린다면 이미 더 나은 선택지가 있습니다. “MS 생태계 안에서 써야 한다”거나 “엣지 디바이스에 올려야 한다”는 제약이 없다면, 특정 작업에 먼저 테스트해보고 결정하는 게 맞습니다. 벤치마크 점수보다 실제 작업에서 어떻게 움직이는지가 결국 중요합니다.

▲ 목차로 돌아가기

본 포스팅 참고 자료

  1. Microsoft Research Blog — Phi-4-reasoning-vision and the lessons of training a multimodal reasoning model
    https://www.microsoft.com/en-us/research/blog/phi-4-reasoning-vision-and-the-lessons-of-training-a-multimodal-reasoning-model/
  2. Phi-4-reasoning-vision-15B Technical Report (arXiv 2603.03975, 2026.03.04)
    https://arxiv.org/abs/2603.03975
  3. VentureBeat — Microsoft built Phi-4-reasoning-vision-15B to know when to think (2026.03.04)
    https://venturebeat.com/technology/microsoft-built-phi-4-reasoning-vision-15b-to-know-when-to-think-and-when
  4. NVIDIA Developer Blog — Latest Multimodal Addition to Microsoft Phi SLMs
    https://developer.nvidia.com/ko-kr/blog/latest-multimodal-addition-to-microsoft-phi-slms-trained-on-nvidia-gpus/
  5. HuggingFace — microsoft/Phi-4-reasoning-vision-15B (모델 카드)
    https://huggingface.co/microsoft/Phi-4-reasoning-vision-15B

본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. 벤치마크 수치는 Microsoft Research가 직접 실행한 2026년 3월 4일 기준 수치이며, 이후 모델 업데이트나 평가 방법 변경에 따라 달라질 수 있습니다. 모든 판단은 공식 문서를 직접 확인한 후 내리시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기