Phi-4-reasoning-vision 완전정복: 느린 AI 추론, 15B로 끝내는 법

Published on

2026년 3월 14일

Phi-4-reasoning-vision 완전정복
느린 AI 추론, 15B로 끝내는 법

2026년 3월 4일, 마이크로소프트가 조용히 꺼낸 카드 하나가 AI 업계를 뒤흔들었습니다.
겨우 15B 파라미터짜리 모델이 32B급 경쟁자와 대등한 성능을 보여주면서,
“작아도 된다”는 명제를 다시 증명해냈습니다.

📅 2026.03.04 출시
⚡ 15B 파라미터 오픈웨이트
🧮 수학·과학 추론 특화
🖥️ 화면 에이전트 지원
🆓 MIT 라이선스

Phi-4-reasoning-vision이란? — 뭐가 달라졌나

Phi-4-reasoning-vision은 마이크로소프트 리서치가 2026년 3월 4일 공개한 15B(150억) 파라미터 규모의 오픈웨이트 멀티모달 추론 모델입니다. 이미지와 텍스트를 동시에 입력받아 수학 문제 풀이, 과학적 추론, 문서 분석, GUI 화면 조작까지 단일 모델에서 처리한다는 점이 가장 큰 특징입니다. 기존 Phi 시리즈가 텍스트 전용 언어 모델에 집중했다면, 이번에는 ‘보고 생각하는’ 능력을 정면으로 탑재한 셈입니다.

무엇보다 눈길을 끄는 건 출시 타이밍입니다. GPT-5.4 출시로 AI 업계가 대형 모델 경쟁에 빠져 있는 사이, 마이크로소프트는 반대 방향을 선택했습니다. 13조 토큰 이상을 투입한 Qwen3-VL이나 Kimi-VL에 비해 고작 200억 토큰의 멀티모달 데이터만 사용하고도 경쟁력 있는 성능을 달성했다는 사실은, ‘데이터 규모보다 데이터 품질’이라는 Phi 철학의 정수를 보여줍니다. 라이선스도 MIT로 공개되어 있어 상업적 활용도 완전히 자유롭습니다.

💡 핵심 요약: 15B 파라미터, MIT 라이선스, 2026년 3월 4일 출시. HuggingFace·Azure AI Foundry·GitHub에서 즉시 사용 가능. 이미지+텍스트 입력 → 텍스트 출력 구조.

▲ 목차로 돌아가기

핵심 아키텍처 해부 — 왜 작은데 강력한가

미드-퓨전(Mid-fusion) 아키텍처의 선택

Phi-4-reasoning-vision은 비전 인코더와 언어 모델을 결합하는 방식으로 ‘미드-퓨전(mid-fusion)’ 구조를 채택했습니다. 이미지를 먼저 SigLIP-2 비전 인코더로 처리해 시각 토큰으로 변환한 뒤, 이를 Phi-4-Reasoning 언어 모델의 임베딩 공간에 주입하는 방식입니다. 이미지 패치와 텍스트를 하나의 트랜스포머에서 처음부터 함께 처리하는 ‘얼리-퓨전(early-fusion)’보다 훈련 비용과 추론 속도 면에서 훨씬 현실적입니다.

동적 해상도 비전 인코더 — 최대 3,600 토큰

비전 인코더로는 SigLIP-2의 NaFlex 변형을 사용합니다. 고정 해상도 방식이 아니라 입력 이미지 크기에 따라 시각 토큰 수를 동적으로 조절하며, 최대 3,600개까지 처리합니다. 이는 대략 HD 720p 수준의 해상도에 해당합니다. 특히 GUI 화면처럼 정보가 촘촘하게 배치된 고해상도 이미지에서 작은 버튼이나 텍스트 요소를 정확히 인식하는 데 결정적인 역할을 합니다. 마이크로소프트 내부 비교 실험에서 Dynamic S2, Multi-crop 등 여러 방식을 비교한 결과, 이 동적 해상도 방식이 ScreenSpot-Pro 등 고해상도 벤치마크에서 가장 뛰어난 성능을 기록했습니다.

Think/NoThink 혼합 추론 — 언제 생각하고 언제 바로 답하나

이 모델의 가장 독창적인 부분은 추론 모드의 이중 구조입니다. 수학 문제나 과학적 추론처럼 복잡한 과제에는 <think>...</think> 블록을 사용하여 단계별 사고(Chain-of-Thought)를 전개하고, 이미지 캡션 생성이나 OCR처럼 즉각적인 지각 과제에는 <nothink> 태그로 바로 답변합니다. 추론 데이터의 비율은 전체 훈련 데이터의 약 20%에 불과한데도, Phi-4-Reasoning이라는 강력한 추론 언어 모델 백본 덕분에 시각 맥락에 추론을 접목하는 능력을 빠르게 습득했습니다.

💡 인사이트: “생각할 필요 없을 땐 생각하지 않는다”는 설계 철학이 추론 토큰 낭비를 줄이고 실질적인 속도 우위를 만들어냅니다. 동일한 정확도라면 빠른 모델이 실용성에서 압도적으로 유리합니다.

▲ 목차로 돌아가기

벤치마크 성능 비교 — 숫자로 보는 진짜 실력

마이크로소프트는 자체 Eureka ML Insights 프레임워크와 오픈소스 VLMEvalKit을 사용해 직접 벤치마킹을 수행했습니다. 리더보드 수치를 그대로 인용하지 않고 온도 0.0, 그리디 디코딩, 최대 4,096 출력 토큰으로 균일하게 측정했다는 점에서 신뢰도가 높습니다. 아래 표는 주요 오픈웨이트 모델과의 핵심 벤치마크 비교입니다.

▲ 주요 벤치마크 정확도 비교 (비추론 모드 기준, 단위: %, 높을수록 좋음)
벤치마크	Phi-4-r-v-15B	Kimi-VL-A3B	Gemma3-12B	Qwen3-VL-8B	Qwen3-VL-32B
AI2D (다이어그램)	84.8	84.6	80.4	83.0	85.0
ChartQA (차트 이해)	83.3	87.0	39.0	83.2	84.0
MathVista (수학 시각)	75.2	67.1	57.4	76.4	81.8
MathVerse (시각 수학)	44.9	41.7	29.8	57.4	64.2
ScreenSpot v2 (GUI)	88.2	89.8	3.5	91.5	93.9
OCRBench (텍스트 인식)	76.0	86.5	75.3	90.0	88.5
MMMU (멀티학문)	54.3	52.0	50.0	64.6	70.6

수치만 보면 Qwen3-VL-32B가 전반적으로 앞서지만, 핵심은 ‘파라미터 대비 효율’입니다. Phi-4-reasoning-vision-15B는 Qwen3-VL-8B와 유사한 속도를 유지하면서도 수학 추론(MathVista)과 다이어그램 이해(AI2D) 등 핵심 영역에서 8B 모델을 앞지릅니다. 동시에 32B 모델보다 응답 시간이 훨씬 짧아, 실시간 에이전트 환경에서 실용성이 높습니다. 특히 Gemma3-12B가 ScreenSpot에서 3.5%라는 처참한 점수를 기록한 것과 달리 88.2%를 달성했다는 사실은, GUI 자동화 에이전트 분야에서 사실상 경쟁자가 없는 소형 모델임을 보여줍니다.

▲ 목차로 돌아가기

실제 활용 시나리오 5가지 — 이 모델이 빛나는 순간

성능 수치보다 더 중요한 건 실제로 어떤 상황에서 쓸 수 있느냐입니다. Phi-4-reasoning-vision이 압도적 가성비를 발휘하는 다섯 가지 실전 시나리오를 정리했습니다.

1수학·과학 문제 풀이 — 손으로 쓴 방정식 사진을 찍어 올리면 풀이 과정까지 단계별로 설명해줍니다. 이차방정식에서 부호 오류가 있어도 오류를 잡아내고 올바른 해를 제시합니다. 자녀 숙제 검토, 공학 도면 해석, 물리 문제 풀이 등에 직접 적용 가능합니다.

2차트·문서 분석 자동화 — 엑셀 스크린샷, 연간 보고서 PDF 이미지, 인포그래픽을 입력하면 데이터를 추출하고 요약·해석해줍니다. ChartQA 83.3%의 정확도는 실무 수준으로 충분합니다. 사내 데이터 분석 파이프라인에 연결하면 별도 OCR+파서 없이도 구조화된 정보 추출이 가능합니다.

3GUI 자동화 에이전트 — 데스크톱·모바일·웹 화면 스크린샷을 보고 버튼 위치를 좌표로 반환하거나 다음 행동을 제안합니다. ScreenSpot v2에서 88.2%를 달성했으며, 이는 UI 테스트 자동화나 RPA 대체 시스템의 핵심 비전 모델로 활용 가능한 수준입니다.

4이미지 시퀀스 변화 분석 — 허블 망원경의 토성 사진 여러 장을 순서대로 입력하면 시간에 따른 변화를 분석합니다. 제조업 품질 검사에서 공정별 사진을 비교하거나, CCTV 캡처를 순서대로 분석하는 용도로도 응용할 수 있습니다.

5영수증·영문 문서 OCR + 구조화 — 단순 텍스트 추출을 넘어 레이아웃 구조까지 이해하며 키-값 쌍으로 정보를 정리합니다. 영수증 항목별 금액, 계약서 조항, arXiv 논문의 수식까지 처리합니다. 단, 한국어 성능은 영어 대비 저하가 있을 수 있어 검증이 필요합니다.

💡 개인적 의견: 다섯 가지 중 가장 주목할 건 단연 GUI 에이전트 용도입니다. Gemma3-12B가 GUI 분야에서 사실상 무너진 점수를 받은 것과 달리, 이 모델은 88.2%를 기록했습니다. 소형 오픈웨이트 모델로는 현재 최강 수준이며, 로컬 RPA 자동화 파이프라인의 판도를 바꿀 수 있습니다.

▲ 목차로 돌아가기

바로 써보는 법 — Azure Foundry·HuggingFace·로컬 설치

① Azure AI Foundry — 가장 쉬운 방법

Azure AI Foundry(ai.azure.com)에서 모델 카탈로그를 열고 “Phi-4-reasoning-vision”을 검색하면 바로 웹 플레이그라운드에서 이미지를 업로드해 테스트할 수 있습니다. Azure 구독이 있다면 API 엔드포인트를 배포해 애플리케이션에 연결하는 것도 몇 분이면 충분합니다. 기업 환경에서 보안과 컴플라이언스가 중요하다면 Azure의 콘텐츠 안전 레이어를 함께 적용하는 것을 권장합니다.

② HuggingFace — 코드로 바로 호출

HuggingFace 모델 페이지에서 가중치를 내려받아 로컬 또는 클라우드 GPU 서버에서 실행할 수 있습니다. 공식 권장 환경은 PyTorch ≥ 2.7.1, Transformers ≥ 4.57.1이며, vLLM ≥ 0.15.2를 사용하면 서버 배포에 유리합니다. NVIDIA A6000, A100, H100, B200에서 테스트되었으며, bf16 정밀도로 vLLM 서버를 구동하는 것이 공식 권장 방식입니다.

프롬프트를 구성할 때는 반드시 시스템 프롬프트와 채팅 템플릿을 사용해야 합니다. 모델이 자동으로 Think/NoThink 모드를 결정하지만, 필요하다면 어시스턴트 응답 앞에 <think> 토큰을 붙여 추론 모드를, <nothink>를 붙여 즉답 모드를 강제할 수 있습니다.

③ 로컬 실행 — 메모리 요구사항

15B 파라미터 모델을 bf16으로 로드하려면 약 30GB의 GPU VRAM이 필요합니다. NVIDIA RTX 4090(24GB) 단독으로는 부족하며, A100 40GB 또는 두 장의 RTX 4090을 병렬로 연결하거나, 양자화(4-bit 등)를 적용해 VRAM 사용량을 줄이는 방법을 검토해야 합니다. Unsloth 등 커뮤니티 도구를 활용하면 20GB RAM 수준에서도 실행이 가능하다는 사용자 보고가 있으나, 공식적으로 테스트된 환경은 아닙니다. 컨텍스트 길이는 최대 16,384 토큰입니다.

▲ 목차로 돌아가기

한계와 주의사항 — 솔직하게 말하면

이 모델이 강력한 건 사실이지만, 맹목적으로 쓰기 전에 반드시 알아야 할 제약이 있습니다.

첫째, 한국어 성능 저하 문제가 있습니다. Phi-4-reasoning-vision은 영어 중심으로 훈련되었으며, 공식 모델 카드에서도 “영어 이외의 언어는 성능 저하가 예상된다”고 명시하고 있습니다. 한국어 이미지 문서 처리나 한글 UI 화면 인식에 적용할 때는 반드시 충분한 테스트가 선행되어야 합니다. 현시점에서 한국어 멀티모달 작업에는 한국어 특화 모델과의 병용을 권장합니다.

둘째, 의료·법률·금융 결정에는 사용하지 마십시오. 공식 문서가 명시하듯, 이 모델은 의료 진단, 법률 자문, 금융 계획 등 고위험 의사결정에 적합하지 않습니다. 정보의 정확성과 신뢰성이 임계적으로 중요한 영역에서는 검증된 전문 시스템과 인간 검토를 병행해야 합니다.

셋째, 환각(hallucination) 위험은 여전히 존재합니다. HallusionBench 점수가 64.4%로 Qwen3-VL 계열(74%대)보다 낮습니다. 이미지를 잘못 해석하거나 존재하지 않는 정보를 만들어낼 가능성이 있으므로, 고정밀도가 요구되는 업무에서는 RAG(검색 증강 생성) 파이프라인을 함께 구성하는 것이 안전합니다.

⚠️ 주의: 이미지에 민감한 개인정보(얼굴, 주민번호 등)가 포함된 경우, 외부 API(Azure, HuggingFace Inference)에 이미지를 전송하는 것은 개인정보보호법 위반이 될 수 있습니다. 반드시 온프레미스 또는 프라이빗 클라우드에서 운용하십시오.

▲ 목차로 돌아가기

Q&A — 자주 묻는 5가지 질문

Q1. Phi-4-reasoning-vision은 완전 무료로 사용할 수 있나요?

모델 가중치 자체는 MIT 라이선스로 무료 공개되어 있어 상업적 사용을 포함해 자유롭게 활용할 수 있습니다. 다만 Azure AI Foundry를 통해 API 형태로 사용할 경우, 입출력 토큰 수에 따라 Azure 요금이 청구됩니다. HuggingFace에서 가중치를 직접 내려받아 자체 서버에서 운영하면 가중치 비용은 없지만 GPU 인프라 비용은 발생합니다.

Q2. 일반 소비자용 GPU(RTX 4080/4090)로 로컬 실행이 가능한가요?

RTX 4090(24GB VRAM) 한 장으로는 bf16 전체 로드가 어렵습니다. 4-bit 양자화를 적용하면 약 8~10GB 수준으로 줄어들어 가능하지만, 공식 지원 환경은 아닙니다. Unsloth, llama.cpp 등 커뮤니티 양자화 도구를 활용하는 방법이 현재 가장 현실적입니다. A100 40GB 이상이 가장 안정적인 로컬 실행 환경입니다.

Q3. 한국어 이미지(한글 문서, 한글 UI)는 얼마나 잘 인식하나요?

공식적으로는 영어 중심 훈련이며 한국어 성능 저하가 명시되어 있습니다. 한글 텍스트가 포함된 이미지의 OCR이나 한글 UI 인식은 별도 테스트가 필요하며, 현 시점에서는 한국어 멀티모달 특화 모델(예: 한국어 파인튜닝 버전)과 비교 평가 후 도입 여부를 결정하는 것을 권장합니다.

Q4. GPT-4o나 Claude 3.7 같은 클로즈드 모델과 비교하면 어떤가요?

수학·과학 특화 영역에서는 GPT-4o와 유사하거나 일부 벤치마크에서 경쟁할 수 있는 수준입니다. 그러나 멀티도메인 종합 이해(MMMU 54.3%)나 할루시네이션 억제(HallusionBench 64.4%)에서는 아직 클로즈드 대형 모델에 미치지 못합니다. 핵심 장점은 ‘오픈웨이트+MIT 라이선스+로컬 실행 가능’이라는 점입니다. 비용과 프라이버시가 중요한 상황에서 강력한 대안이 됩니다.

Q5. Think 모드와 NoThink 모드는 어떻게 선택하면 좋을까요?

모델이 기본적으로 과제의 복잡도에 따라 자동 선택합니다. 수학 문제나 복잡한 시각 추론은 자동으로 Think 모드를 사용하고, 단순 이미지 설명이나 OCR은 NoThink 모드로 빠르게 답합니다. 결과를 직접 제어하고 싶다면 어시스턴트 응답 시작에 <think> 또는 <nothink> 토큰을 명시적으로 추가하면 됩니다. 속도가 중요한 실시간 애플리케이션이라면 <nothink>를 강제해 latency를 줄이는 것도 좋은 전략입니다.

▲ 목차로 돌아가기

마치며 — 이 모델이 의미하는 것

Phi-4-reasoning-vision-15B는 단순히 ‘작지만 잘 만든 모델’ 이상의 의미를 가집니다. 240개의 B200 GPU로 4일 만에 학습을 마쳤다는 사실은, AI 개발의 진입 장벽이 예상보다 빠르게 낮아지고 있음을 보여줍니다. 1조 토큰 이상을 투입한 경쟁 모델들과 비교해 200억 토큰으로도 경쟁력 있는 성능을 달성했다는 건, ‘데이터의 양’보다 ‘데이터의 질과 선택’이 더 중요한 시대가 왔음을 선언하는 것입니다.

개인적으로 이 모델에서 가장 주목하는 지점은 GUI 자동화 에이전트 분야입니다. Gemma3-12B가 ScreenSpot에서 처참한 점수를 받은 것과 달리, Phi-4-reasoning-vision이 88.2%를 달성했다는 건 단순한 수치 차이가 아닙니다. 현실적으로 배포 가능한 크기의 오픈 모델 중에서, 화면을 보고 어느 버튼을 클릭해야 할지 판단하는 에이전트를 만들 수 있는 최초의 실용적 선택지가 등장했다는 의미입니다. 기업 내부 업무 자동화, 접근성 보조 도구, 소프트웨어 테스트 자동화 등 응용 범위는 상상보다 훨씬 넓습니다.

한국어 지원이 아직 공식적이지 않다는 점은 분명히 아쉽습니다. 하지만 MIT 라이선스인 만큼, 한국어 멀티모달 데이터로 파인튜닝한 커뮤니티 버전이 조만간 등장할 가능성이 높습니다. 영효님처럼 AI 도구를 적극적으로 탐색하시는 분이라면, 지금 이 시점에 이 모델을 눈여겨보시는 것이 좋습니다.

▲ 목차로 돌아가기

본 포스팅은 공개된 기술 문서 및 공식 발표 자료를 바탕으로 작성된 정보 제공 목적의 콘텐츠입니다. 모델 성능 수치는 2026년 3월 4일 기준 공식 발표 자료에 근거하며, 이후 업데이트로 변경될 수 있습니다. 특정 모델의 사용 결과에 대한 책임은 사용자 본인에게 있습니다.

AI 로컬 실행, 마이크로소프트 AI 투어 2026, 멀티모달 추론 모델, 오픈웨이트 AI, Phi-4 reasoning vision

Phi-4-reasoning-vision 완전정복: 느린 AI 추론, 15B로 끝내는 법

Phi-4-reasoning-vision 완전정복
느린 AI 추론, 15B로 끝내는 법

Phi-4-reasoning-vision이란? — 뭐가 달라졌나