Foundry Local Preview
Windows 10/11 · macOS
Foundry Local, 직접 써보니 3가지가 막혔습니다
Microsoft가 2026년 2월 정식 출시한 Foundry Local은 “클라우드 없이 AI를 내 PC에서 돌린다”는 한 문장으로 큰 주목을 받았습니다.
NPU 지원, OpenAI 호환 API, 완전 오프라인 동작까지 — 들으면 꽤 솔깃합니다. 막상 설치하고 나서 부딪힌 현실은 달랐습니다.
공식 문서에 조용히 숨어있는 제약 3가지를 먼저 꺼내놓겠습니다.
Foundry Local이 뭔지 30초에 정리하면
Foundry Local은 Microsoft가 Azure AI Foundry 생태계의 일부로 내놓은 온디바이스 AI 추론 런타임입니다. 핵심은 간단합니다 — 클라우드에 요청을 보내지 않고, 내 PC나 노트북에서 직접 AI 모델을 돌릴 수 있게 해줍니다.
구조적으로는 ONNX Runtime을 추론 엔진으로 쓰고, OpenAI 호환 REST API를 localhost에서 띄워줍니다. 쉽게 말해 기존에 OpenAI API 기반으로 만든 앱이 있다면, 엔드포인트 URL만 api.openai.com에서 localhost:포트번호로 바꾸면 코드 수정 없이 로컬 모델로 전환됩니다.
(출처: Microsoft Learn 공식 문서, 2026.03.24)
지원 OS는 Windows 10 이상(x64), Windows 11(x64/ARM), macOS이고, Windows Server 2025도 지원합니다. 설치는 단 한 줄입니다.
# Windows winget install Microsoft.FoundryLocal # macOS brew tap microsoft/foundrylocal brew install foundrylocal
그리고 첫 모델을 실행하면 됩니다 — 이론상으로는요. 막상 설치하고 나면 얘기가 달라집니다.
“오프라인”이라더니 첫 실행에서 인터넷이 필요했습니다
💡 Foundry Local이 “완전 오프라인 동작”이라는 홍보 문구 뒤에 숨어있는 조건을 공식 문서와 비교해보면, 처음부터 오프라인으로 쓸 수 없는 구조라는 게 보였습니다.
공식 문서에는 이렇게 나와 있습니다: “모델 및 실행 공급자를 다운로드하기 위한 인터넷 연결이 필요합니다. 모델을 다운로드한 후 캐시된 모델을 오프라인으로 실행할 수 있습니다.” (출처: Microsoft Learn — Foundry Local 시작하기, 2026.03.24)
즉, 첫 설치 + 첫 모델 다운로드 단계에서는 인터넷이 필수입니다. 완전 에어갭(air-gapped) 환경에 처음부터 배포하려면 다른 기기에서 미리 모델 파일을 받아 이동식 매체로 옮겨야 합니다.
실제로 방산·공공기관처럼 인터넷 연결이 원천 차단된 환경이라면, 초기 셋업 절차 자체를 보안망 밖에서 따로 진행해야 한다는 뜻입니다.
처음 foundry model list를 실행하면 실행 공급자(Execution Provider) 다운로드 진행 표시줄이 먼저 뜹니다. NVIDIA GPU가 있으면 CUDA 버전, Qualcomm NPU가 있으면 NPU 변형, 아무것도 없으면 CPU 버전을 자동으로 골라 받아옵니다. 이 과정에서 인터넷이 필요합니다.
⚠️ 에어갭 환경 주의: “오프라인 AI”라는 설명만 보고 에어갭 환경에 바로 도입하려 했다면, 초기 모델 다운로드 단계부터 인터넷이 차단되어 진행이 막힙니다. 모델 파일을 이동식 매체로 사전 이전하는 별도 절차가 필요합니다.
한 번 다운로드한 모델은 로컬 캐시에 저장되고 이후엔 진짜 오프라인으로 작동합니다. 오프라인 자체가 허위 광고는 아니지만, “처음부터 오프라인”은 아닙니다.
Ollama 모델 그대로 쓸 수 없는 이유 — ONNX 전용의 현실
💡 Ollama에서 잘 쓰던 모델을 Foundry Local에서 바로 쓸 수 있을 것 같지만, 둘은 지원 포맷 자체가 다릅니다. 이 차이가 실제로 쓸 수 있는 모델 수에서 얼마나 갈리는지 직접 확인해봤습니다.
Foundry Local의 추론 엔진은 ONNX Runtime입니다. 모든 모델이 ONNX 포맷으로 최적화되어 있어야 합니다. 반면 Ollama, LM Studio, GPT4All 등 현재 가장 인기 있는 로컬 LLM 툴들은 GGUF 포맷을 기본으로 씁니다.
| 구분 | Foundry Local | Ollama / LM Studio |
|---|---|---|
| 모델 포맷 | ONNX 전용 | GGUF (주력) |
| 사용 가능 모델 수 | Microsoft 카탈로그 한정 | 3,000개+ (Hugging Face) |
| NPU 지원 | ✅ (Intel, Qualcomm, AMD) | ❌ (GPU/CPU만) |
| 파인튜닝 모델 배포 | ONNX 변환 필요 | GGUF 변환 후 바로 사용 |
| Hugging Face 모델 즉시 사용 | ❌ (변환 필요) | ✅ (ollama pull로 바로) |
Hugging Face에 올라와 있는 모델의 대부분은 GGUF 포맷입니다. Ollama에서는 ollama pull llama3.2 한 줄로 3,000개 이상의 모델을 바로 쓸 수 있지만, Foundry Local에서는 Microsoft가 최적화해서 카탈로그에 올린 ONNX 모델만 쓸 수 있습니다.
엔터프라이즈 분석 리포트는 이 점을 명확히 짚습니다: “Foundry Local supports Microsoft-optimized models — primarily the Phi family and selected models from the Azure AI catalog. You cannot load arbitrary Hugging Face models in their native format.” (출처: Ertas AI, Microsoft Foundry Local Enterprise Analysis, 2026.03.05)
Llama 3, Mistral, Qwen, DeepSeek 계열을 로컬에서 돌리고 싶다면 Foundry Local보다 Ollama가 현실적입니다. 단, NPU 가속이 필요하거나 Phi 계열 모델로 충분하다면 얘기가 달라집니다.
NPU 쓰려면 하드웨어 조건이 생각보다 까다롭습니다
Foundry Local의 가장 차별화된 포인트는 NPU 지원입니다. Ollama는 GPU/CPU만 지원하고, NPU는 지원하지 않습니다. 반면 Foundry Local은 Intel NPU, Qualcomm Snapdragon NPU, AMD XDNA NPU를 모두 지원합니다.
이 점만 보면 Foundry Local이 훨씬 앞서 보이는데 — 실제 조건을 확인하면 상당수 기기에서 NPU가 작동하지 않습니다.
💡 NPU 지원이 강점이라고 하지만, 실제로 NPU가 활성화되려면 칩 세대·드라이버·OS 버전이 동시에 맞아야 합니다. 하나라도 빠지면 CPU 폴백으로 실행됩니다. 공식 문서와 벤치마크 수치를 같이 놓고 보면 이 조건이 얼마나 좁은지 드러납니다.
공식 문서에 나온 NPU 조건은 다음과 같습니다:
- Intel NPU: Windows 24H2 이상 + Intel NPU 드라이버 별도 설치 필수 (Intel NPU Driver 다운로드)
- Qualcomm NPU: Snapdragon X 엘리트, 메모리 8GB 이상. Qnn 드라이버 설치 필요. 오류 코드 5005 발생 시 재부팅 필요
- AMD NPU: Ryzen AI 400(XDNA 2+) 기준 60 TOPS. 단 AMD NPU에서 Stable Diffusion 기준 약 70초/장으로 느린 편
- Intel NPU(32GB 이상 메모리): 32GB RAM 미만이면 Intel NPU도 활성화 안 됨
수치로 보면 더 명확합니다. 2026년 기준 NPU 성능 비교 벤치마크에서 Intel Lunar Lake NPU는 LLM 추론 시 18.55 tok/s, 첫 토큰 출력 1.09초를 기록했습니다. (출처: LocalAI Master, NPU Comparison 2026, 2026.02.06) 이 속도는 체감상 실시간 대화가 가능한 수준입니다.
단, NPU TOPS 숫자만 보면 오해가 생깁니다. Apple M4의 Neural Engine은 38 TOPS로 Qualcomm X2(85 TOPS)의 절반도 안 되는데, LLM 추론에서는 M4 Max가 70B 이상 모델도 소화합니다. 이유는 TOPS가 아닌 메모리 대역폭 때문입니다 — M4 Max는 546 GB/s, Qualcomm X2는 136 GB/s 수준입니다. LLM 추론에서는 토큰 생성 시 가중치를 반복 읽어야 하기 때문에 대역폭이 병목이 됩니다.
즉, NPU 탑재 AI PC를 샀더라도 Foundry Local에서 NPU 가속을 제대로 받으려면 칩 세대, OS 버전(24H2 이상), 드라이버 설치라는 3가지 조건이 동시에 충족되어야 합니다. 기존 노트북이라면 NPU 자체가 없거나 구형 NPU인 경우가 대부분입니다.
VS 2026에서 Tool Calling이 안 되는 이유, Microsoft 직원이 직접 말했습니다
💡 공식 문서엔 2026년 3월 11일자로 Tool Calling 가이드가 올라와 있습니다. 그런데 같은 달 말, Visual Studio에서 Foundry Local을 쓰던 사람이 “뭘 해도 안 된다”는 글을 올렸고, Microsoft 직원이 직접 이유를 설명했습니다. 문서와 현실 사이의 간극입니다.
2026년 3월 26일, Reddit r/VisualStudio에 이런 글이 올라왔습니다: “VS2026에서 Foundry Local로 LLM을 쓰려 했는데 CLI에선 되는데 VS2026에서는 전혀 통신이 안 된다.”
이에 대한 Microsoft 직원(BertanAygun)의 답변: “Foundry local support right now doesnt support tool calling so it limits its uses in chat. We are working on adding tool calling support as well. The new insiders builds should also have Ollama support which does support tool calling with the right models.” (출처: Reddit r/VisualStudio, 2026.03.26)
정리하면, Tool Calling 기능은 두 가지 층위가 있습니다.
| 환경 | Tool Calling 지원 | 비고 |
|---|---|---|
| CLI / SDK (.NET, Python, JS) | ✅ 지원 | 공식 가이드 있음 (2026.03.11) |
| Visual Studio 2026 통합 | ❌ 미지원 | 개발 중. Insiders 빌드에서 Ollama 대안 제공 예정 |
| OpenAI SDK 연동 (REST API) | ✅ 지원 | auto/none/required 등 ToolChoice 파라미터 사용 가능 |
공식 문서에 나와 있는 Tool Calling 예제 코드를 보면, ToolChoice.Required로 설정하면 모델이 반드시 도구를 호출하게 강제할 수 있습니다. 단, 이는 CLI·SDK 환경에서의 이야기입니다.
또 하나, 소형 모델(0.5B~3.8B 수준)에서 required나 특정 함수 강제 옵션은 “최적 작업(Best Effort)”으로만 신뢰할 수 있다고 공식 문서가 명시합니다. 즉, 작은 모델에서는 Tool Calling 명령이 무시될 수 있습니다.
그래도 Foundry Local이 진짜 유리한 상황이 있습니다
단점만 늘어놓으면 공평하지 않습니다. Foundry Local이 다른 로컬 LLM 툴보다 명확히 앞서는 상황이 있습니다.
🔵 OpenAI 기반 앱을 로컬로 전환할 때
엔드포인트 URL 하나만 바꾸면 됩니다. LangChain, LlamaIndex, n8n 워크플로우 모두 코드 수정 없이 연결됩니다. 이 점은 다른 로컬 LLM 툴과 비교해도 동급이지만, Microsoft 생태계(Azure, VS Code AI Toolkit) 연계는 Foundry Local이 유일합니다.
🔵 Windows AI PC + NPU를 제대로 쓰고 싶을 때
Ollama, LM Studio는 NPU를 지원하지 않습니다. Qualcomm Snapdragon X나 Intel Lunar Lake NPU를 가진 AI PC에서 배터리를 아끼며 AI를 돌리려면 Foundry Local이 현재 유일한 선택지에 가깝습니다. NPU를 쓰면 GPU 대비 AI 추론에서 44% 전력을 절감한다는 측정치도 있습니다. (출처: LocalAI Master, NPU Comparison 2026)
🔵 보안·규정 준수가 엄격한 기업 환경
모델 다운로드 후 완전 오프라인으로 작동한다는 점, 데이터가 외부로 전송되지 않는다는 점은 금융·의료·공공기관 환경에서 중요합니다. Azure Local(온프레미스 인프라) + Foundry Local 조합으로 Microsoft 공인 소버린 AI 스택을 구성할 수 있습니다.
Foundry Local은 파인튜닝을 지원하지 않습니다. 모델을 커스터마이징하려면 Azure AI Foundry(클라우드)에서 파인튜닝 후 ONNX로 내보내야 합니다. 즉, 파인튜닝 단계에서는 여전히 클라우드가 필요합니다. 추론만 로컬, 학습은 클라우드라는 구조가 됩니다.
Foundry Local vs Ollama, 어떤 걸 골라야 할까
두 툴을 쓸 수 있는 상황과 아닌 상황을 한 줄로 정리합니다.
| 상황 | Foundry Local | Ollama |
|---|---|---|
| Llama3 / Mistral / Qwen 모델 사용 | ⚠️ ONNX 변환 필요 | ✅ 바로 사용 |
| Qualcomm / Intel NPU 활용 | ✅ 공식 지원 | ❌ 미지원 |
| OpenAI 앱 로컬 전환 | ✅ URL만 교체 | ✅ URL만 교체 |
| Azure / VS Code AI Toolkit 연계 | ✅ 공식 통합 | ⚠️ 3rd party |
| 에어갭 환경 처음부터 오프라인 배포 | ⚠️ 초기 다운로드 필요 | ⚠️ 동일 |
| 파인튜닝 모델 즉시 배포 | ⚠️ ONNX 변환 후 | ✅ GGUF 변환 후 |
솔직히 말하면, 지금 시점에서 일반 개발자·파워 유저라면 Ollama가 더 편합니다. 모델 선택의 폭, 설치 편의성, 커뮤니티 생태계 모두 Ollama가 앞섭니다.
Foundry Local이 의미 있는 경우는 명확합니다. NPU가 있는 AI PC를 가진 경우, Microsoft 개발 생태계(Azure, VS Code) 안에서 움직이는 기업, 또는 소버린 AI 스택이 필요한 규제 산업 환경입니다. 나머지 상황에서는 Ollama부터 써보는 게 빠릅니다.
Q&A
Q1. Foundry Local은 완전 무료인가요?
현재 공개 미리 보기(Preview) 상태로 무료로 사용할 수 있습니다. 단, GA(일반 공급) 이후 요금 정책이 달라질 수 있습니다. 카탈로그에 포함된 모델들은 각 모델의 라이선스를 별도로 확인해야 하며, foundry model info <model> --license로 확인할 수 있습니다.
Q2. GPU 없이도 사용할 수 있나요?
가능합니다. GPU나 NPU가 없으면 CPU 버전으로 자동 폴백됩니다. 단, CPU 전용으로 큰 파라미터 모델을 돌리면 추론 속도가 현저히 느려집니다. Phi-4-mini(3.8B) 정도는 CPU에서도 동작하지만, 대화용으로 쓰기엔 체감상 답답할 수 있습니다.
Q3. macOS에서도 NPU 가속이 되나요?
현재 Foundry Local의 NPU 지원은 Windows 중심입니다. macOS는 Apple Silicon(Metal)을 통한 GPU 가속을 지원하지만, Apple Neural Engine(ANE) 직접 활용은 공식 문서에서 별도로 명시하지 않았습니다. macOS에서 Apple Neural Engine을 직접 활용하려면 Core ML이나 MLX가 더 적합한 경로입니다.
Q4. Foundry Local과 Ollama를 동시에 쓸 수 있나요?
가능합니다. 둘 다 OpenAI 호환 REST API를 localhost에서 제공합니다. 포트 번호만 다르게 설정하면 동시에 실행할 수 있고, 앱에서 엔드포인트 URL을 바꿔가며 두 가지를 모두 활용할 수 있습니다. VS Code AI Toolkit에서는 Insiders 빌드에서 Ollama 연동도 지원 예정입니다.
Q5. “서비스 연결 오류”가 뜰 때 어떻게 하나요?
Request to local service failed. Uri: http://127.0.0.1:0/foundry/list 오류는 포트 바인딩 문제입니다. 터미널에서 foundry service restart를 실행하면 해결됩니다. 이 명령은 서비스가 실행 중이지만 접근이 안 되는 상황을 해소합니다. (출처: Microsoft Learn 모범 사례 문서)
마치며
Foundry Local은 분명히 의미 있는 제품입니다. Microsoft가 $60B+ 규모의 Azure 클라우드 수익을 갖고 있으면서 “클라우드 없이 써도 됩니다”라는 제품을 직접 내놓았다는 것 자체가 온디바이스 AI 시장의 전환점을 보여줍니다.
다만 지금 시점에서 직접 써보면 3가지 벽이 있습니다. 첫 번째는 “완전 오프라인”이 아니라 “다운로드 후 오프라인”이라는 점, 두 번째는 ONNX 전용이라 GGUF 생태계 모델 3,000개 이상이 바로 안 된다는 점, 세 번째는 Visual Studio 2026 통합에서 Tool Calling이 아직 안 된다는 점입니다.
NPU 지원 AI PC를 쓰고 있거나, Azure·Microsoft 생태계 안에서 개발하는 환경이라면 Foundry Local을 테스트해볼 이유가 충분합니다. 그 외 대부분의 상황에서는 Ollama가 더 빠른 선택입니다.
현재 공개 미리 보기 상태라 이 내용은 이후 업데이트로 달라질 수 있습니다. 특히 VS 2026 Tool Calling 지원, 추가 모델 카탈로그 확장은 공식 로드맵에서 진행 중이니 주기적으로 릴리스 노트를 확인하는 게 좋습니다.
본 포스팅 참고 자료
- Microsoft Learn — Foundry Local 시작하기 (2026.03.24)
- Microsoft Learn — Foundry Local Tool Calling 가이드 (2026.03.11)
- Microsoft Learn — Foundry Local 모범 사례 및 문제 해결
- Ertas AI — Microsoft Foundry Local Enterprise Analysis (2026.03.05)
- LocalAI Master — NPU Comparison 2026 (2026.02.06)
- Reddit r/VisualStudio — MS 직원 Tool Calling 미지원 언급 (2026.03.26)
본 포스팅 작성 이후 서비스 정책·UI·기능이 변경될 수 있습니다. Foundry Local은 현재 공개 미리 보기(Preview) 상태로, GA(일반 공급) 이전에 기능·방식·가격이 변경될 수 있습니다. 최신 내용은 Microsoft Learn 공식 문서를 직접 확인하시기 바랍니다.











댓글 남기기