Stanford Scaling Intelligence Lab
Apache 2.0 오픈소스
OpenJarvis, 클라우드 없이 진짜 될까요?
결론부터 말씀드리면, 조건이 맞으면 됩니다. 그런데 그 조건이 생각보다 까다롭습니다. Stanford 공식 연구팀이 2026년 3월 12일 공개한 OpenJarvis는 “AI를 완전히 내 기기에서만 돌리겠다”는 목표로 설계된 오픈소스 프레임워크입니다. 클라우드 API에 개인 데이터를 넘기지 않아도 된다는 점이 핵심인데, 막상 설치해보면 기대와 다른 지점이 있습니다. 그 부분까지 같이 들여다보겠습니다.
“클라우드 AI가 더 낫지 않나요?” — 이 수치를 먼저 보세요
많은 사람이 로컬 AI를 “느리고 성능도 떨어지는 대안”으로 생각합니다. 실제로 2023년까지는 그 말이 맞았습니다. 그런데 Stanford Hazy Research 팀이 2025년 11월 발표한 논문(arXiv:2511.07885)을 보면 이야기가 달라집니다.
💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다
Stanford 팀은 20개 이상의 최신 로컬 LM, 8개 가속기, 그리고 실제 LLM 트래픽 100만 건을 분석했습니다. 결과: 로컬 모델이 단일 대화·추론 쿼리의 88.7%를 정확하게 처리할 수 있다고 측정됐습니다. 이건 추정이 아니라 실측 데이터입니다. (출처: arXiv:2511.07885, 2026.02.26 최종 업데이트)
더 눈에 띄는 수치는 효율 개선 속도입니다. 로컬 AI의 핵심 지표인 IPW(Intelligence Per Watt, 와트당 정확도)가 2023년에서 2025년 사이 5.3배 개선됐습니다. 쉽게 말하면, 같은 전력으로 처리할 수 있는 AI 성능이 2년 만에 5배 이상 늘었다는 뜻입니다.
게다가 동일한 모델을 로컬에서 돌렸을 때 클라우드 가속기보다 IPW가 최소 1.4배 높습니다. 이 수치가 의미하는 바는 단순합니다. “가격 대비 성능”이라는 관점에서 로컬 실행이 이미 클라우드를 앞서기 시작했다는 겁니다. OpenJarvis는 그 위에 올라타는 소프트웨어 스택입니다.
OpenJarvis가 실제로 하는 일 — 5개 프리미티브 구조
OpenJarvis는 2026년 3월 12일 Stanford Scaling Intelligence Lab에서 공개한 오픈소스 AI 에이전트 프레임워크입니다. 핵심 구조는 5개의 프리미티브(composable primitive)로 이뤄져 있고, 각각 독립적으로 교체·벤치마킹이 가능합니다. (출처: Stanford 공식 블로그 scalingintelligence.stanford.edu/blogs/openjarvis, 2026.03.12)
| 프리미티브 | 역할 | 지원 백엔드 예시 |
|---|---|---|
| Intelligence | 모델 레이어. 하드웨어에 맞는 모델 자동 추천 | Qwen3.5, Gemma3n, Granite4, GLM 등 |
| Engine | 추론 런타임. 하드웨어 자동 감지 후 최적 엔진 추천 | Ollama, vLLM, llama.cpp, MLX, SGLang |
| Agents | 행동 레이어. 7가지 내장 에이전트 타입 | Orchestrator, Operative 등 |
| Tools & Memory | 툴 사용 + 로컬 문서 의미론적 검색 | MCP, Google A2A, 파일 I/O, 웹검색 |
| Learning | 로컬 트레이스로 모델 자동 개선 | SFT, LoRA, GRPO, DSPy, GEPA |
인터페이스는 CLI(jarvis ask), 브라우저 대시보드, 데스크톱 앱(macOS/Windows/Linux) 세 가지가 제공됩니다. 설치는 pip install openjarvis 후 jarvis init으로 시작하며, 이 명령어 하나로 기기 하드웨어를 감지하고 적합한 엔진과 모델을 추천해줍니다. (출처: open-jarvis.github.io/OpenJarvis)
설치하고 나서 이 단계에서 막힙니다
공식 문서가 깔끔해서 설치 자체는 어렵지 않습니다. 문제는 그 다음입니다. Reddit의 실사용자 sx1979는 Ollama + Qwen 모델 조합으로 설치한 뒤 이렇게 적었습니다. “Jarvis couldn’t find my computer name or take action on browser.” — 컴퓨터 이름을 인식하지 못했고, 브라우저 조작도 작동하지 않았다는 겁니다.
⚠️ 현재 버전(v0.1.0)에서 확인된 한계
브라우저 직접 조작(Computer Use 방식)은 현재 공식 지원 범위 밖입니다. OpenJarvis는 에이전트가 파일, 메모리, 외부 도구(MCP 서버)와 상호작용하는 방식으로 작동하며, GUI 레벨의 컴퓨터 조작은 이번 릴리즈에 포함되지 않았습니다. 또한 macOS에서 데스크톱 앱 실행 시 “앱이 손상됐습니다” 경고가 뜰 수 있으며, 이때는 xattr -cr /Applications/OpenJarvis.app으로 해제해야 합니다. (출처: open-jarvis.github.io/OpenJarvis 공식 문서)
또 다른 현실적인 벽은 메모리 요구량입니다. Hacker News 쓰레드의 실험자들에 따르면 128GB 통합 메모리를 가진 Ryzen AI Max+ 395 노트북에서도 약 100GB 이상의 큰 모델은 컨텍스트와 오버헤드를 고려하면 80GB 수준으로 상한을 낮춰야 실제로 안정적으로 작동했습니다.
즉, OpenJarvis 자체의 완성도보다 내 기기가 어떤 모델을 소화할 수 있는지가 먼저 선결 과제입니다. 이건 OpenJarvis의 문제라기보다 온디바이스 AI 전체의 현실입니다. 단, jarvis bench 명령어로 내 기기에서 레이턴시·에너지 소비를 직접 측정할 수 있다는 점은 다른 프레임워크에서 보기 어려운 장점입니다.
대화할수록 모델이 개선된다고요? 이 구조가 핵심입니다
💡 대부분의 소개글에서 그냥 지나치는 부분인데, 공식 발표 원문을 들여다보니 이 구조가 달랐습니다
OpenJarvis의 Learning 프리미티브는 단순한 “대화 기록 저장”이 아닙니다. 매 인터랙션마다 생성되는 트레이스 데이터 — 추론 텔레메트리, 프롬프트-응답 쌍, 에이전트 결정 경로, 툴 호출 시퀀스 — 를 로컬 기기에 모아서 모델 가중치 자체를 수정하는 루프를 돌립니다. (출처: Stanford 공식 블로그 scalingintelligence.stanford.edu/blogs/openjarvis)
클라우드 AI가 “내 대화를 학습에 쓸 수 있다”고 말할 때, 그 학습은 OpenAI나 Anthropic의 서버에서 이뤄집니다. 내 데이터가 어떻게 쓰이는지 내가 통제할 수 없습니다. OpenJarvis의 접근은 반대입니다. 모든 트레이스가 기기에 남고, 학습도 기기에서 돌아갑니다. 데이터가 외부 서버로 나가는 순간이 없습니다.
최적화 범위는 4개 레이어입니다. 모델 가중치 직접 업데이트(SFT, GRPO, DPO), 프롬프트 자동 개선(DSPy), 에이전트 로직 개선(GEPA), 그리고 양자화 선택·배치 스케줄링 등 엔진 레벨 튜닝까지 포함됩니다. jarvis optimize 명령어 하나로 이 과정을 실행할 수 있도록 패키징돼 있습니다. 다만 실제로 이 최적화 루프가 얼마나 잘 작동하는지에 대한 독립 검증 데이터는 아직 공개된 게 없습니다 — 확인 필요.
어떤 하드웨어에서 실제로 쓸 만한가
OpenJarvis는 jarvis init 실행 시 GPU 벤더·모델·VRAM을 자동 감지해서 최적 엔진과 모델 조합을 추천합니다. Apple Silicon은 MLX 백엔드, NVIDIA는 vLLM 또는 Ollama, AMD GPU도 지원합니다.
🖥 하드웨어별 현실적 기대치 (Hacker News 실사용자 데이터 기반, 2026.03 기준)
- M4 MacBook Pro (16GB 통합 메모리): Qwen3.5-9B 정도가 현실적인 상한. 실용 범위에서 작동하나 복잡한 에이전트 작업에서 속도 저하 체감.
- NVIDIA RTX 3060 (12GB VRAM): Qwen3.5-9B 4비트 양자화 기준 적합. Q4 양자화 시 일부 정확도 저하 가능.
- M4 Max / Ryzen AI Max+ (64~128GB 통합 메모리): Qwen3.5-72B 또는 Qwen3-Coder-80B 수준까지 실용 가능. 단, 안정 운용을 위해 전체 메모리의 60~65%를 모델에 할당하는 것이 권장됨.
- CPU 전용 (RAM 16~32GB): 소형 작업(OCR, 분류, 텍스트 변환)에는 활용 가능하나 에이전트 워크플로우로의 확장은 사실상 어려움.
중요한 건 에너지 측정 기능입니다. Apple Silicon은 powermetrics, NVIDIA는 NVML을 통해 50ms 간격으로 전력 소비를 샘플링합니다. 쿼리당 실제 전기값을 달러 단위로 실시간 확인할 수 있는 AI 프레임워크는 현재 OpenJarvis가 거의 유일합니다. 이 수치가 의미하는 건, 내가 AI를 쓸 때 실제로 얼마를 쓰는지를 처음으로 직접 볼 수 있게 됐다는 겁니다. (출처: Stanford 공식 블로그)
클라우드 AI와 비교할 때 진짜 차이가 나는 지점
OpenJarvis와 ChatGPT, Claude 같은 클라우드 AI를 직접 비교하면 어디서 갈리는지를 솔직하게 보겠습니다. 기능 우열이 아니라 어디에 쓰면 말이 되는지의 관점입니다.
| 항목 | OpenJarvis (로컬) | 클라우드 AI (ChatGPT 등) |
|---|---|---|
| 데이터 유출 위험 | 없음 (로컬 처리) | 서비스 약관 의존 |
| 최고 성능 추론 | 하드웨어 제약 있음 | GPT-5.4 / Opus 4 등 |
| 월정액 비용 | 전기요금만 | $20~$200/월 |
| 오프라인 작동 | 완전 가능 | 불가 |
| 모델 커스터마이징 | 가중치 직접 수정 가능 | 불가 (파인튜닝 API 제한적) |
| 브라우저/GUI 조작 | 현재 미지원 (v0.1.0) | GPT-5.4 Computer Use |
써보니까 이게 핵심입니다. OpenJarvis가 의미 있는 상황은 딱 세 가지로 좁혀집니다. 민감한 사내 문서를 분석해야 할 때, 구독료 없이 24시간 자동화 워크플로우를 돌리고 싶을 때, 그리고 모델 자체를 뜯어고쳐야 하는 연구 환경일 때입니다. 반대로 최고 수준의 추론 능력이 필요하거나, 웹사이트를 직접 조작하는 에이전트가 필요하다면 지금 버전의 OpenJarvis는 대안이 되지 않습니다.
Q&A
마치며
OpenJarvis는 “온디바이스 AI가 이미 쓸 만하다”는 Stanford의 연구 결과를 실제 소프트웨어로 구현한 첫 번째 진지한 시도입니다. 88.7% 쿼리 처리 능력이라는 공식 수치가 보여주듯, 방향은 맞습니다.
그런데 솔직히 말하면, v0.1.0은 아직 연구자와 개발자를 위한 프레임워크입니다. 브라우저 조작 불가, 컴퓨터 이름 인식 실패 같은 실사용 한계가 있고, Learning 루프의 실제 효과도 검증이 덜 됐습니다. 지금 당장 ChatGPT의 대안으로 쓰기엔 거리가 있습니다.
하지만 이게 6개월, 1년 뒤에도 같은 상태일 거라고 생각하지 않습니다. IPW가 2년에 5배 빨라지는 속도라면, 지금 설치해두고 구조를 파악해두는 게 나중에 훨씬 빠릅니다. 온디바이스 AI에 관심이 있다면 지금이 구경할 타이밍입니다.
📚 본 포스팅 참고 자료
- Stanford Scaling Intelligence Lab 공식 블로그 — OpenJarvis: Personal AI, On Personal Devices (scalingintelligence.stanford.edu/blogs/openjarvis/)
- OpenJarvis 공식 문서 (open-jarvis.github.io/OpenJarvis/)
- arXiv:2511.07885 — Intelligence Per Watt, Saad-Falcon et al., Stanford Hazy Research (최종 업데이트 2026.02.26) (arxiv.org/abs/2511.07885)
- MarkTechPost 분석 기사, 2026.03.12 (marktechpost.com)
- Hacker News 쓰레드 — Can I run AI locally? (#47363754, 2026.03.13)
- Reddit r/machinelearningnews — Stanford Researchers Release OpenJarvis (2026.03.12)
본 포스팅은 2026년 3월 18일 기준으로 작성됐습니다. OpenJarvis는 현재 활발히 개발 중인 오픈소스 프로젝트로, 본 포스팅 작성 이후 서비스 정책·UI·기능·지원 하드웨어가 변경될 수 있습니다. 최신 정보는 공식 GitHub 및 문서에서 직접 확인하시기 바랍니다.

댓글 남기기