OpenJarvis, 클라우드 없이 진짜 될까요?

Published on

in

OpenJarvis, 클라우드 없이 진짜 될까요?

2026.03.12 공개
Stanford Scaling Intelligence Lab
Apache 2.0 오픈소스

OpenJarvis, 클라우드 없이 진짜 될까요?

결론부터 말씀드리면, 조건이 맞으면 됩니다. 그런데 그 조건이 생각보다 까다롭습니다. Stanford 공식 연구팀이 2026년 3월 12일 공개한 OpenJarvis는 “AI를 완전히 내 기기에서만 돌리겠다”는 목표로 설계된 오픈소스 프레임워크입니다. 클라우드 API에 개인 데이터를 넘기지 않아도 된다는 점이 핵심인데, 막상 설치해보면 기대와 다른 지점이 있습니다. 그 부분까지 같이 들여다보겠습니다.

88.7%
로컬 처리 가능 쿼리 비율
5.3×
2023→2025 IPW 효율 향상
1.4×
로컬 가속기 vs 클라우드 IPW

“클라우드 AI가 더 낫지 않나요?” — 이 수치를 먼저 보세요

많은 사람이 로컬 AI를 “느리고 성능도 떨어지는 대안”으로 생각합니다. 실제로 2023년까지는 그 말이 맞았습니다. 그런데 Stanford Hazy Research 팀이 2025년 11월 발표한 논문(arXiv:2511.07885)을 보면 이야기가 달라집니다.

💡 공식 발표문과 실제 사용 흐름을 같이 놓고 보니 이런 차이가 보였습니다

Stanford 팀은 20개 이상의 최신 로컬 LM, 8개 가속기, 그리고 실제 LLM 트래픽 100만 건을 분석했습니다. 결과: 로컬 모델이 단일 대화·추론 쿼리의 88.7%를 정확하게 처리할 수 있다고 측정됐습니다. 이건 추정이 아니라 실측 데이터입니다. (출처: arXiv:2511.07885, 2026.02.26 최종 업데이트)

더 눈에 띄는 수치는 효율 개선 속도입니다. 로컬 AI의 핵심 지표인 IPW(Intelligence Per Watt, 와트당 정확도)가 2023년에서 2025년 사이 5.3배 개선됐습니다. 쉽게 말하면, 같은 전력으로 처리할 수 있는 AI 성능이 2년 만에 5배 이상 늘었다는 뜻입니다.

게다가 동일한 모델을 로컬에서 돌렸을 때 클라우드 가속기보다 IPW가 최소 1.4배 높습니다. 이 수치가 의미하는 바는 단순합니다. “가격 대비 성능”이라는 관점에서 로컬 실행이 이미 클라우드를 앞서기 시작했다는 겁니다. OpenJarvis는 그 위에 올라타는 소프트웨어 스택입니다.

▲ 목차로 돌아가기

OpenJarvis가 실제로 하는 일 — 5개 프리미티브 구조

OpenJarvis는 2026년 3월 12일 Stanford Scaling Intelligence Lab에서 공개한 오픈소스 AI 에이전트 프레임워크입니다. 핵심 구조는 5개의 프리미티브(composable primitive)로 이뤄져 있고, 각각 독립적으로 교체·벤치마킹이 가능합니다. (출처: Stanford 공식 블로그 scalingintelligence.stanford.edu/blogs/openjarvis, 2026.03.12)

프리미티브 역할 지원 백엔드 예시
Intelligence 모델 레이어. 하드웨어에 맞는 모델 자동 추천 Qwen3.5, Gemma3n, Granite4, GLM 등
Engine 추론 런타임. 하드웨어 자동 감지 후 최적 엔진 추천 Ollama, vLLM, llama.cpp, MLX, SGLang
Agents 행동 레이어. 7가지 내장 에이전트 타입 Orchestrator, Operative 등
Tools & Memory 툴 사용 + 로컬 문서 의미론적 검색 MCP, Google A2A, 파일 I/O, 웹검색
Learning 로컬 트레이스로 모델 자동 개선 SFT, LoRA, GRPO, DSPy, GEPA

인터페이스는 CLI(jarvis ask), 브라우저 대시보드, 데스크톱 앱(macOS/Windows/Linux) 세 가지가 제공됩니다. 설치는 pip install openjarvisjarvis init으로 시작하며, 이 명령어 하나로 기기 하드웨어를 감지하고 적합한 엔진과 모델을 추천해줍니다. (출처: open-jarvis.github.io/OpenJarvis)

▲ 목차로 돌아가기

설치하고 나서 이 단계에서 막힙니다

공식 문서가 깔끔해서 설치 자체는 어렵지 않습니다. 문제는 그 다음입니다. Reddit의 실사용자 sx1979는 Ollama + Qwen 모델 조합으로 설치한 뒤 이렇게 적었습니다. “Jarvis couldn’t find my computer name or take action on browser.” — 컴퓨터 이름을 인식하지 못했고, 브라우저 조작도 작동하지 않았다는 겁니다.

⚠️ 현재 버전(v0.1.0)에서 확인된 한계

브라우저 직접 조작(Computer Use 방식)은 현재 공식 지원 범위 밖입니다. OpenJarvis는 에이전트가 파일, 메모리, 외부 도구(MCP 서버)와 상호작용하는 방식으로 작동하며, GUI 레벨의 컴퓨터 조작은 이번 릴리즈에 포함되지 않았습니다. 또한 macOS에서 데스크톱 앱 실행 시 “앱이 손상됐습니다” 경고가 뜰 수 있으며, 이때는 xattr -cr /Applications/OpenJarvis.app으로 해제해야 합니다. (출처: open-jarvis.github.io/OpenJarvis 공식 문서)

또 다른 현실적인 벽은 메모리 요구량입니다. Hacker News 쓰레드의 실험자들에 따르면 128GB 통합 메모리를 가진 Ryzen AI Max+ 395 노트북에서도 약 100GB 이상의 큰 모델은 컨텍스트와 오버헤드를 고려하면 80GB 수준으로 상한을 낮춰야 실제로 안정적으로 작동했습니다.

즉, OpenJarvis 자체의 완성도보다 내 기기가 어떤 모델을 소화할 수 있는지가 먼저 선결 과제입니다. 이건 OpenJarvis의 문제라기보다 온디바이스 AI 전체의 현실입니다. 단, jarvis bench 명령어로 내 기기에서 레이턴시·에너지 소비를 직접 측정할 수 있다는 점은 다른 프레임워크에서 보기 어려운 장점입니다.

▲ 목차로 돌아가기

대화할수록 모델이 개선된다고요? 이 구조가 핵심입니다

💡 대부분의 소개글에서 그냥 지나치는 부분인데, 공식 발표 원문을 들여다보니 이 구조가 달랐습니다

OpenJarvis의 Learning 프리미티브는 단순한 “대화 기록 저장”이 아닙니다. 매 인터랙션마다 생성되는 트레이스 데이터 — 추론 텔레메트리, 프롬프트-응답 쌍, 에이전트 결정 경로, 툴 호출 시퀀스 — 를 로컬 기기에 모아서 모델 가중치 자체를 수정하는 루프를 돌립니다. (출처: Stanford 공식 블로그 scalingintelligence.stanford.edu/blogs/openjarvis)

클라우드 AI가 “내 대화를 학습에 쓸 수 있다”고 말할 때, 그 학습은 OpenAI나 Anthropic의 서버에서 이뤄집니다. 내 데이터가 어떻게 쓰이는지 내가 통제할 수 없습니다. OpenJarvis의 접근은 반대입니다. 모든 트레이스가 기기에 남고, 학습도 기기에서 돌아갑니다. 데이터가 외부 서버로 나가는 순간이 없습니다.

최적화 범위는 4개 레이어입니다. 모델 가중치 직접 업데이트(SFT, GRPO, DPO), 프롬프트 자동 개선(DSPy), 에이전트 로직 개선(GEPA), 그리고 양자화 선택·배치 스케줄링 등 엔진 레벨 튜닝까지 포함됩니다. jarvis optimize 명령어 하나로 이 과정을 실행할 수 있도록 패키징돼 있습니다. 다만 실제로 이 최적화 루프가 얼마나 잘 작동하는지에 대한 독립 검증 데이터는 아직 공개된 게 없습니다 — 확인 필요.

▲ 목차로 돌아가기

어떤 하드웨어에서 실제로 쓸 만한가

OpenJarvisjarvis init 실행 시 GPU 벤더·모델·VRAM을 자동 감지해서 최적 엔진과 모델 조합을 추천합니다. Apple Silicon은 MLX 백엔드, NVIDIA는 vLLM 또는 Ollama, AMD GPU도 지원합니다.

🖥 하드웨어별 현실적 기대치 (Hacker News 실사용자 데이터 기반, 2026.03 기준)

  • M4 MacBook Pro (16GB 통합 메모리): Qwen3.5-9B 정도가 현실적인 상한. 실용 범위에서 작동하나 복잡한 에이전트 작업에서 속도 저하 체감.
  • NVIDIA RTX 3060 (12GB VRAM): Qwen3.5-9B 4비트 양자화 기준 적합. Q4 양자화 시 일부 정확도 저하 가능.
  • M4 Max / Ryzen AI Max+ (64~128GB 통합 메모리): Qwen3.5-72B 또는 Qwen3-Coder-80B 수준까지 실용 가능. 단, 안정 운용을 위해 전체 메모리의 60~65%를 모델에 할당하는 것이 권장됨.
  • CPU 전용 (RAM 16~32GB): 소형 작업(OCR, 분류, 텍스트 변환)에는 활용 가능하나 에이전트 워크플로우로의 확장은 사실상 어려움.

중요한 건 에너지 측정 기능입니다. Apple Silicon은 powermetrics, NVIDIA는 NVML을 통해 50ms 간격으로 전력 소비를 샘플링합니다. 쿼리당 실제 전기값을 달러 단위로 실시간 확인할 수 있는 AI 프레임워크는 현재 OpenJarvis가 거의 유일합니다. 이 수치가 의미하는 건, 내가 AI를 쓸 때 실제로 얼마를 쓰는지를 처음으로 직접 볼 수 있게 됐다는 겁니다. (출처: Stanford 공식 블로그)

▲ 목차로 돌아가기

클라우드 AI와 비교할 때 진짜 차이가 나는 지점

OpenJarvis와 ChatGPT, Claude 같은 클라우드 AI를 직접 비교하면 어디서 갈리는지를 솔직하게 보겠습니다. 기능 우열이 아니라 어디에 쓰면 말이 되는지의 관점입니다.

항목 OpenJarvis (로컬) 클라우드 AI (ChatGPT 등)
데이터 유출 위험 없음 (로컬 처리) 서비스 약관 의존
최고 성능 추론 하드웨어 제약 있음 GPT-5.4 / Opus 4 등
월정액 비용 전기요금만 $20~$200/월
오프라인 작동 완전 가능 불가
모델 커스터마이징 가중치 직접 수정 가능 불가 (파인튜닝 API 제한적)
브라우저/GUI 조작 현재 미지원 (v0.1.0) GPT-5.4 Computer Use

써보니까 이게 핵심입니다. OpenJarvis가 의미 있는 상황은 딱 세 가지로 좁혀집니다. 민감한 사내 문서를 분석해야 할 때, 구독료 없이 24시간 자동화 워크플로우를 돌리고 싶을 때, 그리고 모델 자체를 뜯어고쳐야 하는 연구 환경일 때입니다. 반대로 최고 수준의 추론 능력이 필요하거나, 웹사이트를 직접 조작하는 에이전트가 필요하다면 지금 버전의 OpenJarvis는 대안이 되지 않습니다.

▲ 목차로 돌아가기

Q&A

OpenJarvis를 설치할 때 인터넷 연결이 필요한가요?
최초 설치 및 모델 다운로드에는 인터넷이 필요합니다. 그 이후 모든 추론·에이전트 동작은 인터넷 없이 완전 오프라인으로 작동합니다. 공식 문서에서 “All core functionality works without a network connection. Cloud APIs are optional extras.”라고 명시하고 있습니다. (출처: open-jarvis.github.io/OpenJarvis)
일반 노트북(인텔 CPU, 16GB RAM)에서도 실용적으로 쓸 수 있나요?
제한적으로 가능합니다. 1~3B 파라미터 소형 모델은 CPU에서도 작동하며, 문서 분류·텍스트 변환 같은 단순 작업에는 충분합니다. 다만 복잡한 멀티스텝 에이전트 워크플로우는 응답 속도가 너무 느려 실용성이 낮습니다. 이 부분은 하드웨어 제약이지 OpenJarvis 자체의 문제는 아닙니다.
기존에 OpenAI API를 쓰던 앱을 OpenJarvis로 교체하려면 코드 수정이 많이 필요한가요?
생각보다 간단합니다. jarvis serve를 실행하면 FastAPI 기반 SSE 스트리밍 서버가 시작되고, 이게 OpenAI 클라이언트의 드롭인 대체재로 동작합니다. 즉, API 엔드포인트 주소만 바꾸면 기존 코드 대부분을 그대로 쓸 수 있도록 설계돼 있습니다. 단, 기능 동등성 100%는 아니므로 실제 전환 전 테스트가 필요합니다.
Learning 프리미티브로 모델을 개선하려면 얼마나 많은 데이터가 쌓여야 하나요?
공식 문서나 Stanford 블로그에 구체적인 수치는 공개되지 않았습니다 — 확인 필요. 현재 v0.1.0 단계에서 Learning 프리미티브가 실제로 개인 사용자 환경에서 얼마나 효과적으로 작동하는지에 대한 독립 검증 결과는 아직 없습니다. 연구 플랫폼으로서의 방향성이 강하고, 일반 사용자 수준의 학습 효과에 대해서는 향후 업데이트를 지켜볼 필요가 있습니다.
현재 어떤 메시징 플랫폼과 연동이 가능한가요?
공식 문서 기준 iMessage, Telegram, WhatsApp을 포함해 26개 이상의 메시징 채널 연동을 지원한다고 명시돼 있습니다. 모든 메시지 처리가 로컬에서 이뤄지므로 대화 내용이 외부 서버로 전달되지 않는다는 점이 차별점입니다. (출처: open-jarvis.github.io/OpenJarvis 공식 문서)

▲ 목차로 돌아가기

마치며

OpenJarvis는 “온디바이스 AI가 이미 쓸 만하다”는 Stanford의 연구 결과를 실제 소프트웨어로 구현한 첫 번째 진지한 시도입니다. 88.7% 쿼리 처리 능력이라는 공식 수치가 보여주듯, 방향은 맞습니다.

그런데 솔직히 말하면, v0.1.0은 아직 연구자와 개발자를 위한 프레임워크입니다. 브라우저 조작 불가, 컴퓨터 이름 인식 실패 같은 실사용 한계가 있고, Learning 루프의 실제 효과도 검증이 덜 됐습니다. 지금 당장 ChatGPT의 대안으로 쓰기엔 거리가 있습니다.

하지만 이게 6개월, 1년 뒤에도 같은 상태일 거라고 생각하지 않습니다. IPW가 2년에 5배 빨라지는 속도라면, 지금 설치해두고 구조를 파악해두는 게 나중에 훨씬 빠릅니다. 온디바이스 AI에 관심이 있다면 지금이 구경할 타이밍입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

  1. Stanford Scaling Intelligence Lab 공식 블로그 — OpenJarvis: Personal AI, On Personal Devices (scalingintelligence.stanford.edu/blogs/openjarvis/)
  2. OpenJarvis 공식 문서 (open-jarvis.github.io/OpenJarvis/)
  3. arXiv:2511.07885 — Intelligence Per Watt, Saad-Falcon et al., Stanford Hazy Research (최종 업데이트 2026.02.26) (arxiv.org/abs/2511.07885)
  4. MarkTechPost 분석 기사, 2026.03.12 (marktechpost.com)
  5. Hacker News 쓰레드 — Can I run AI locally? (#47363754, 2026.03.13)
  6. Reddit r/machinelearningnews — Stanford Researchers Release OpenJarvis (2026.03.12)

본 포스팅은 2026년 3월 18일 기준으로 작성됐습니다. OpenJarvis는 현재 활발히 개발 중인 오픈소스 프로젝트로, 본 포스팅 작성 이후 서비스 정책·UI·기능·지원 하드웨어가 변경될 수 있습니다. 최신 정보는 공식 GitHub 및 문서에서 직접 확인하시기 바랍니다.

댓글 남기기


최신 글


아이테크 어른경제에서 더 알아보기

지금 구독하여 계속 읽고 전체 아카이브에 액세스하세요.

계속 읽기