2026.02.27 공개 기준
arXiv:2602.15902
Sakana AI 공식 발표

Doc-to-LoRA, 직접 확인한 수치가 놀랍습니다

AI에게 새 문서를 읽히려면 매번 긴 컨텍스트를 넣어야 합니다. Sakana AI가 2026년 2월 발표한 Doc-to-LoRA는 이 구조를 통째로 바꿉니다. 문서를 1초 이내에 LoRA 어댑터로 변환해 모델 가중치에 직접 내재화하는 방식입니다. 공식 논문(arXiv:2602.15902) 수치를 보니 기존 방식과 격차가 생각보다 훨씬 컸습니다.

50 MB

128K 토큰 처리 메모리

< 1초

문서 내재화 소요 시간

40K 토큰

기본 컨텍스트 창 한계 돌파

Doc-to-LoRA가 등장한 배경

AI에게 긴 문서를 반복적으로 읽히는 건 생각보다 비용이 큽니다. 매번 컨텍스트 창에 문서를 통째로 넣으면 처리 속도가 느려지고, GPU 메모리(VRAM)를 쏟아부어야 합니다. 128K 토큰짜리 문서를 처리할 때 기본 모델은 추가 메모리만 12GB 이상이 필요합니다. (출처: Sakana AI 공식 블로그, 2026.02.27) 이게 실무에서 매 요청마다 발생하면 서버 비용이 기하급수적으로 올라갑니다.

그렇다고 기존에 알려진 대안인 Context Distillation(CD)을 쓰면 다른 문제가 생깁니다. 문서 하나를 내재화하는 데만 쿼리 생성 + 역전파(backpropagation) 과정이 필요하고, 이 과정이 100초를 넘깁니다. 공식 논문(arXiv:2602.15902) Table 1에 따르면 생성 쿼리 방식의 CD는 평균 465초가 걸립니다. 서비스에서 실시간으로 쓰기엔 현실적으로 불가능한 수치입니다.

Sakana AI가 여기에 하이퍼네트워크 개념을 결합한 것이 Doc-to-LoRA입니다. 핵심 아이디어는 간단합니다. “매번 문서를 새로 읽히지 말고, 한 번 만든 어댑터로 계속 답하게 하자”는 것입니다. 비용을 초기 메타 트레이닝 한 번에 몰아서 지불하고, 이후 실사용은 훨씬 가볍게 만드는 구조입니다.

▲ 목차로 돌아가기

어떻게 작동하는가 — 구조 핵심 정리

Doc-to-LoRA의 핵심은 하이퍼네트워크입니다. 하이퍼네트워크는 다른 신경망의 파라미터를 출력으로 내보내는 신경망입니다. 쉽게 말해, “어떤 문서를 주면 그 문서에 맞는 LoRA 가중치를 즉석에서 만들어주는 작은 네트워크”입니다. Perceiver 아키텍처 기반으로 설계돼 길이가 다른 문서도 고정된 크기의 출력으로 처리할 수 있습니다.

💡 공식 발표문과 실제 구조를 같이 놓고 보니 이런 흐름이 보였습니다

Doc-to-LoRA는 두 단계로 동작합니다. 메타 트레이닝(비용 한 번 지불) → 문서 내재화(실사용, 거의 무료 수준). 이 구조는 기존 CD가 문서마다 비용을 반복 지불하는 것과 정반대입니다. 한 번 훈련한 하이퍼네트워크는 이후 어떤 새로운 문서가 들어와도 단일 순방향 패스(single forward pass) 한 번으로 어댑터를 생성합니다.

문서가 매우 길 때는 청킹(chunking) 메커니즘이 작동합니다. 문서를 1,024 토큰 단위 청크로 나누고, 각 청크마다 rank-8 LoRA를 생성한 다음 이를 rank 차원으로 이어 붙입니다. 청크가 K개면 최종 어댑터의 유효 rank는 r×K가 됩니다. 논문에서 메타 트레이닝 시 가장 긴 시퀀스는 256 토큰이었는데, 실제 추론에서는 40K 토큰까지 정확도를 유지했습니다. (출처: arXiv:2602.15902, 2026.02.13)

구분	Doc-to-LoRA	기존 Context Distillation
내재화 방식	하이퍼네트워크 단일 순방향 패스	쿼리 생성 + 역전파 반복
소요 시간	약 1초 미만	100초 이상 (465초까지)
추가 메모리 (업데이트 시)	약 2 GB	40 GB 이상
컨텍스트 창 초과 처리	가능 (청킹)	문서 절단 필요
추론 시 메모리 (128K 토큰)	50 MB 미만	12 GB 이상

출처: arXiv:2602.15902 Table 1, Figure 2 (Sakana AI, 2026.02.13)

▲ 목차로 돌아가기

공식 논문 수치로 본 실제 성능 차이

숫자가 보여주는 것을 그냥 넘기기 어렵습니다

SQuAD(독해 벤치마크)에서 Doc-to-LoRA는 컨텍스트 창에 문서를 직접 넣은 상한선(upper bound) 대비 82.5% 상대 성능을 냈습니다. (출처: arXiv:2602.15902 Figure 3) 컨텍스트에 문서가 없는 상태에서 이 수치가 나왔다는 게 포인트입니다. 문서를 한 번 내재화하면 이후 질문에는 문서가 없어도 이 수준으로 답한다는 뜻입니다.

생각해보면 이게 꽤 큰 차이입니다. 동일한 조건에서 기존 CD(생성 쿼리 방식)는 74.5%에 그쳤고, 시간은 465초나 걸렸습니다. Doc-to-LoRA는 0.2초 만에 82.5%를 달성했습니다. 시간은 2,000배 이상 줄었는데 정확도는 오히려 더 높습니다. 빠른 대신 정확도를 일부 포기하는 것이 일반적인데, 여기서는 반대입니다.

📊 검증 가능한 수치 — 공식 논문 Table 1 기준

2WikiMultihopQA(장문 QA) 벤치마크에서 D2L(batched) 방식의 내재화 평균 소요 시간은 0.209초입니다. CD(5개 생성 쿼리)는 72.5초, CD(25개 생성 쿼리)는 465초입니다. 성능은 D2L 0.857, CD(25 쿼리) 0.745입니다. 시간을 더 쓸수록 성능이 낮아지는 기이한 역전 현상이 공식 수치로 확인됩니다.

장문 처리에서도 마찬가지입니다. 기본 모델(Gemma-2-2b-it)은 컨텍스트 창이 8K 토큰인데, Doc-to-LoRA는 40K 토큰까지 거의 완벽한 정확도를 유지합니다. 8K를 넘는 순간 기본 모델은 성능이 급락하지만, Doc-to-LoRA는 그 지점에서도 안정적입니다. 40K 이상에서는 성능이 완만하게 하락하지만 붕괴하지 않습니다. (출처: arXiv:2602.15902 Figure 2) 컨텍스트 창이 모델의 절대적 한계라는 인식을 뒤집는 결과입니다.

▲ 목차로 돌아가기

이미지도 텍스트 모델에 집어넣을 수 있다

논문이 조용히 넣어둔, 아무도 주목하지 않은 실험이 있습니다

공식 발표문과 실제 실험 결과를 교차해서 보다가 눈에 걸린 부분이 있었습니다. Doc-to-LoRA는 텍스트 전용 모델에 이미지 정보를 내재화하는 데도 작동합니다. Gemma-3-4b-it(비전-언어 모델, VLM)이 이미지를 인코딩하면, Doc-to-LoRA가 그 활성화값을 읽어 텍스트 전용 모델(Gemma-2-2b-it)의 LoRA 어댑터를 생성합니다.

이 실험에서 텍스트 전용 모델은 훈련 과정에서 이미지를 한 번도 본 적이 없습니다. 하이퍼네트워크도 이미지 토큰 없이 훈련됐습니다. 그런데 Imagenette 데이터셋(ImageNet 10클래스 부분집합)에서 이미지 분류 정확도 75.03%를 기록했습니다. (출처: arXiv:2602.15902 Table 2) 무작위 분류(10%)보다 7.5배 높은 수치입니다.

💡 왜 이게 가능한가 — 논문의 가설

VLM이 이미지 토큰을 텍스트 토큰과 같은 잠재 공간(latent space)에 매핑하기 때문입니다. 논문은 “이미지 토큰을 처리하는 방식이, 영어가 아닌 다른 언어의 텍스트 토큰을 처리하는 방식과 유사하다”고 설명합니다. (출처: Sakana AI 공식 인터랙티브 페이지) 즉 Doc-to-LoRA가 보고 있는 건 이미지가 아니라, VLM이 이미지를 표현한 벡터입니다. 텍스트와 같은 공간에 있으니 처리할 수 있었던 것입니다.

이건 단순한 부록 실험이 아닙니다. 하나의 하이퍼네트워크가 텍스트, 이미지, 나아가 다른 모달리티까지 처리할 수 있다는 가능성을 보여줍니다. Sakana AI도 공식 발표에서 이를 “Context-to-LoRA”라는 더 넓은 개념으로 확장할 수 있는 방향이라고 직접 언급했습니다.

▲ 목차로 돌아가기

진짜 공짜가 아닌 이유 — 알려지지 않은 조건

Sakana AI도 공식 문서에 이 부분을 명시했습니다

단일 순방향 패스로 1초 안에 내재화한다는 말만 보면 비용이 없는 것처럼 들립니다. 그런데 Sakana AI 공식 블로그에는 이런 문장이 있습니다. “메타 트레이닝은 매우 비쌀 수 있습니다. 여러 GPU에서 수일 내지 수 주가 걸립니다.” (출처: pub.sakana.ai/doc-to-lora/) 지금 공개된 체크포인트는 Gemma-2-2b-it 기준으로 H200 GPU 단 1대에서 약 3시간 만에 메타 트레이닝을 완료했습니다. (출처: arXiv:2602.15902 PDF) 하지만 이건 연구용 소규모 실험 기준입니다.

⚠️ 실사용 전 알아야 할 제약 조건

현재 공개 체크포인트는 Gemma-2-2b-it 기준입니다. 다른 모델에 쓰려면 별도 메타 트레이닝이 필요합니다.
실제 성능은 상한선(full context) 대비 약 82~85%입니다. 모든 정보가 완벽하게 내재화되지는 않습니다.
Doc-to-LoRA의 LoRA rank는 rank-8 고정입니다. 매우 긴 문서는 청킹으로 rank가 커지지만, 하이퍼네트워크 출력 형태는 바뀌지 않습니다.
훈련 데이터 외 도메인(예: 특수 전문 용어, 코드 중심 문서)에서의 성능은 아직 공식 수치가 없습니다.

그리고 중요한 점 하나. Doc-to-LoRA가 RAG를 대체하는 것은 아닙니다. AI Advances(2026.03.04) 분석처럼, RAG는 검색 기반 동적 정보 접근에 여전히 강점이 있고, Doc-to-LoRA는 정적인 문서를 빠르게 내재화하는 용도에 맞습니다. 두 방식이 경쟁보다는 역할이 다른 구조입니다.

▲ 목차로 돌아가기

실사용 관점에서 본 가능성과 한계

이 기술이 바꿀 수 있는 시나리오를 짚어봤습니다

가장 현실적인 적용 시나리오는 사내 문서 기반 AI 어시스턴트입니다. 매번 긴 매뉴얼이나 정책 문서를 컨텍스트에 넣는 대신, 문서를 한 번 내재화한 어댑터를 생성해두면 됩니다. 이후 직원들이 질문할 때는 해당 어댑터만 로드하면 됩니다. VRAM 사용량이 50MB 미만이라는 수치는, 어댑터 수십 개를 동시에 올려도 메모리 부담이 작다는 뜻입니다.

Sakana AI가 공식 발표에서 직접 언급한 또 다른 시나리오는 ‘모델이 잠자는 사이에 업데이트되는 구조’입니다. 대화 세션이 끝나면 그 대화 내용을 어댑터로 내재화해 두고, 다음 세션이 시작될 때 해당 어댑터를 불러옵니다. 사용자 개인화가 컨텍스트 길이에 구애받지 않고 누적되는 방식입니다. 공식 이유가 밝혀지지 않았지만, 실제 구현에는 어댑터 저장 및 로딩 파이프라인 설계가 추가로 필요합니다.

💡 비용 구조를 거꾸로 뒤집어 생각해 보면

기존 방식은 문서 하나당 비용이 반복 발생합니다. Doc-to-LoRA는 초기 메타 트레이닝 비용은 크지만, 이후 문서당 내재화 비용은 단일 순방향 패스 하나입니다. 요청 수가 많아질수록 총 비용은 기존 방식에 비해 낮아집니다. 문서 수가 많은 서비스일수록 경제적 우위가 커지는 구조입니다.

아직 실제 상용화 사례가 공개된 건 없습니다. 연구 단계임을 감안해야 합니다. 다만 코드와 체크포인트가 이미 GitHub(github.com/SakanaAI/Doc-to-LoRA)와 HuggingFace에 공개돼 있어서 직접 실험해볼 수 있는 환경은 갖춰져 있습니다.

▲ 목차로 돌아가기

Q&A

Q1. Doc-to-LoRA를 쓰려면 GPU가 얼마나 필요한가요?

공식 논문 기준으로 메타 트레이닝은 H200 GPU 단 1대에서 약 3시간이 걸렸습니다. 추론(내재화) 단계는 추가 메모리가 2GB 미만으로, 일반 개발용 GPU에서도 실행 가능합니다. 다만 H200은 소비자용 GPU가 아니므로 클라우드 활용이 현실적입니다.

Q2. RAG 대신 Doc-to-LoRA를 쓰면 더 좋은가요?

용도가 다릅니다. Doc-to-LoRA는 정적 문서를 빠르게 모델 가중치에 내재화하는 데 강합니다. RAG는 실시간으로 바뀌는 정보를 동적으로 검색해 붙이는 구조입니다. 자주 바뀌지 않는 사내 규정이나 매뉴얼에는 Doc-to-LoRA가 유리하고, 뉴스나 실시간 데이터에는 RAG가 적합합니다.

Q3. Gemma-2-2b-it 말고 다른 모델에도 적용할 수 있나요?

이론적으로는 가능합니다. 다만 현재 공개된 체크포인트는 Gemma-2-2b-it 전용입니다. 다른 모델에 쓰려면 해당 모델로 하이퍼네트워크를 처음부터 메타 트레이닝해야 합니다. Mistral-7B-Instruct에 대해서는 논문 부록에 별도 결과가 포함돼 있습니다.

Q4. 내재화 후 문서 내용을 완벽하게 기억하나요?

완벽하지는 않습니다. SQuAD 기준으로 상한선 대비 82.5%, 장문 QA에서 85% 수준입니다. 나머지 15~17%는 손실됩니다. 모든 정보를 정확하게 꺼내야 하는 용도라면 이 부분을 감안해야 합니다. 논문도 이 한계를 명시하고 있습니다.

Q5. Text-to-LoRA는 Doc-to-LoRA와 어떻게 다른가요?

Doc-to-LoRA는 긴 문서를 지식으로 내재화합니다. Text-to-LoRA는 짧은 자연어 태스크 설명(예: “수학 문제를 풀어라”)을 받아 해당 행동을 수행하는 LoRA 어댑터를 생성합니다. 둘 다 하이퍼네트워크를 쓰지만, 입력과 목적이 다릅니다. 두 기능을 하나의 하이퍼네트워크로 통합하는 것이 Sakana AI의 장기 연구 방향입니다.

▲ 목차로 돌아가기

마치며

Doc-to-LoRA가 인상적인 건 벤치마크 숫자 때문만은 아닙니다. 기존에 “느리고 비싸서 실시간으로는 못 쓴다”고 여겨졌던 Context Distillation을 단일 순방향 패스 하나로 줄였다는 발상 자체가 흥미롭습니다. 속도·메모리·정확도 세 가지를 동시에 개선한 사례는 드뭅니다. 공식 수치가 이 세 가지 모두에서 기존 방법을 앞선다고 나와 있습니다.

다만 연구 단계라는 점은 분명합니다. 현재 공개 체크포인트는 Gemma-2-2b-it 단일 모델 기준이고, 메타 트레이닝 비용은 초기에 한 번 지불해야 합니다. 모든 정보가 완벽하게 내재화되지 않는다는 한계도 공식 문서에 그대로 나와 있습니다. 써보기 전에 이 조건들을 먼저 확인하는 게 맞습니다.

그럼에도 AI가 문서를 처리하는 방식이 앞으로 어떻게 바뀔지를 엿볼 수 있는 기술인 건 맞습니다. 코드가 공개돼 있으니 관심 있다면 직접 실험해보는 것이 가장 빠른 방법입니다.

▲ 목차로 돌아가기

📚 본 포스팅 참고 자료

Sakana AI 공식 블로그 — Instant LLM Updates with Doc-to-LoRA and Text-to-LoRA
https://sakana.ai/doc-to-lora/
arXiv 공식 논문 — Doc-to-LoRA: Learning to Instantly Internalize Contexts (2026.02.13)
https://arxiv.org/abs/2602.15902
Sakana AI 공식 인터랙티브 페이지
https://pub.sakana.ai/doc-to-lora/
GitHub 공식 코드 리포지토리
https://github.com/SakanaAI/Doc-to-LoRA

※ 본 포스팅은 2026년 3월 29일 기준으로 작성되었습니다. 작성 이후 Sakana AI의 서비스 정책·UI·기능·공개 체크포인트가 변경될 수 있습니다. 최신 내용은 공식 GitHub 및 arXiv 원문을 직접 확인하시기 바랍니다.

Doc-to-LoRA, 직접 확인한 수치가 놀랍습니다

Doc-to-LoRA가 등장한 배경

어떻게 작동하는가 — 구조 핵심 정리