
결론부터 말하면, RAG 지식베이스 구축은 PDF를 많이 넣는 일이 아니라 어떤 문서가 최신이고 언제 폐기될지 정하는 운영 문제입니다. 오래된 문서가 섞이면 AI 답변도 오래된 기준을 따라갑니다.
먼저 가를 기준
판단 기준은 문서가 지금도 유효한지와 누가 관리하는지입니다. 적용 기간, 버전, 담당 부서, 대체 문서 여부를 표시해야 검색 결과의 신뢰도를 관리할 수 있습니다.
| 상황 | 판정 | 이유 |
|---|---|---|
| 갈래가 여러 개인 경우 | 시간·위치·대상 중 하나를 먼저 고릅니다 | 기준이 없으면 화면을 따라가도 마지막에 다시 갈립니다 |
| 이름이 비슷한 절차가 있는 경우 | 목적에 맞는 항목을 고릅니다 | 이름이 비슷해도 쓰임새가 다르면 대체가 안 됩니다 |
| 결과가 예상과 다른 경우 | 처음 입력한 조건부터 되짚습니다 | 대부분의 오류는 첫 조건 선택에서 생깁니다 |
| 순서 | 볼 것 | 판단 |
|---|---|---|
| 먼저 닫을 것 | 내 상황을 가르는 기준 하나 | |
| 다음에 볼 것 | 공식 화면에서 요구하는 입력값 | |
| 마지막 판단 | 다시 돌아오지 않게 남길 기록 |
실제로 갈리는 부분
실제로 갈리는 부분은 사내 자료를 모두 넣으면 답변이 똑똑해질 것이라고 생각하는 경우입니다. RAG는 문서 창고가 아니라 근거를 찾아주는 구조라 잘못된 근거가 들어가면 답도 같이 흔들립니다.
함께 읽을 글
- 로컬 LLM에 PDF 넣었더니 느려지는 이유, 모델보다 검색 방식 문제였다
- NotebookLM에 PDF를 많이 넣어도 답변이 얕아지는 이유
- AI 고객응대 챗봇, FAQ만 넣으면 답변이 엉키는 이유
마치며
저는 RAG의 품질은 모델보다 문서 운영에서 먼저 갈린다고 봅니다. 우리 문서의 생애주기를 닫아야 지식베이스가 오래된 PDF 더미가 아니라 업무 근거가 됩니다.











댓글 남기기