Knowledge Base
RAG 시스템이 질문에 답하기 위해 참조하는 정제된 문서, 자주 묻는 질문, 혹은 정형 데이터의 관리 집합체입니다.
RAG의 retrieval 품질이 정해지는 첫 결정이 어떤 문서를 어떻게 정제해 넣느냐이기 때문이다.
Knowledge base의 품질은 검색·LLM이 메우지 못한다 — garbage in, garbage retrieved.
PDF·HTML 파싱 품질을 측정하지 않고 그대로 vector store에 박는 것.
Knowledge base 설계는 RAG의 가장 저평가된 자산이다. 문서 정제·메타데이터 설계에 들이는 시간이 retrieval보다 훨씬 큰 ROI를 만든다.