[태그:] xRAG
-

xRAG: Extreme Context Compression for Retrieval-Augmented Generation with One Token (NeurIPS 2024)
xRAG 논문 핵심 아이디어 이 논문의 핵심은 다음 한 문장으로 요약할 수 있습니다. 검색된 문서를 텍스트로 LLM에 넣지 말고, retrieval embedding 하나만 “문서 토큰 1개”처럼 넣자. 즉, 기존 RAG는: 를 입력으로 사용했지만, xRAG는: 만 사용합니다. 문제의식 기존 RAG의 가장 큰 문제는: 라는 점입니다. 예를 들어: 이면 대부분의 계산량이 retrieval context 처리에 사용됩니다. 기존…