RAG (Retrieval Augmented Generation) 심층 분석

RAG (Retrieval Augmented Generation) 심층 분석: LLM의 한계를 넘어서는 지식 확장 기술의 핵심과 고급 전략

1. RAG 파이프라인의 핵심 구성 요소 및 최적화 (Where to Retrieve?)

RAG 시스템의 근간은 LLM이 참조할 수 있는 고품질의 외부 지식 기반을 효율적으로 구축하고 활용하는 것입니다. 이 과정은 데이터 수집부터 벡터화, 그리고 검색에 이르기까지 정교한 설계와 최적화가 필수적입니다.

로드 (Load):
- 다양한 데이터 소스 수집: RAG는 PDF, JSON, HTML, Markdown, CSV 등 다양한 정적 문서 형식은 물론, GitHub, Notion, Slack, Google Drive와 같은 클라우드 기반 서비스, 그리고 다양한 관계형/NoSQL 데이터베이스 및 API에서 데이터를 수집할 수 있습니다. LangChain과 같은 프레임워크는 이러한 다종다양한 소스에서 문서를 효율적으로 불러올 수 있는 DocumentLoader를 제공합니다.
- 성능과 메타데이터 고려: PDF 로더의 경우, fitz (PyMuPDF 기반)는 빠른 속도로 텍스트를 로드하는 장점이 있는 반면, pdfplumber는 다양한 메타데이터를 추출하고 성능이 우수하나 상대적으로 느릴 수 있습니다. 프로젝트의 특성과 요구사항에 따라 적절한 로더 선택과 메타데이터 활용 전략이 중요합니다.
분할 (Split):
- 청크(Chunk)의 의미론적 단위: 긴 문서를 LLM이 처리하기 적합한 작은 '청크'로 나누는 과정은 RAG 성능에 결정적인 영향을 미칩니다. 각 청크는 독립적으로 의미를 가질 수 있는 '의미론적 단위'여야 하며, 너무 작으면 맥락 손실, 너무 크면 비관련 정보 포함 및 LLM 처리 비용 증가 문제를 야기할 수 있습니다.
- 주요 분할 전략:
  - 재귀적 분할 (Recursive Splitters): RecursiveCharacterTextSplitter가 대표적이며, 여러 구분자를 계층적으로 적용하여 문서의 논리적 구조(문단, 문장, 단어 등)를 최대한 보존하면서 분할합니다. 이는 가장 일반적으로 사용되는 방법입니다.
  - 형식별 분할 (Format-specific Splitters): HTML, JSON, 코드, Markdown 등 특정 문서 형식의 구조를 이해하고 해당 구조에 맞춰 분할합니다. 예를 들어 HTMLSectionSplitter는 HTML의 헤더 태그(<h1>, <h2>)를 기준으로 문서를 분할하여 구조적 맥락을 유지할 수 있습니다.
  - 컨텍스트 인식 분할 (Context-aware Splitters): 문장이나 페이지 단위로 분할하여 의미 단위의 훼손을 최소화합니다. spaCy, NLTK와 같은 자연어 처리 라이브러리를 활용할 수 있습니다.
- 청크 크기 및 오버랩 (Chunk Size & Overlap) 최적화: 청크 크기는 LLM의 컨텍스트 윈도우 한계와 비용, Latency를 고려하여 결정됩니다. 명확한 표준은 없으나, 서비스 스펙 허용 범위 내에서 (대체로) 크게 설정하고 실험을 통해 최적점을 찾는 것이 권장됩니다. 청크 간의 '오버랩'은 정보의 연속성을 유지하고, 분할 경계에서 의미가 잘리는 것을 방지합니다.
- 서브워드 토크나이저: BPE (Byte Pair Encoding)나 WordPiece와 같은 서브워드 토크나이저는 희귀 단어 및 OOV(Out-Of-Vocabulary) 문제를 처리하는 데 유용하며, 각각 GPT와 BERT와 같은 주요 LLM에서 사용됩니다.
임베딩 (Embed):
- 의미 벡터 공간 생성: 텍스트 청크를 다차원 벡터 공간의 '임베딩'으로 변환하는 과정입니다. 이 벡터들은 텍스트의 의미를 함축하여, 유사한 의미를 가진 텍스트가 벡터 공간에서도 가깝게 위치하도록 합니다.
- 임베딩 모델 선택 기준:
  - 성능 리더보드: Hugging Face의 MTEB (Massive Text Embedding Benchmark) 리더보드는 다양한 임베딩 모델의 성능을 비교하는 표준적인 자료입니다. 모델 크기, 메모리 사용량, 임베딩 차원, 최대 토큰 수, 그리고 특정 태스크(분류, 클러스터링, 검색 등)에 대한 성능을 종합적으로 고려해야 합니다.
  - 태스크 및 언어 지원: 모델별로 특정 태스크나 언어에 대한 성능이 다르므로, 서비스에서 요구되는 태스크와 가장 비슷한 데이터셋에서의 결과 및 다국어 지원 여부를 확인해야 합니다.
  - 비용과 속도: OpenAI의 유료 임베딩 모델은 API 호출 방식으로 편리하며 다국어 지원이 우수하나, 토큰 수에 비례하여 과금됩니다. 오픈 소스 임베딩 모델은 자체 인프라 구축이 필요하지만 비용 효율적입니다.
  - Fine-tuning 및 캐싱: 특정 도메인에 맞춰 임베딩 모델을 추가 학습(Fine-tuning)하여 성능을 높일 수 있으며, 반복되는 임베딩 계산을 줄이기 위해 캐싱을 적용하여 비용을 절감할 수 있습니다.
저장 (Store):
- 벡터 스토어 (Vector Store): 임베딩된 벡터를 효율적으로 저장하고 관리하며, 질의 벡터와의 유사성을 기반으로 가장 관련성 높은 문서 청크를 빠르게 검색할 수 있도록 최적화된 데이터베이스입니다.
- 유사도 검색 (Similarity Search): 사용자 질문이 임베딩 벡터로 변환되면, 이 벡터와 벡터 스토어에 저장된 문서 청크들의 임베딩 벡터 간의 유사도를 계산하여 (예: 코사인 유사도, L2 거리) 가장 유사한 청크들을 반환합니다. HNSW (Hierarchical Navigable Small World)와 같은 Approximate Nearest Neighbor (ANN) 알고리즘은 대규모 벡터 데이터셋에서 고속의 유사도 검색을 가능하게 합니다.
- 벡터 스토어 종류 및 선택 기준:
  - 전용 벡터 데이터베이스: Chroma, FAISS, Pinecone, Milvus, Weaviate, Qdrant, Vespa, Drant, LanceDB 등이 있습니다.
  - 벡터 검색을 지원하는 일반 데이터베이스: PostgreSQL (pgvector 확장), Elasticsearch, Redis, ClickHouse, Cassandra, SingleStore, ROCKSET 등이 있습니다. 이들은 기존 데이터베이스와의 통합이 용이하다는 장점이 있습니다.
  - 선택 고려 사항: 오픈소스 여부, 라이선스, 확장성, 성능 (Latency), 지원 기능 (메타데이터 필터링, 하이브리드 검색, 백업, 모니터링, 보안), 기존 데이터베이스와의 연동 여부 등을 종합적으로 고려하여 서비스에 적합한 솔루션을 선택해야 합니다.

2. 답변 생성 (Generation) 단계 최적화

검색된 관련성 높은 문서 청크들이 준비되면, 이 정보를 LLM에 전달하여 최종 답변을 생성하는 단계입니다. 이 과정은 단순한 정보 전달을 넘어, LLM이 그 정보를 가장 효과적으로 활용하도록 안내하는 프롬프트 구성이 중요합니다.

프롬프트 설계: 검색된 context와 사용자의 question을 LLM이 이해하고 활용하기 쉽도록 특정 prompt 형태로 구성합니다. LangChain과 같은 프레임워크는 RAG에 최적화된 프롬프트 템플릿을 제공하며, 이를 통해 HumanMessage와 같은 메시지 객체로 구성하여 LLM에 전달할 수 있습니다.
체인 정의 (Define Chain): 검색(Retrieval)된 정보와 생성(Generation) 로직을 하나의 연결된 파이프라인으로 정의합니다. RunnablePassthrough나 StrOutputParser와 같은 컴포넌트를 사용하여 검색된 문서를 특정 형식으로 포맷팅하고, 이를 프롬프트에 주입하며, LLM의 출력을 파싱하는 과정을 자동화할 수 있습니다. 이 rag_chain은 사용자의 질문이 들어왔을 때 자동으로 검색 및 답변 생성을 수행합니다.

3. RAG의 성능 향상을 위한 고급 전략 (Advanced RAG)

RAG 파이프라인은 여러 모듈의 결합으로 이루어져 있으며, 각 모듈의 성능 향상은 전체 시스템의 개선으로 이어집니다. 다음은 RAG의 효율성과 정확도를 더욱 높이기 위한 심화 기법들입니다.

질의 변환 (Query Translation): 사용자의 원본 질문을 LLM이 검색하기 더 좋은 형태로 변환하는 과정입니다. 질문의 의도를 명확히 하거나, 다양한 관점으로 확장하거나, 필요한 정보를 직접적으로 요청하도록 변환합니다.
- 다중 질의 (Multi-query): 하나의 질문에서 여러 개의 유사하거나 보완적인 질문을 생성하여, 벡터 스토어에서 더 다양한 관련 문서를 검색하도록 합니다. 이는 단일 질의로는 필요한 정보를 다 담지 못할 수 있는 한계를 극복합니다. 생성된 질의들은 각각 문서를 검색하고, 이들을 합쳐 최종 LLM에 전달됩니다.
- RAG-Fusion: 다중 질의로 검색된 문서들에 대해 'Reciprocal Rank Fusion (RRF)'과 같은 재랭킹(Re-rank) 알고리즘을 적용하여 최종적으로 가장 관련성 높은 문서를 선별합니다. LLM은 검색된 문서의 위치에 따라 답변의 정확도가 달라지는 경향이 있는데 ('Lost in the Middle' 현상), 재랭킹은 이 문제를 완화하고, 핵심 정보를 상단에 배치하여 LLM의 답변 품질을 높입니다. LLM reranker, Sentence Transformer, CrossEncoder 등 다양한 랭커를 사용할 수 있습니다.
  reranker 참고
- 분해 (Decomposition): 복잡한 질문을 여러 개의 하위 질문으로 분해하여 각각에 대해 답변을 찾고, 그 답변들을 통합하여 최종 결과를 도출합니다. 이는 'Least to Most' 프롬프트 엔지니어링 기법과 유사하며, LLM이 복잡한 문제를 단계별로 처리하도록 유도하여 더 정확한 답변을 생성하게 합니다.
- Step-back Prompting: 질문에서 일반적인 개념이나 전제를 묻는 "스텝백 질문"을 생성하고, 이에 대한 답변을 먼저 얻은 다음, 원래 질문과 함께 LLM에 제공하여 더 넓은 맥락에서 추론하도록 돕습니다.
- HyDE (Hypothetical Document Embeddings): 질문에 대한 '가상의 답변(Hypothetical Document)'을 LLM이 먼저 생성하고, 이 가상 답변의 임베딩을 사용하여 실제 문서를 검색하는 방식입니다. 이는 질문 자체보다 더 풍부한 맥락으로 검색을 수행하여 의미론적 유사도 검색의 한계를 보완합니다.
라우팅 (Routing): 여러 데이터 소스(Vector DB, Relational DB, Graph DB 등)가 존재할 때, 사용자의 질문 유형에 따라 가장 적절한 데이터 소스로 질의를 전달하는 기술입니다.
- Logical Routing (논리적 라우팅): LLM이 질문의 내용을 분석하여 어떤 데이터베이스를 사용할지 논리적으로 판단합니다. 예를 들어, 프로그래밍 언어에 대한 질문이라면 해당 언어의 문서를 담은 DB로 라우팅하는 식입니다.
- Semantic Routing (의미적 라우팅): 질문 임베딩과 각 프롬프트/데이터 소스의 임베딩 간의 유사도를 기반으로 가장 적합한 프롬프트나 데이터 소스로 라우팅을 결정합니다. 예를 들어, "물리학 질문"에는 물리학 교수 역할을 하는 프롬프트로, "수학 질문"에는 수학자 역할을 하는 프롬프트로 질문을 보냅니다.
- 질의 구조화 (Query Structuring): 질문에서 메타데이터(예: 날짜, 작성자, 제목 등)를 추출하여 벡터 스토어의 필터링 조건으로 활용함으로써, 검색 범위를 좁히고 정확도를 높입니다. 예를 들어, 유튜브 동영상 검색 시 제목, 조회수, 게시일 등을 필터 기준으로 사용할 수 있습니다.
인덱싱 (Indexing): 문서를 벡터 스토어에 저장하는 방식을 최적화하여 검색 성능을 높이는 기법입니다.
- 다중 표현 인덱싱 (Multi-representation Indexing): 원본 문서를 문장, 문단, 문서 전체, 혹은 '명제(Proposition)'와 같은 다양한 단위로 분할하여 각각을 임베딩하고 저장합니다. 특히 명제 단위로 분할하여 인덱싱할 때 검색 및 QA 성능이 향상될 수 있습니다. 이는 더 미세한 의미 단위로 검색이 가능하게 합니다.
- Parent Document (부모 문서): 작은 청크를 검색하고, 이 청크가 속한 더 큰 부모 문단이나 문서 전체를 LLM에게 제공하여 답변의 맥락을 풍부하게 합니다. 이는 검색 정확도를 유지하면서 LLM에 풍부한 컨텍스트를 제공하는 데 유용합니다.
- RAPTOR (Recursive Abstractive Processing For Tree Organized Retrieval): 문서를 클러스터링하고, LLM으로 요약하며, 이를 계층적인 트리 구조로 인덱싱하여 검색하는 방식입니다. 이는 다양한 추상화 수준에서 검색을 가능하게 하여 요약이나 전체 내용을 파악하는 태스크에 강점을 보입니다.
- Specialized Embeddings: 특정 도메인이나 태스크에 특화된 임베딩 모델을 사용하거나, 기존 임베딩 모델을 Fine-tuning하여 성능을 최적화합니다.
검색 결과 정제 (Retrieval Refinement): 검색된 문서들을 LLM에 전달하기 전에 추가적인 처리(재랭킹, 필터링 등)를 통해 관련성을 높이는 과정입니다.
- Re-rank (재랭킹): 검색된 문서들의 순위를 다시 매겨 가장 관련성 높은 문서가 LLM에 먼저 전달되도록 합니다. Bi-encoder와 Cross-encoder 같은 모델을 사용하여 검색된 문서와 질문 간의 관련성을 다시 평가합니다.
- Corrective RAG (CRAG): 검색된 문서가 질문에 정확한지 평가하고, 만약 정확하지 않거나 모호할 경우 추가적인 검색이나 지식 수정을 통해 답변의 품질을 향상시키는 기법입니다.

4. RAG의 실제 서비스 적용 및 도전 과제 심층 분석

RAG 시스템을 실제 서비스에 성공적으로 적용하기 위해서는 단순한 기술 구현을 넘어선 다양한 고려사항과 도전 과제들을 해결해야 합니다.

파이프라인 오케스트레이션: RAG 시스템은 여러 모듈(로드, 분할, 임베딩, 저장, 질의 변환, 라우팅, 검색, 생성 등)로 구성되어 있어, 이들의 유기적인 연동을 위한 오케스트레이션이 필수적입니다. 이는 컨텍스트 구축, 읽기/쓰기 액션 관리, 캐싱, 모델 게이트웨이 등의 기능을 포함합니다.
대규모 데이터 관리 및 업데이트: 방대한 양의 데이터를 임베딩하고 관리하며, 새로운 정보가 지속적으로 유입될 때 벡터 스토어를 효율적으로 업데이트하는 전략(증분 업데이트, 재인덱싱)이 중요합니다.
검색 품질의 문제 (Poor / Inaccurate Retrieval):
- Low Precision (낮은 정밀도): 검색된 청크에 질문과 관련 없는 '노이즈'가 포함될 경우, LLM이 잘못된 정보를 기반으로 답변하거나 '환각(Hallucination)'을 일으킬 수 있습니다. 재랭킹, 필터링, CRAG 같은 기술을 통해 이를 개선합니다.
- Low Recall (낮은 재현율): 질문에 대한 답변을 찾을 수 있는 관련 청크가 검색되지 않는 경우, LLM은 '충분한 맥락이 없다'고 판단하거나 불완전하거나 잘못된 답변을 생성할 수 있습니다. 다중 질의, 계층적 인덱싱 등이 도움이 될 수 있습니다.
데이터 품질 및 다양성: 현실 세계의 데이터는 깨끗하지 않고, 형식이 다양하며, 오래되거나 부정확한 정보를 포함할 수 있습니다. 데이터 전처리 및 정제 과정이 RAG 성능에 매우 중요합니다.
비용과 Latency: RAG 파이프라인의 여러 단계(임베딩, 검색, LLM 호출)는 상당한 컴퓨팅 자원과 시간을 소모합니다. 특히 실시간 서비스에서는 Latency가 중요하며, 이를 줄이기 위한 캐싱, 최적화, 경량화 전략이 필수적입니다.
보안 및 규정 준수: 민감한 데이터를 다룰 경우, 데이터 접근 제어, 암호화, 개인 정보 비식별화(PII redaction) 등 보안 및 규정 준수(GDPR, HIPAA 등)를 철저히 지켜야 합니다.

5. RAG 평가 (RAG evaluation) 심화

RAG 파이프라인의 성능을 객관적으로 측정하고 지속적으로 개선하기 위해서는 체계적인 평가 방법론이 필수적입니다.

평가 메트릭 설정:
- 검색 (Retrieval) 단계 평가: 검색된 문서가 얼마나 관련성 있고 유용한지 측정합니다. Precision (정밀도), Recall (재현율), Mean Reciprocal Rank (MRR), Mean Average Precision (MAP), Normalized Discounted Cumulative Gain (NDCG) @K 등의 지표를 활용합니다.
- RAG (생성) 단계 평가: LLM이 생성한 답변의 품질을 측정합니다.
  - 정답 라벨이 있는 경우: 생성된 답변이 미리 정의된 정답과 얼마나 일치하는지 평가합니다 (예: Exact Match, F1 Score).
  - 정답 라벨이 없는 경우: LLM 자체 또는 외부 평가 모델을 사용하여 답변의 품질을 평가합니다. 주요 평가 항목은 다음과 같습니다:
    - Faithfulness (신뢰성): 생성된 답변이 검색된 원본 문서의 내용에 얼마나 충실한지 (즉, 할루시네이션이 없는지).
    - Relevancy (관련성): 생성된 답변이 질문의 의도에 얼마나 적절한지.
    - Coherence (일관성): 답변의 논리적 흐름과 자연스러움.
    - Toxicity/Bias Free: 답변에 유해하거나 편향된 내용이 없는지.
평가 데이터셋:
- 벤치마크 데이터셋: TREC DL19/20과 같은 공개된 표준 벤치마크 데이터셋을 활용하여 다양한 RAG 기법의 성능을 비교합니다.
- 자체 데이터셋: 특정 도메인이나 서비스에 특화된 자체 데이터셋을 구축하여 평가하는 것이 가장 실제적인 성능을 반영합니다.
- 합성 데이터셋: RAGAS와 같은 프레임워크는 LLM을 활용하여 자동으로 질문-답변 쌍을 생성하고, 이를 기반으로 평가를 수행할 수 있게 해줍니다. 이는 수동으로 데이터셋을 구축하는 노력과 비용을 크게 줄여줍니다.
평가 도구: RAGAS, PromptBench, OpenAI Evals, Langchain-AI Auto Evaluator와 같은 프레임워크와 라이브러리를 활용할 수 있습니다.

'Machine Learning' 카테고리의 다른 글

Low-rank Approximation vs. Quantization 비교 (3)	2025.07.28
LLM 파인튜닝 방법론 (3)	2025.07.26
프롬프트 엔지니어링 완벽 가이드 (0)	2025.07.26
Re-ranker, Bi-encoder vs Cross-encoder: RAG 시스템을 더 똑똑하게! (0)	2025.07.22
Preference learning with automated feedback for cache eviction (0)	2023.07.08