1. 양자화란?양자화는 딥러닝 모델의 숫자 표현을 float에서 정수(int)로 바꾸는 과정.기본적으로 딥러닝 모델은 float32(32비트 부동소수점) 숫자를 사용합니다.하지만 이런 계산은 연산 속도 느리고, 메모리 많이 차지하고, 전력 소모가 큽니다.그래서 float → int8 또는 int4 같은 저정밀도 정수로 바꿔모델을 더 작고, 빠르게, 저전력으로 만듭니다.2. 양자화의 3가지 주요 방식양자화는 사용 목적과 상황에 따라 다음 세 가지 방식으로 나뉩니다: 1. 이미 양자화된 모델을 불러와서 사용 2. Post Training Quantization (PTQ)3. Quantization Aware Training (QAT) 1. 이미 Quantized된 모델 사용 (가장 많이 사용)이미 양자화가..
1. 핵심 개념 Low-rank ApproximationQuantization정의행렬 W\in\mathbb R^{m\times n}를 저차원 랭크 k의 두 행렬 U(m\times k), V^T(k\times n)의 곱으로 근사실수형 가중치/활성화를 8/4/2/1-bit 정수값으로 매핑주된 기법SVD, PCA 등으로 특이값 기반 차원 축소Uniform/Non-uniform 그리드로 실수→정수 변환 (PTQ/QAT)오차 특성전역적 재구성 오차 (특이값 일부 제외)값별 양자화 잡음 (계단식 오류)모델 변형구조 변경 후 재학습(미세조정) 가능런타임 스케일·제로포인트 관리 필요 2. 성능·메모리 이점Low-rank연산: O(mn k) → O(mk + k n) (두 개의 작은 GEMM)메모리: 원본 대비 \frac..
파인튜닝의 주요 방법론 및 고급 기법파인튜닝은 모델의 모든 파라미터를 업데이트하는 전통적인 방식부터, 컴퓨팅 자원과 시간을 획기적으로 절약하는 효율적인 기법(PEFT)까지 다양하게 발전해왔습니다.1. 파인튜닝 프로세스: 단계별 이해파인튜닝은 다음의 체계적인 단계를 거쳐 진행됩니다.학습 데이터 준비 (Training Data Preparation):고품질 데이터셋의 중요성: 파인튜닝의 성패는 학습 데이터셋의 품질에 크게 좌우됩니다. 데이터의 양도 중요하지만, 품질과 다양성이 훨씬 더 중요합니다. 예를 들어, 스탠포드의 Alpaca 모델이 5.2만 개의 예시로 학습되었음에도 불구하고, Meta의 LIMA(Less Is More for Alignment) 모델은 단 1,000개의 고품질 예시만으로 유사하거나 ..
RAG (Retrieval Augmented Generation) 심층 분석: LLM의 한계를 넘어서는 지식 확장 기술의 핵심과 고급 전략1. RAG 파이프라인의 핵심 구성 요소 및 최적화 (Where to Retrieve?)RAG 시스템의 근간은 LLM이 참조할 수 있는 고품질의 외부 지식 기반을 효율적으로 구축하고 활용하는 것입니다. 이 과정은 데이터 수집부터 벡터화, 그리고 검색에 이르기까지 정교한 설계와 최적화가 필수적입니다.로드 (Load):다양한 데이터 소스 수집: RAG는 PDF, JSON, HTML, Markdown, CSV 등 다양한 정적 문서 형식은 물론, GitHub, Notion, Slack, Google Drive와 같은 클라우드 기반 서비스, 그리고 다양한 관계형/NoSQL 데이..
AI를 내 마음대로 조종하는 6가지 프롬프트 전략OpenAI를 비롯한 많은 선도 기업들은 효과적인 프롬프트 엔지니어링을 위한 다양한 전략을 제시하고 있습니다. 다음은 그중에서도 가장 핵심적인 6가지 전략입니다.명확한 지시 작성: 모호하지 않고 구체적인 지시를 내려야 AI가 혼란 없이 작업을 수행합니다. 예를 들어, "글을 써줘" 대신 "친구가 보낼 격식 있는 생일 축하 이메일을 작성해줘"와 같이 구체적으로 지시하는 것이 좋습니다.참조 텍스트 제공: AI가 답변을 생성할 때 참고할 수 있는 관련 정보나 예시를 제공하면, AI는 더 정확하고 일관된 답변을 내놓을 수 있습니다.복잡한 작업을 단순하게 분할: 한 번에 너무 많은 것을 요구하기보다는, 복잡한 작업을 여러 개의 작은 하위 작업으로 나누어 단계별로 지..
RAG Re-ranker, Bi-encoder vs Cross-encoder: 당신의 RAG 시스템을 더 똑똑하게!안녕하세요! 요즘 인공지능 분야에서 가장 뜨거운 키워드 중 하나는 바로 RAG (Retrieval Augmented Generation)입니다. 대규모 언어 모델(LLM)의 환각(Hallucination) 문제를 줄이고 답변의 정확도를 높이는 데 핵심적인 기술이죠. RAG는 크게 세 단계로 나뉩니다: 검색 (Retrieval) - 재랭킹 (Re-rank) - 생성 (Generation).오늘은 이 중에서 '재랭킹(Re-rank)' 단계의 핵심인 Bi-encoder와 Cross-encoder에 대해 자세히 알아보고, 실제 RAG 시스템에서 이 두 가지를 어떻게 활용하면 되는지 상세한 사용 사례..