양자화(Quantization)
1. 양자화란?양자화는 딥러닝 모델의 숫자 표현을 float에서 정수(int)로 바꾸는 과정.기본적으로 딥러닝 모델은 float32(32비트 부동소수점) 숫자를 사용합니다.하지만 이런 계산은 연산 속도 느리고, 메모리 많이 차지하고, 전력 소모가 큽니다.그래서 float → int8 또는 int4 같은 저정밀도 정수로 바꿔모델을 더 작고, 빠르게, 저전력으로 만듭니다.2. 양자화의 3가지 주요 방식양자화는 사용 목적과 상황에 따라 다음 세 가지 방식으로 나뉩니다: 1. 이미 양자화된 모델을 불러와서 사용 2. Post Training Quantization (PTQ)3. Quantization Aware Training (QAT) 1. 이미 Quantized된 모델 사용 (가장 많이 사용)이미 양자화가..